10/09/2025
Overfitting xảy ra khi mô hình quá phức tạp, quá khớp với dữ liệu huấn luyện, học luôn cả những nhiễu và biến thể ngẫu nhiên trong dữ liệu, dẫn đến mất khả năng tổng quát hóa dữ liệu.
Theo báo cáo của McKinsey Global Institute, AI có thể đóng góp thêm khoảng 13 nghìn tỷ USD vào GDP toàn cầu đến năm 2030, tương đương mức tăng 1,2 %/năm. Trước xu hướng này, nhu cầu xây dựng các mô hình máy học vừa chính xác vừa hiệu quả trở thành ưu tiên hàng đầu. Tuy nhiên, một thách thức lớn luôn tồn tại là hiện tượng overfitting. Vậy overfitting là gì, ảnh hưởng ra sao, và làm thế nào để khắc phục? Hãy cùng VNPT AI tìm hiểu trong bài viết dưới đây.
Overfitting (Quá khớp) là hiện tượng xảy ra khi một mô hình học máy học quá kỹ dữ liệu huấn luyện đến mức thuộc lòng cả những chi tiết nhỏ, kể cả nhiễu trong dữ liệu. Kết quả là, mô hình hoạt động rất tốt trên dữ liệu huấn luyện, nhưng lại dự đoán kém khi gặp dữ liệu mới chưa từng thấy.
Ví dụ thực tế:
Hãy tưởng tượng bạn luyện thi bằng cách học thuộc từng câu hỏi trong đề thi cũ. Khi thi thật, chỉ cần đề thay đổi một chút, bạn sẽ lúng túng - đó chính là “overfitting” trong học máy.

Trong quá trình xây dựng mô hình học máy, việc cân bằng giữa học quá nhiều (overfitting) và học chưa đủ (underfitting) là một thách thức lớn. Cả hai hiện tượng đều dẫn đến kết quả dự đoán kém, nhưng theo hai cách rất khác nhau.
Overfitting | Underfitting | |
| Định nghĩa | Mô hình học quá kỹ dữ liệu huấn luyện, bao gồm cả nhiễu và chi tiết không quan trọng. | Mô hình quá đơn giản hoặc chưa học đủ để nắm bắt được xu hướng chính trong dữ liệu. |
| Hiệu suất trên dữ liệu huấn luyện | Rất cao | Thấp |
| Nguyên nhân | - Mô hình quá phức tạp - Huấn luyện quá lâu - Dữ liệu chứa nhiều nhiễu | - Mô hình quá đơn giản - Huấn luyện chưa đủ - Dữ liệu đầu vào thiếu thông tin cần thiết |
| Đặc điểm kỹ thuật | - Phương sai (variance) cao - Độ chệch (bias) thấp | - Phương sai thấp - Độ chệch cao |
| Hậu quả | Mô hình bị "lệch" theo dữ liệu cũ, không áp dụng được cho dữ liệu mới | Mô hình không đủ năng lực để học, dẫn đến dự đoán sai ngay cả trên dữ liệu cũ |
>>> Bạn có thể quan tâm: Fine-tuning là gì?
Overfitting xảy ra khi mô hình học máy không thể khái quát hóa tốt cho dữ liệu mới, mà lại học quá chi tiết, thậm chí học cả nhiễu trong tập dữ liệu huấn luyện. Một số nguyên nhân phổ biến dẫn đến overfitting bao gồm:
Dưới đây là một số dấu hiệu giúp người dùng nhận biết hiện tượng Overfitting:
1. Hiệu suất chênh lệch lớn giữa dữ liệu huấn luyện và dữ liệu kiểm tra
Nếu mô hình đạt độ chính xác cao trên tập huấn luyện nhưng lại cho kết quả sai lệch hoặc có tỷ lệ lỗi cao trên tập kiểm tra, đây là dấu hiệu rõ ràng của overfitting.
Ví dụ: Accuracy train = 98%, nhưng accuracy test chỉ = 72%.

2. Kết quả kiểm tra bằng kỹ thuật K-fold Cross-validation không ổn định
K-fold Cross-Validation là một phương pháp hiệu quả để phát hiện overfitting. Tập dữ liệu huấn luyện được chia đều thành K phần. Trong mỗi vòng lặp, mô hình được huấn luyện trên K-1 phần và kiểm tra trên phần còn lại.
Sau K vòng lặp, tính điểm trung bình hiệu suất của mô hình trên các lớp để đánh giá tổng thể. Nếu điểm số giữa các lớp dao động mạnh hoặc kết quả kiểm tra thấp hơn đáng kể so với kết quả huấn luyện, đó là dấu hiệu cho thấy mô hình bị overfit.
3. Trực quan hóa mô hình
Với các mô hình như cây quyết định hoặc mạng nơ-ron, người dùng có thể trực quan hóa ranh giới phân loại hoặc biểu diễn đã học. Nếu mô hình tạo ra ranh giới quá phức tạp, uốn lượn sát theo dữ liệu huấn luyện, đó là dấu hiệu overfitting - mô hình đang học thuộc thay vì tổng quát hóa.
4. Biểu đồ đường cong học tập (Learning curve)
Người dùng có thể vẽ biểu đồ so sánh sai số của mô hình trên tập huấn luyện và tập kiểm tra khi tăng dần lượng dữ liệu. Nếu mô hình càng học thì sai số trên tập huấn luyện càng giảm, nhưng sai số trên tập kiểm tra lại vẫn cao hoặc tăng lên thì đó là dấu hiệu rõ ràng cho thấy mô hình đang quá khớp dữ liệu huấn luyện.
Overfitting ảnh hưởng tiêu cực đến hiệu suất và khả năng áp dụng thực tế của mô hình học máy, cụ thể:
Để mô hình học máy không bị rơi vào tình trạng học quá mức, người dùng có thể áp dụng các phương pháp sau để khắc phục tình trạng overfitting:
>>> Tìm hiểu thêm: Batch Normalization là gì?
Dưới đây là một số ví dụ về overfitting trong thực tế:
Giả sử bạn xây dựng một mô hình nhận diện giọng nói để chuyển lời nói thành văn bản. Bộ dữ liệu huấn luyện chủ yếu là giọng nói của một nhóm người nói chuẩn, không có nhiều biến thể về giọng địa phương, tốc độ nói hay tiếng ồn nền.
Trong quá trình kiểm thử, mô hình hoạt động rất tốt khi nghe giọng từ nhóm người này. Tuy nhiên, khi gặp giọng nói của người khác với âm điệu, ngữ điệu, hoặc tiếng ồn nền khác, mô hình thường xuyên nhận diện sai hoặc không hiểu chính xác. Lý do là mô hình đã học quá chi tiết đặc điểm của giọng nói nhóm huấn luyện, không thể tổng quát hoá cho các kiểu giọng đa dạng khác nhau. Đây chính là hiện tượng overfitting do dữ liệu huấn luyện chưa đủ đa dạng.

Giả sử một mô hình trên xe tự lái được huấn luyện chủ yếu với hình ảnh chụp trong điều kiện trời nắng, ánh sáng đầy đủ. Mô hình này sẽ hoạt động rất tốt khi xe chạy dưới trời nắng, vì nó đã học được các đặc điểm rõ ràng của người đi bộ, xe đạp hay các phương tiện khác trong điều kiện ánh sáng tốt.
Tuy nhiên, khi xe gặp phải mưa lớn, sương mù hoặc trời tối, mô hình thường không nhận diện chính xác các vật thể xung quanh. Nguyên nhân là do mô hình đã "quen" với dữ liệu có điều kiện ánh sáng lý tưởng và không học được cách xử lý các tình huống phức tạp hơn.
Tạm kết
Hy vọng rằng bài viết của VNPT AI giúp bạn đọc hiểu overfitting là gì và ảnh hưởng của hiện tượng này. Việc nhận diện, ngăn ngừa và khắc phục overfitting đòi hỏi sự cân bằng hợp lý giữa độ phức tạp của mô hình và chất lượng, sự đa dạng của dữ liệu huấn luyện. Do đó, hiểu rõ bản chất và áp dụng các kỹ thuật quản lý overfitting không chỉ nâng cao hiệu suất dự đoán mà còn đảm bảo sự bền vững và khả năng mở rộng của các giải pháp trí tuệ nhân tạo trong nhiều lĩnh vực ứng dụng khác nhau.
Tin mới nhất
VNPT AI
Hãy trở thành đối tác của chúng tôi ngay hôm nay để được sử dụng những dịch vụ hàng đầu!
Gửi lời nhắnĐánh Giá