16/12/2025
Mô hình underfitting thường xảy ra do độ phức tạp thấp, dữ liệu huấn luyện không đủ hoặc chưa được làm sạch, regularization quá mạnh, hoặc thiếu đặc trưng quan trọng. Điều này khiến mô hình không tổng quát hóa tốt, dự đoán dựa trên dữ liệu thực té kém chính xác.
Trong Machine Learning (học máy), Underfitting xảy ra khi mô hình quá đơn giản, không đủ năng lực học các quy luật phức tạp trong dữ liệu, dẫn đến hiệu suất thấp. Hiện tượng này thường bị bỏ qua do ít phổ biến hơn Overfitting, nhưng nó là rào cản lớn ngăn mô hình hoạt động hiệu quả. Bài viết này sẽ VNPT AI sẽ giúp bạn cách nhận biết và cung cấp các phương pháp tối ưu để khắc phục triệt để tình trạng Underfitting.
Underfitting (thiếu khớp/chưa khớp) là một hiện tượng thường thấy trong học máy, xảy ra khi mô hình quá đơn giản, không đủ khả năng học được các quy luật tiềm ẩn trong dữ liệu. Khi đó, mô hình vừa cho kết quả kém trên tập huấn luyện vừa hoạt động không tốt trên dữ liệu kiểm thử.
Đặc trưng của Underfitting là độ chệch cao (high bias) và độ biến thiên thấp (low variance). Nghĩa là, mô hình đưa ra những giả định quá mạnh mẽ, ví dụ chỉ xem mối quan hệ dữ liệu là tuyến tính trong khi thực tế phức tạp hơn.

Một số nguyên nhân gây ra hiện tượng Underfitting phổ biến gồm có:

Underfitting có thể được phát hiện thông qua việc phân tích hiệu suất của mô hình trên dữ liệu huấn luyện và kiểm thử. Một số dấu hiệu thường gặp giúp nhận biết hiện tượng này, gồm:

Để khắc phục Underfitting, cần áp dụng các kỹ thuật giúp mô hình học tốt hơn các quy luật trong dữ liệu. Một số giải pháp phổ biến gồm:
Loại bỏ các dữ liệu nhiễu không cần thiết để tránh hiện tượng Underfitting
Underfitting và Overfitting là hai vấn đề đối lập trong lĩnh vực học máy, liên quan trực tiếp đến khả năng mô hình khái quát hóa dữ liệu. Nếu Underfitting xảy ra khi mô hình quá đơn giản, thì Overfitting xuất hiện khi mô hình quá phức tạp và học thuộc cả nhiễu trong tập dữ liệu.
Dưới đây là bảng so sánh tổng quan của hai hiện tượng này:
Tiêu chí | Underfitting | Overfitting |
Mức độ phức tạp | Quá đơn giản | Quá phức tạp |
Sai số huấn luyện | Cao | Thấp |
Sai số kiểm thử | Cao | Cao |
Hiệu suất dự đoán | Không chính xác, kém khái quát hóa | Chính xác trên tập huấn luyện, kém tổng quát |
Nguyên nhân chính | Ít tham số, huấn luyện chưa đủ lâu | Quá nhiều tham số, huấn luyện quá lâu hoặc thêm nhiều đặc trưng không cần thiết |
Đặc định chính của Underfitting và Overfitting như sau:
Underfitting:
Overfitting:
Dưới đây là một số ví dụ tiêu biểu minh họa cho hiện tượng Underfitting:
Khi xây dựng mô hình dự đoán giá nhà, nếu chỉ sử dụng quá ít đặc trưng (features) như diện tích và số phòng, mô hình sẽ không tiếp cận được các thông tin quan trọng khác. Ví dụ, mô hình có thể dự đoán một căn hộ nhỏ là giá rẻ mà không biết rằng căn hộ đó nằm ở khu vực đắt đỏ bậc nhất (Hoàn Kiếm, Tây Hồ,...).

Trong các ứng dụng nhận dạng giọng nói, mô hình chuyển đổi sóng âm thành dữ liệu. Nếu nhà phát triển chỉ cung cấp các đặc trưng được đơn giản hóa quá mức như tần số và âm lượng, mô hình sẽ bị thiếu hụt dữ liệu ngữ cảnh (ví dụ như: âm sắc, ngữ điệu, giọng địa phương). Kết quả, mô hình sẽ bị gặp khó khăn khi trong quá trình nhận lệnh cơ bản.
Khi huấn luyện mô hình phân loại ảnh với mạng nơ-ron nông hoặc cấu trúc đơn giản, mô hình không thể học được đặc trưng phức tạp như hình dạng hay chi tiết vật thể. Ví dụ, dùng mạng nơ-ron truyền thẳng (mạng hai lớp) để nhận diện quả bóng sẽ làm mất thông tin không gian, khiến mô hình nhầm lẫn giữa các vật thể có hình tròn tương tự.
Một mô hình chỉ dựa trên nhiệt độ trung bình và độ ẩm để dự đoán lượng mưa sẽ không đủ để phản ánh các yếu tố khí tượng phức tạp như hướng gió, áp suất hay chu kỳ mùa. Do đó, kết quả dự báo thường kém chính xác và thiếu độ ổn định.

Tạm kết:
Hy vọng bài viết đã giúp bạn đọc nhận diện chính xác và hiểu rõ hơn về Underfitting - lỗi mô hình thường thấy trong lĩnh vực học máy. Tóm lại, Underfitting xảy ra khi mô hình quá đơn giản hoặc thiếu dữ liệu đặc trưng cần thiết. Việc khắc phục thành công đòi hỏi phải tăng cường độ phức tạp của mô hình, bổ sung đặc trưng dữ liệu, hoặc giảm thiểu Regularization hợp lý. Nắm vững những chiến lược này là chìa khóa để xây dựng các mô hình học máy đạt hiệu suất tối ưu trong thực tế.
Tin mới nhất
VNPT AI
Hãy trở thành đối tác của chúng tôi ngay hôm nay để được sử dụng những dịch vụ hàng đầu!
Gửi lời nhắnĐánh Giá