Trong lĩnh vực trí tuệ nhân tạo, Zero-shot learning đang trở thành một hướng đi quan trọng giúp mô hình xử lý các nhiệm vụ mới mà không cần dữ liệu huấn luyện trực tiếp. Phương pháp này được ứng dụng trong nhiều lĩnh vực khác nhau, từ phân loại văn bản, nhận diện hình ảnh cho đến hệ thống gợi ý sản phẩm, mở ra tiềm năng ứng dụng rộng rãi. Bài viết này của VNPT AI sẽ giúp bạn đọc hiểu rõ Zero-shot learning là gì, cách thức hoạt động, các kỹ thuật thường dùng và so sánh với few-shot learning.
Zero-shot learning là gì?
Zero-shot learning (ZSL) là một nhánh của Machine Learning cho phép mô hình nhận diện và phân loại đối tượng mà không nằm trong dữ liệu huấn luyện của mô hình. Thay vì cần dữ liệu gán nhãn cho từng loại, ZSL tận dụng các thuộc tính ngữ nghĩa hoặc mối quan hệ giữa nhóm dữ liệu đã biết và nhóm dữ liệu mới. Cách tiếp cận này đặc biệt hữu ích trong những tình huống mà việc thu thập dữ liệu gán nhãn cho tất cả các loại đối tượng là không khả thi.

Ví dụ, một mô hình đã học cách nhận diện nhiều loài động vật nhưng chưa từng được huấn luyện về loài ngựa vằn. Nếu mô hình được cung cấp mô tả như “một loài động vật giống ngựa, có sọc đen trắng, sống ở đồng cỏ châu Phi”, nó có thể suy luận và kết nối các đặc điểm quen thuộc (như có bốn chân, sống ở thảo nguyên, có hoa văn đặc trưng) để nhận ra đó là ngựa vằn.
>>> Đọc thêm: Transfer Learning là gì?
Zero-shot learning hoạt động như thế nào?
Trong Zero-shot learning, mô hình không có dữ liệu gán nhãn cho các lớp chưa thấy. Thay vào đó, nó dựa vào các thông tin phụ trợ như mô tả văn bản, tập thuộc tính, vector biểu diễn (embedding) hoặc các thông tin ngữ nghĩa liên quan đến nhiệm vụ.
Thay vì trực tiếp thiết lập ranh giới giữa các lớp, các kỹ thuật ZSL thường tạo ra một vector xác suất để biểu thị khả năng mẫu dữ liệu đầu vào thuộc về từng lớp. Ở một số phương pháp mở rộng (GZSL), còn có bước phân biệt sơ bộ: xác định xem mẫu dữ liệu thuộc nhóm đã biết hay nhóm hoàn toàn mới, sau đó tiếp tục phân loại.
Các phương pháp kỹ thuật trong Zero-shot learning
Để thực hiện phân loại mà không cần dữ liệu huấn luyện trực tiếp, Zero-shot learning thường áp dụng bốn nhóm phương pháp chính dưới đây:
Attribute-based methods
Mô hình zero-shot learning hoạt động dựa vào các thuộc tính mô tả (màu sắc, hình dạng, hoa văn…) thay vì dữ liệu lớp hoàn chỉnh. Mô hình suy luận lớp mới bằng cách kết hợp các thuộc tính đã biết. Hạn chế: cần mô tả rõ ràng, việc gán nhãn thuộc tính tốn nhiều công sức.
Embedding-based methods
Cả dữ liệu và nhãn lớp được đưa vào không gian vector ngữ nghĩa chung. Việc phân loại dựa trên độ tương đồng giữa embedding của dữ liệu và embedding của lớp. Đây là phương pháp phổ biến trong NLP và thị giác máy tính.

Generative-based methods
Sử dụng các mô hình sinh như VAE, GAN hoặc VAEGAN để tạo dữ liệu giả cho lớp chưa thấy. Sau đó, dữ liệu này được dùng để huấn luyện như trong học có giám sát. Ưu điểm: giúp mở rộng dữ liệu; nhược điểm: chất lượng mẫu sinh ra không phải lúc nào cũng ổn định.
Classifier-based methods
Huấn luyện bộ phân loại có khả năng dự đoán thuộc tính trực tiếp hoặc so sánh độ tương thích giữa dữ liệu và lớp. Ví dụ: mô hình CLIP của OpenAI ánh xạ văn bản và hình ảnh vào cùng một không gian để phân loại bằng mô tả văn bản.
So sánh Zero-shot learning và Few-shot learning
Cả Zero-shot learning (ZSL) và Few-shot learning (FSL) đều giúp mô hình xử lý các nhiệm vụ mới khi dữ liệu còn hạn chế nhưng có sự khác biệt rõ ràng:
| Khía cạnh | Zero-shot learning (ZSL) | Few-shot learning (FSL) |
| Cách hoạt động | Suy luận lớp mới dựa trên mô tả ngữ nghĩa và tri thức đã học. | Học từ một vài ví dụ mẫu (thường 1–5) để nhận diện lớp mới. |
| Dữ liệu cần thiết | Không cần ví dụ nào cho lớp mới. | Cần một số ít dữ liệu gán nhãn. |
| Tri thức nền | Chủ yếu dựa vào mối quan hệ và mô tả giữa các khái niệm. | Kết hợp tri thức sẵn có và điều chỉnh nhanh dựa trên ví dụ mới. |
| Khả năng thích ứng | Tổng quát tốt cho nhiệm vụ hoàn toàn mới nhưng độ chính xác có thể thấp hơn. | Thích ứng nhanh, thường chính xác hơn khi có ít dữ liệu huấn luyện. |
| Ví dụ ứng dụng | Phát hiện spam từ mô tả “email có liên kết đáng ngờ” mà không cần dữ liệu nhãn trước đó. | Nhận diện ý định mới như “hủy đăng ký” chỉ với vài hội thoại mẫu đã gán nhãn. |
Ưu nhược điểm của Zero-shot learning
Zero-shot learning mang đến nhiều lợi ích đáng chú ý nhưng cũng tồn tại những hạn chế nhất định.
Ưu điểm
Điểm mạnh lớn nhất của ZSL là khả năng phân loại hoặc nhận diện các lớp dữ liệu mới mà không cần huấn luyện lại mô hình. Điều này giúp rút ngắn quá trình phát triển, giảm chi phí tính toán và dễ thích ứng trong các tình huống thiếu dữ liệu gán nhãn. Ngoài ra, ZSL có khả năng tổng quát hóa tốt. Chúng cho phép mô hình suy luận từ những lớp đã biết sang những lớp hoàn toàn mới, ngay cả khi không có ví dụ trực tiếp.
Nhược điểm
Tuy vậy, ZSL có thể cho kết quả dự đoán kém chính xác trong một số tình huống. Khi dữ liệu mới khác biệt quá nhiều so với dữ liệu huấn luyện, mô hình dễ suy luận sai, làm giảm hiệu suất. Hơn nữa, việc áp dụng ZSL trong các tình huống dữ liệu thực tế nhiều biến động cũng làm tăng độ khó và thách thức trong quá trình triển khai.
Ứng dụng của Zero-shot learning
Zero-shot learning đang được ứng dụng rộng rãi trong nhiều lĩnh vực nhờ khả năng nhận diện và phân loại dữ liệu mới mà không cần huấn luyện thêm. Dưới đây là một số ứng dụng tiêu biểu:
Xử lý văn bản và ngôn ngữ
ZSL hỗ trợ phân loại văn bản với các nhãn mới mà mô hình chưa từng thấy. Ví dụ, ZSL có thể được sử dụng để xác định một email là spam chỉ dựa trên các mô tả đặc trưng, mà không cần huấn luyện trực tiếp trên lớp đó. Ngoài ra, nó cũng có thể hỗ trợ chatbot hiểu và xử lý các yêu cầu của người dùng nằm ngoài các kịch bản đã được huấn luyện trước.
Trong phân tích cảm xúc, mô hình có thể phân biệt tính tích cực hay tiêu cực chỉ từ ý nghĩa nhãn. Ngoài ra, ZSL cũng được dùng trong kiểm duyệt mạng xã hội, phát hiện nội dung gây hại hoặc tin giả dựa trên mô tả văn bản.
Nhận diện hình ảnh và thị giác máy tính
Trong thị giác máy tính, ZSL cho phép mô hình nhận diện các đối tượng chưa từng xuất hiện trong dữ liệu huấn luyện bằng cách liên kết hình ảnh với mô tả ngữ nghĩa. Ví dụ, hệ thống có thể nhận ra loài gấu trúc đỏ dù chưa từng thấy mẫu ảnh tương tự. Công nghệ này cũng được ứng dụng trong giám sát môi trường, giúp phát hiện hiện tượng phá rừng hoặc suy giảm thảm thực vật từ dữ liệu vệ tinh dựa trên mô tả ngữ nghĩa mà không cần mẫu huấn luyện trực tiếp.

Bán lẻ và hệ thống gợi ý
Trong lĩnh vực thương mại điện tử, ZSL giúp tự động phân loại sản phẩm mới vào danh mục phù hợp dựa trên đặc trưng mô tả. Ví dụ, hệ thống có thể gắn nhãn “chất liệu thân thiện môi trường” cho sản phẩm chưa từng xuất hiện trong dữ liệu huấn luyện. Ngoài ra, ZSL còn hỗ trợ giải quyết bài toán “khởi đầu lạnh” trong các hệ thống gợi ý, giúp đề xuất sản phẩm hoặc nội dung ngay cả khi chưa có dữ liệu lịch sử người dùng.
Thách thức của Zero-shot learning
Dù mang lại nhiều tiềm năng, Zero-shot learning cũng đối mặt với không ít hạn chế khi áp dụng thực tế như:
- Thiên lệch về dữ liệu đã thấy: Do phần lớn dữ liệu huấn luyện đến từ các lớp quen thuộc, mô hình dễ có xu hướng ưu tiên chúng, dẫn đến kết quả kém chính xác với những lớp hoàn toàn mới.
- Vấn đề domain shift: Không gian đặc trưng của lớp chưa thấy có thể không trùng khớp với lớp đã thấy, gây sai lệch trong ánh xạ và dẫn đến dự đoán sai.
- Chất lượng biểu diễn ngữ nghĩa: Hiệu quả của ZSL phụ thuộc mạnh vào chất lượng embedding hoặc thuộc tính mô tả. Nếu biểu diễn kém, mô hình dễ bị hiểu nhầm và cho kết quả sai.
- Khả năng mở rộng: Việc mở rộng ZSL để xử lý hàng trăm hay hàng nghìn lớp chưa thấy là thách thức lớn, đặc biệt khi không gian ngữ nghĩa không đủ phong phú để phân biệt giữa nhiều loại dữ liệu.
Kết luận
Từ những chia sẻ của VNPT AI, có thể thấy rằng Zero-shot learning là một giải pháp hiệu quả giúp xử lý các tình huống thiếu dữ liệu huấn luyện, đồng thời mở rộng khả năng tổng quát hóa của mô hình AI sang nhiều lĩnh vực mới. Tuy vậy, phương pháp này vẫn tồn tại những thách thức về độ chính xác, thiên lệch dữ liệu và khả năng mở rộng. Trong bối cảnh nhu cầu ứng dụng AI ngày càng tăng. Zero-shot learning hứa hẹn sẽ tiếp tục phát triển, đóng vai trò quan trọng trong việc xây dựng các hệ thống thông minh linh hoạt và thích ứng hơn.