25/09/2025
Vision Language Models là cầu nối giữa ngôn ngữ và thị giác, đưa AI tiến gần hơn đến AGI - trí tuệ nhân tạo tổng quát. Chúng mở ra khả năng máy móc có thể hiểu thế giới giống con người thông qua chữ viết, hình ảnh, video, âm thanh và ngữ cảnh.
Với khả năng xử lý đồng thời cả hình ảnh và văn bản, Vision Language Models (VLMs) đã tạo ra một bước tiến lớn trong lĩnh vực trí tuệ nhân tạo. VLMs giúp rút ngắn thời gian viết mô tả sản phẩm, phân tích chuẩn xác hình ảnh y tế để đưa ra chẩn đoán. Vậy cụ thể, VLMs là gì, hoạt động như thế nào và được ứng dụng ra sao trong thực tế? Bài viết dưới đây của VNPT AI sẽ giúp bạn khám phá toàn diện.
Mô hình ngôn ngữ thị giác (Vision Language Models - VLMs) là một loại mô hình trí tuệ nhân tạo đa phương thức, kết hợp giữa khả năng xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) và thị giác máy tính (Computer Vision). Mục tiêu chính của VLMs là học cách hiểu và ánh xạ mối liên hệ giữa dữ liệu hình ảnh và văn bản, từ đó tạo ra phản hồi ngôn ngữ dựa trên đầu vào thị giác hoặc ngược lại.

Nhờ khả năng hiểu nội dung từ nhiều dạng dữ liệu, mô hình ngôn ngữ thị giác đang được ứng dụng rộng rãi trong các lĩnh vực như: tìm kiếm hình ảnh thông minh, phân tích nội dung truyền thông, hỗ trợ người khiếm thị, và xây dựng các trợ lý AI thế hệ mới.
Vision Language Models vận hành thông qua một kiến trúc đa phương thức với ba thành phần cốt lõi:

Để hiểu và xử lý đồng thời hình ảnh và văn bản, mô hình ngôn ngữ thị giác được thiết kế dựa trên cấu trúc đa thành phần. Trong đó, mỗi thành phần đảm nhận một vai trò riêng biệt nhưng có sự phối hợp chặt chẽ với nhau:
Đây là bộ phận chịu trách nhiệm trích xuất các yếu tố đặc trưng trực quan, có ý nghĩa từ dữ liệu ảnh hoặc video. Thông qua quá trình mã hóa, hình ảnh được biểu diễn dưới dạng biểu diễn đặc trưng (visual embeddings), chứa thông tin về đối tượng, vị trí, bố cục không gian và các yếu tố hình ảnh liên quan.
Visual encoder thường sử dụng các kiến trúc hiện đại như Vision Transformer (ViT) hoặc CLIP-based models - các kiến trúc đã được huấn luyện trên hàng triệu cặp ảnh - văn bản hoặc dữ liệu hình ảnh lớn. Ngoài ra, mô hình ngôn ngữ thị giác hiện đại còn sử dụng kỹ thuật contrastive learning (học tương phản/học đối chiếu) để học cách phân biệt sự khác biệt giữa các cặp dữ liệu.
Ví dụ: phân biệt giữa một bức ảnh Nhà thờ kiến trúc Gothic và một bức ảnh Nhà thờ kiến trúc Baroque.
Bộ mã hóa hình ảnh (như CLIP-ViT) của LLaVA sẽ học được cách nhận diện các đặc điểm then chốt mà con người sử dụng để phân biệt hai phong cách:

Text Encoder hoạt động song song với Visual encoder, đảm nhận vai trò phân tích và “hiểu” ngữ nghĩa của câu chữ, văn bản đầu vào. Text encoder thường là một large language model (LLM - mô hình ngôn ngữ lớn), có khả năng chuyển văn bản thành các vector số thể hiện lớp nghĩa trừu tượng của ngôn ngữ.
Trong các kiến trúc như PrefixLM hay Masked Language Modeling (MLM), Text Encoder không chỉ đọc hiểu mà còn học cách dự đoán từ tiếp theo hoặc khôi phục các từ bị ẩn, qua đó giúp mô hình hiểu sâu hơn về ngữ cảnh. Khi kết hợp với đặc trưng hình ảnh từ Visual Encoder, VLMs có thể thực hiện nhiều tác vụ đa phương thức như tạo mô tả ảnh, trả lời câu hỏi liên quan đến hình ảnh hoặc tìm kiếm dữ liệu đa phương thức.
Dưới đây là 4 phương pháp huấn luyện phổ biến được áp dụng rộng rãi trong các mô hình ngôn ngữ thị giác hiện đại:
Phương pháp này giúp mô hình học cách phân biệt giữa các ảnh - văn bản phù hợp và không phù hợp. Cụ thể, mô hình được huấn luyện để thu hẹp khoảng cách trong không gian biểu diễn giữa những cặp khớp nhau và tăng khoảng cách với những cặp không khớp.
Chẳng hạn: CLIP là ví dụ điển hình áp dụng contrastive learning, được huấn luyện trên 400 triệu cặp ảnh - mô tả để dự đoán chính xác nội dung hình ảnh trong chế độ zero-shot (học không cần ví dụ). Nhờ cách tiếp cận này, các mô hình ngôn ngữ thị giác có thể nhận diện, tìm kiếm hoặc phân loại hình ảnh mà không cần huấn luyện lại trên tập dữ liệu đích.

Masking là kỹ thuật huấn luyện hiệu quả giúp mô hình học cách dự đoán và bổ sung các phần dữ liệu bị thiếu hoặc bị ẩn đi (ví dụ từ trong văn bản hoặc vùng ảnh). Cụ thể có 2 phương pháp huấn luyện sau:
Ví dụ: FLAVA là mô hình tiêu biểu kết hợp giữa Contrastive Learning và Masking, sử dụng transformer để mã hóa cả hình ảnh và văn bản, sau đó tích hợp bằng cơ chế Cross-attention liên kết 2 loại thông tin.

Khác với hai phương pháp Contrastive Learning và Masking, huấn luyện mô hình sinh dữ liệu hướng đến việc tạo ra đầu ra mới hoàn toàn, giúp mô hình ngôn ngữ thị giác phát triển khả năng biểu đạt đa chiều, chẳng hạn như:
Ví dụ: Tạo các công cụ mô tả hình ảnh cho người khiếm thị thông qua việc ứng dụng mô hình sinh dữ liệu.

Do việc huấn luyện từ đầu rất tốn kém, nhiều mô hình ngôn ngữ thị giác hiện đại tận dụng sức mạnh của các mô hình đã được huấn luyện sẵn, ví dụ như:
Ví dụ: LLaVA (Large Language and Vision Assistant) là một mô hình ngôn ngữ thị giác mạnh mẽ được tạo ra bằng cách kết hợp mô hình thị giác CLIP-ViT với mô hình ngôn ngữ lớn nguồn mở LLM Vicuna.
Bên cạnh đó, các bộ dữ liệu lớn, đa dạng như COCO, LAION, hoặc ImageNet cũng đóng vai trò thiết yếu trong giai đoạn tiền huấn luyện và fine-tuning (tinh chỉnh) theo từng tác vụ cụ thể, giúp VLMs đạt được hiệu suất cao, có thể ứng dụng rộng rãi.
Với khả năng xử lý đồng thời dữ liệu hình ảnh và ngôn ngữ, Vision Language Models đang mở ra nhiều ứng dụng đột phá trong các lĩnh vực khác nhau như:

Dù mở ra nhiều cơ hội ứng dụng trong đời sống và công nghiệp, Vision Language Models vẫn đối mặt với không ít thách thức:

>>> Đọc thêm: Data modeling là gì?
Tạm kết:
Vision Language Models (VLMs) đang dần khẳng định vai trò then chốt trong kỷ nguyên trí tuệ nhân tạo đa phương thức. Không chỉ giúp máy hiểu và liên kết giữa hình ảnh với ngôn ngữ, các mô hình này còn mở ra loạt ứng dụng đột phá trong y tế, giáo dục, thương mại điện tử, robot thông minh và nhiều lĩnh vực khác.
Dù vẫn đối mặt với thách thức về hiệu suất, độ chính xác và khả năng tùy biến, tiềm năng của VLMs là không thể phủ nhận, hứa hẹn trở thành động lực quan trọng thúc đẩy làn sóng đổi mới tiếp theo trong AI.
Tin mới nhất
VNPT AI
Hãy trở thành đối tác của chúng tôi ngay hôm nay để được sử dụng những dịch vụ hàng đầu!
Gửi lời nhắnĐánh Giá