Chia sẻ

Phương pháp phân tích video thông minh - VNPT SmartVision Generative Agent

Trong bối cảnh dữ liệu video ngày càng chiếm tỷ trọng lớn trong hạ tầng số, nhu cầu khai thác tri thức từ video không còn dừng ở giám sát thụ động. Các hệ thống hiện đại cần khả năng hỏi - đáp, tóm tắt và suy luận theo ngữ cảnh. Tuy nhiên, hiện nay phần lớn các nền tảng xử lý video tại Việt Nam vẫn tồn tại rời rạc: mỗi sản phẩm chỉ giải quyết một khâu riêng biệt như nhận diện hình ảnh, phân tích âm thanh hay trích xuất nội dung, khiến quá trình tích hợp và vận hành gặp nhiều hạn chế, đặc biệt khi nhu cầu phân tích dữ liệu đa mô thức ngày càng tăng.

Nội dung

Từ thực tế đó, chúng tôi đã xây dựng một nền tảng tổng hợp “tất cả trong một” - VNPT SmartVision Generative Agent (SVGA) - dựa trên nền tảng DeepStream và các mô hình ngôn ngữ. Cách tiếp cận này hình thành nên Video Search & Summarization (VSS) - hệ thống có thể hiểu cảnh, giọng nói, tài liệu, đồng thời có khả năng tóm tắt, hỗ trợ tìm kiếm hỏi đáp theo ngữ cảnh trên một trải nghiệm ngôn ngữ thống nhất, mở ra hướng ứng dụng có giá trị trong nhiều lĩnh vực.

Đây là thành quả của quá trình nghiên cứu và phát triển liên tục từ đội ngũ kỹ sư VNPT AI. Những kết quả kỹ thuật này đã được chúng tôi chia sẻ tại sự kiện NVIDIA AI Day 2025 diễn ra tại TP. Hồ Chí Minh vào tháng 9/2025, như một bước chia sẻ kinh nghiệm thực tiễn trong triển khai các hệ thống xử lý video bằng trí tuệ nhân tạo.

Bài tham luận của TS. Lê Anh Văn tại NVIDIA AI Day 2025
Tiến sĩ Lê Anh Văn - Giám đốc Nền tảng VNPT Generative AI tại VNPT đã có bài tham luận tại Nvidia AI Day

VNPT SmartVision

VNPT SmartVision là nền tảng thị giác máy tính do chung tôi phát triển, tích hợp hơn 40 mô hình AI ứng dụng trong nhiều lĩnh vực: giao thông, an ninh, y tế, tài chính - ngân hàng, và công nghiệp. Các mô hình được tối ưu để đạt tốc độ xử lý nhanh gấp 5 lần so với tiêu chuẩn thông thường, với độ chính xác lên tới 99,99%.

Kết quả thực tiễn đã chứng minh năng lực của VNPT SmartVision:

  • Top 1 AI City Challenge 2024 (CVPR) ở hạng mục phát hiện phương tiện bằng camera mắt cá.
  • Nghiên cứu khoa học được công bố tại Hội thảo của MICCAI về xử lý hình ảnh y tế.
  • Top 10 hạng mục 1:N và Top 15 hạng mục 1:1 trong bài đánh giá của Viện Tiêu chuẩn và Công nghệ Quốc gia Hoa Kỳ (NIST) về nhận dạng khuôn mặt.
ứng dụng VNPT SmartVision chẩn đoán ung thư tuyến giáp
VNPT SmartVision giúp quy trình chẩn đoán ung thư tuyến giáp diễn ra chính xác, nhanh chóng
  • Chứng nhận iBeta PAD (ISO/IEC 30107-3) cho phát hiện chống giả mạo khuôn mặt.

Bên cạnh thành tựu nghiên cứu, VNPT SmartVision đã được ứng dụng thành công trong nhiều dự án thực tiễn, tạo tác động rõ rệt:

  • Trong lĩnh vực giao thông: triển khai 121 camera giao thông được triển khai tại phường Long An (trước là tỉnh Long An). Hệ thống giúp giảm 80% vi phạm so với thời gian trước khi triển khai.
  • Trong lĩnh vực y tế: hợp tác với Bệnh viện Nội tiết Trung ương, huấn luyện mô hình AI trên hơn 10.000 ca siêu âm, giúp giảm 25% tỷ lệ chẩn đoán sai và nâng cao 50% hiệu quả chẩn đoán cho các bác sĩ tuyến dưới.
  • Trong lĩnh vực an ninh đô thị: VNPT SmartVision được triển khai cho IOC Huế, giúp giải quyết các bài toán về phát hiện đỗ xe, phát hiện xả rác và giám sát quản lý kinh doanh vỉa hè. Ngoài ra, khả năng phát hiện và nhận dạng khuôn mặt, phát hiện thuộc tính khuôn mặt , điểm danh khuôn mặt, giám sát và truy vết khuôn mặt của VNPT SmartVision giúp đảm bảo an ninh cho hơn 100.000 người dùng hàng ngày tại các trường học, nhà máy, sự kiện, nơi công sở. 

Hạ tầng kỹ thuật: DeepStream

Chúng tôi lựa chọn DeepStream Framework, cho phép xử lý song song nhiều luồng video - audio với GPU tăng tốc. Hệ thống hỗ trợ decode, batching, inference qua TensorRT/Triton và đồng bộ metadata (ID, thời gian, bounding box) cho phân tích hạ nguồn. 

Đặc biệt, DeepStream cho phép xử lý end-to-end (từ nhận luồng camera, giải mã hình ảnh, phát hiện đối tượng, đến hiển thị và lưu trữ đám mây) giúp giảm đáng kể độ trễ, nâng cao tính ổn định và hiệu năng trong các ứng dụng quy mô lớn như giám sát đô thị hay giao thông thông minh.

Sơ đồ minh họa DeepStream Framework
Sơ đồ minh họa DeepStream Framework

Video Search & Summarization (VSS)

Tổng quan kiến trúc VSS
Tổng quan kiến trúc VSS

VSS là thành phần quan trọng trong SVGA, được thiết kế để xử lý và khai thác dữ liệu video theo hai giai đoạn: ingestion pipeline và retrieval pipeline. Ingestion pipeline tích hợp:

  • Deepstream để chuẩn hóa video pipeline và bóc tách, trích xuất thông tin từ ảnh (frame), tiếng nói (audio) từ video/ camera streaming.
  • Riva ASR để chuyển đổi âm thanh thành văn bản.
  • VLM (Vision-Language Model) tạo caption giàu ngữ nghĩa với prompt điều hướng.
  • Chuẩn hóa và lập chỉ mục qua Vector DB và Graph DB.

Trong retrieval pipeline, Vector-RAG hỗ trợ tìm kiếm ngữ nghĩa, còn Graph-RAG cho phép suy luận theo chuỗi sự kiện và quan hệ. Sự kết hợp này giúp giảm ảo giác, nâng cao độ chính xác và tạo câu trả lời gắn với ngữ cảnh.

Ở quy trình Tóm tắt & Truy xuất thông tin, VSS kết hợp retriever embeddingVector DB và Graph DB trong một workflow thống nhất. Mô hình LLM gọi công cụ (tool-calling) để truy xuất dữ liệu, sau đó sử dụng kết quả được rerank (xếp hạng lại) làm ngữ cảnh tóm tắt hoặc trả lời câu hỏi.

Cơ chế này cho phép VSS thực hiện hai chức năng đồng thời:

  • Summarization: tổng hợp nội dung video dài hoặc luồng trực tiếp thành bản tóm tắt ngắn, súc tích và có ngữ cảnh.
  • Q&A: trả lời truy vấn tự nhiên của người dùng dựa trên dữ liệu thực, giúp đảm bảo tính chính xác và giảm ảo giác mô hình.

Để đảm bảo đầu ra an toàn và ổn định, VSS tích hợp nhiều cơ chế điều phối và kiểm soát:

  • Prompt Engine: chuẩn hóa và chèn hướng dẫn định dạng, quy tắc an toàn trước khi gửi yêu cầu đến LLM.
  • NeMo Guardrails: kiểm soát phản hồi, loại bỏ nội dung không phù hợp, bảo đảm tuân thủ quy tắc miền ứng dụng.
  • Context Manager & Short-Term Memory: lưu trữ ngữ cảnh hội thoại và các lần truy vấn trước, giúp hệ thống duy trì mạch trao đổi tự nhiên, tránh lặp lại hoặc mâu thuẫn.

Nhờ sự kết hợp này, VSS trở thành một nền tảng phân tích video có khả năng tóm tắt, hỏi đáp, và phản hồi liên tục trong thời gian thực.

Ứng dụng thực tiễn của SVGA

Thành quả nghiên cứu của chúng tôi đã được triển khai trong nhiều kịch bản, giải quyết cấc bài toán thực tế:

  • Giao thông: nhận diện vi phạm, phân tích mật độ, hỗ trợ phạt nguội với bằng chứng video; tổng hợp và tóm tắt sự kiện theo khu vực để báo cáo nhanh.
  • An ninh: theo dõi đối tượng/phương tiện bằng nhận diện khuôn mặt và biển số; giám sát nguy cơ cháy nổ, gửi cảnh báo thời gian thực; phân loại và tóm tắt vi phạm để hỗ trợ điều tra.
  • Công nghiệp: giám sát PPE, phát hiện hành vi nguy hiểm, cảnh báo tai nạn; tự động phân tích ca làm và sinh báo cáo cuối ca.
  • Kiểm duyệt nội dung: phát hiện nhanh nội dung vi phạm (18+, bạo lực, bản đồ trái phép...); nhận diện gương mặt trong danh sách hạn chế; tóm tắt và làm nổi bật các đoạn video chứa vi phạm.
ứng dụng SVGA phân tích vi phạm giao thôn
Hệ thống VSS của SVGA được sử dụng để phân tích hành vi vi phạm giao thông

Kết quả và ý nghĩa

VNPT SmartVision Generative Agent đã chứng minh năng lực không chỉ nhìn và nhận diện, mà còn hiểu, tóm tắt và phản hồi bằng ngôn ngữ tự nhiên. Video được chuyển hóa từ dữ liệu thụ động thành nguồn tri thức tương tác, hỗ trợ ra quyết định nhanh chóng trong nhiều bối cảnh. Đặc biệt, VSS được thiết kế để xử lý linh hoạt cả dữ liệu video lưu trữ (offline) và luồng video trực tuyến (online streaming), giúp hệ thống vận hành hiệu quả trong các môi trường khác nhau, từ phân tích dữ liệu quá khứ đến giám sát thời gian thực.

Từ giao thông, an ninh, cho đến công nghiệp và nội dung số, SVGA đang đặt nền móng cho hạ tầng phân tích video thế hệ mới - một hạ tầng vừa mang tính học thuật, vừa mang giá trị ứng dụng chiến lược trong chuyển đổi số.

Tác giả: Dương Việt Hùng

Đánh Giá