23/09/2025
Theo thống kê của Tổng cục Hải quan, đến năm 2025 cả nước sẽ có hơn 20 triệu camera giám sát được đưa vào sử dụng, tương đương gần 500 triệu giờ video được tạo ra mỗi ngày.
Lượng dữ liệu khổng lồ này đặt ra bài toán lớn về khai thác tri thức từ video. Việc chỉ dừng lại ở quan sát thụ động không còn đủ, mà các hệ thống hiện đại cần có khả năng tìm kiếm, tóm tắt và suy luận theo ngữ cảnh, nhằm biến video từ dữ liệu thô thành nguồn thông tin phục vụ ra quyết định.
Tuy nhiên, phần lớn các nền tảng xử lý video tại Việt Nam hiện vẫn phát triển theo hướng rời rạc, mỗi sản phẩm chỉ giải quyết một khâu riêng biệt như nhận diện hình ảnh, phân tích âm thanh hay trích xuất nội dung. Điều này khiến việc tích hợp và vận hành tổng thể gặp nhiều hạn chế, đặc biệt trong bối cảnh nhu cầu phân tích dữ liệu đa mô thức (Multimodal data processing) ngày càng gia tăng.
Từ thực tế đó, đội ngũ kỹ sư VNPT AI đã xây dựng một nền tảng tổng hợp “all-in-one” (tất cả trong một) - VNPT SmartVision Generative Agent (SVGA) - dựa trên nền tảng DeepStream và các mô hình ngôn ngữ. Cách tiếp cận này hình thành nên Video Search & Summarization (VSS) - hệ thống có thể hiểu cảnh, giọng nói, tài liệu, đồng thời có khả năng tóm tắt, hỗ trợ tìm kiếm hỏi đáp theo ngữ cảnh trên một trải nghiệm ngôn ngữ thống nhất, mở ra hướng ứng dụng có giá trị trong nhiều lĩnh vực. Những kết quả kỹ thuật này đã được chúng tôi công bố tại NVIDIA AI Days 2025 vào tháng 9/2025.

Chúng tôi lựa chọn DeepStream Framework, cho phép xử lý song song nhiều luồng video - audio với GPU tăng tốc. Hệ thống hỗ trợ decode, batching, inference qua TensorRT/Triton và đồng bộ metadata (ID, thời gian, bounding box) cho phân tích hạ nguồn.
Đặc biệt, DeepStream cho phép xử lý end-to-end (từ nhận luồng camera, giải mã hình ảnh, phát hiện đối tượng, đến hiển thị và lưu trữ đám mây) giúp giảm đáng kể độ trễ, nâng cao tính ổn định và hiệu năng trong các ứng dụng quy mô lớn như giám sát đô thị hay giao thông thông minh.


VSS là thành phần quan trọng trong SVGA, được thiết kế để xử lý và khai thác dữ liệu video theo hai giai đoạn: ingestion pipeline và retrieval pipeline. Ingestion pipeline tích hợp:
Trong retrieval pipeline, Vector-RAG hỗ trợ tìm kiếm ngữ nghĩa, còn Graph-RAG cho phép suy luận theo chuỗi sự kiện và quan hệ. Sự kết hợp này giúp giảm ảo giác, nâng cao độ chính xác và tạo câu trả lời gắn với ngữ cảnh.
Ở quy trình Tóm tắt & Truy xuất thông tin, VSS kết hợp retriever embedding, Vector DB và Graph DB trong một workflow thống nhất. Mô hình LLM gọi công cụ (tool-calling) để truy xuất dữ liệu, sau đó sử dụng kết quả được rerank (xếp hạng lại) làm ngữ cảnh tóm tắt hoặc trả lời câu hỏi.
Cơ chế này cho phép VSS thực hiện hai chức năng đồng thời:
Để đảm bảo đầu ra an toàn và ổn định, VSS tích hợp nhiều cơ chế điều phối và kiểm soát:
Nhờ sự kết hợp này, VSS trở thành một nền tảng phân tích video có khả năng tóm tắt, hỏi đáp, và phản hồi liên tục trong thời gian thực.
Thành quả nghiên cứu của chúng tôi đã được triển khai trong nhiều kịch bản, giải quyết các bài toán thực tế:

SVGA không chỉ nhìn và nhận diện, mà còn hiểu, tóm tắt và phản hồi bằng ngôn ngữ tự nhiên. Video được chuyển hóa từ dữ liệu thụ động thành nguồn tri thức tương tác, hỗ trợ ra quyết định nhanh chóng trong nhiều bối cảnh. Đặc biệt, VSS được thiết kế để xử lý linh hoạt cả dữ liệu video lưu trữ (offline) và luồng video trực tuyến (online streaming), giúp hệ thống vận hành hiệu quả trong các môi trường khác nhau, từ phân tích dữ liệu quá khứ đến giám sát thời gian thực.
Từ giao thông, an ninh, cho đến công nghiệp và nội dung số, SVGA đang đặt nền móng cho hạ tầng phân tích video thế hệ mới - một hạ tầng vừa mang tính học thuật, vừa mang giá trị ứng dụng thực tiễn trong lĩnh vực giám sát thông minh.
Tin mới nhất
VNPT AI
Hãy trở thành đối tác của chúng tôi ngay hôm nay để được sử dụng những dịch vụ hàng đầu!
Gửi lời nhắnĐánh Giá
Các bài viết liên quan