23/09/2025
Trong bối cảnh dữ liệu video ngày càng chiếm tỷ trọng lớn trong hạ tầng số, nhu cầu khai thác tri thức từ video không còn dừng ở giám sát thụ động. Các hệ thống hiện đại cần khả năng hỏi - đáp, tóm tắt và suy luận theo ngữ cảnh. Tuy nhiên, hiện nay phần lớn các nền tảng xử lý video tại Việt Nam vẫn tồn tại rời rạc: mỗi sản phẩm chỉ giải quyết một khâu riêng biệt như nhận diện hình ảnh, phân tích âm thanh hay trích xuất nội dung, khiến quá trình tích hợp và vận hành gặp nhiều hạn chế, đặc biệt khi nhu cầu phân tích dữ liệu đa mô thức ngày càng tăng.
Từ thực tế đó, chúng tôi đã xây dựng một nền tảng tổng hợp “tất cả trong một” - VNPT SmartVision Generative Agent (SVGA) - dựa trên nền tảng DeepStream và các mô hình ngôn ngữ. Cách tiếp cận này hình thành nên Video Search & Summarization (VSS) - hệ thống có thể hiểu cảnh, giọng nói, tài liệu, đồng thời có khả năng tóm tắt, hỗ trợ tìm kiếm hỏi đáp theo ngữ cảnh trên một trải nghiệm ngôn ngữ thống nhất, mở ra hướng ứng dụng có giá trị trong nhiều lĩnh vực.
Đây là thành quả của quá trình nghiên cứu và phát triển liên tục từ đội ngũ kỹ sư VNPT AI. Những kết quả kỹ thuật này đã được chúng tôi chia sẻ tại sự kiện NVIDIA AI Day 2025 diễn ra tại TP. Hồ Chí Minh vào tháng 9/2025, như một bước chia sẻ kinh nghiệm thực tiễn trong triển khai các hệ thống xử lý video bằng trí tuệ nhân tạo.
VNPT SmartVision là nền tảng thị giác máy tính do chung tôi phát triển, tích hợp hơn 40 mô hình AI ứng dụng trong nhiều lĩnh vực: giao thông, an ninh, y tế, tài chính - ngân hàng, và công nghiệp. Các mô hình được tối ưu để đạt tốc độ xử lý nhanh gấp 5 lần so với tiêu chuẩn thông thường, với độ chính xác lên tới 99,99%.
Kết quả thực tiễn đã chứng minh năng lực của VNPT SmartVision:
Bên cạnh thành tựu nghiên cứu, VNPT SmartVision đã được ứng dụng thành công trong nhiều dự án thực tiễn, tạo tác động rõ rệt:
Chúng tôi lựa chọn DeepStream Framework, cho phép xử lý song song nhiều luồng video - audio với GPU tăng tốc. Hệ thống hỗ trợ decode, batching, inference qua TensorRT/Triton và đồng bộ metadata (ID, thời gian, bounding box) cho phân tích hạ nguồn.
Đặc biệt, DeepStream cho phép xử lý end-to-end (từ nhận luồng camera, giải mã hình ảnh, phát hiện đối tượng, đến hiển thị và lưu trữ đám mây) giúp giảm đáng kể độ trễ, nâng cao tính ổn định và hiệu năng trong các ứng dụng quy mô lớn như giám sát đô thị hay giao thông thông minh.
VSS là thành phần quan trọng trong SVGA, được thiết kế để xử lý và khai thác dữ liệu video theo hai giai đoạn: ingestion pipeline và retrieval pipeline. Ingestion pipeline tích hợp:
Trong retrieval pipeline, Vector-RAG hỗ trợ tìm kiếm ngữ nghĩa, còn Graph-RAG cho phép suy luận theo chuỗi sự kiện và quan hệ. Sự kết hợp này giúp giảm ảo giác, nâng cao độ chính xác và tạo câu trả lời gắn với ngữ cảnh.
Ở quy trình Tóm tắt & Truy xuất thông tin, VSS kết hợp retriever embedding, Vector DB và Graph DB trong một workflow thống nhất. Mô hình LLM gọi công cụ (tool-calling) để truy xuất dữ liệu, sau đó sử dụng kết quả được rerank (xếp hạng lại) làm ngữ cảnh tóm tắt hoặc trả lời câu hỏi.
Cơ chế này cho phép VSS thực hiện hai chức năng đồng thời:
Để đảm bảo đầu ra an toàn và ổn định, VSS tích hợp nhiều cơ chế điều phối và kiểm soát:
Nhờ sự kết hợp này, VSS trở thành một nền tảng phân tích video có khả năng tóm tắt, hỏi đáp, và phản hồi liên tục trong thời gian thực.
Thành quả nghiên cứu của chúng tôi đã được triển khai trong nhiều kịch bản, giải quyết cấc bài toán thực tế:
VNPT SmartVision Generative Agent đã chứng minh năng lực không chỉ nhìn và nhận diện, mà còn hiểu, tóm tắt và phản hồi bằng ngôn ngữ tự nhiên. Video được chuyển hóa từ dữ liệu thụ động thành nguồn tri thức tương tác, hỗ trợ ra quyết định nhanh chóng trong nhiều bối cảnh. Đặc biệt, VSS được thiết kế để xử lý linh hoạt cả dữ liệu video lưu trữ (offline) và luồng video trực tuyến (online streaming), giúp hệ thống vận hành hiệu quả trong các môi trường khác nhau, từ phân tích dữ liệu quá khứ đến giám sát thời gian thực.
Từ giao thông, an ninh, cho đến công nghiệp và nội dung số, SVGA đang đặt nền móng cho hạ tầng phân tích video thế hệ mới - một hạ tầng vừa mang tính học thuật, vừa mang giá trị ứng dụng chiến lược trong chuyển đổi số.
Tin mới nhất
VNPT AI
Hãy trở thành đối tác của chúng tôi ngay hôm nay để được sử dụng những dịch vụ hàng đầu!
Gửi lời nhắnĐánh Giá
Các bài viết liên quan