Chia sẻ

Phương pháp tăng cường dữ liệu và kết hợp mô hình cho bài toán phát hiện đối tượng trên camera mắt cá

24/12/2024

Camera mắt cá (fisheye) đang dần thay thế cụm camera góc hẹp tại các nút giao thông vì khả năng bao quát góc nhìn 180–360° với chi phí lắp đặt thấp. Tuy nhiên, do ống kính mắt cá gây biến dạng hình ảnh mạnh, nên các mô hình AI phát hiện vật thể được huấn luyện trên ảnh thông thường (ảnh phẳng) sẽ hoạt động kém hiệu quả, làm giảm độ chính xác hơn 30%.

Nội dung

Sai số ở bước phát hiện, nếu không được khắc phục, sẽ truyền lỗi lũy tích sang các tác vụ hậu kỳ như đếm phương tiện, phát hiện tai nạn hay điều khiển đèn tín hiệu thời gian thực. Trong bối cảnh số lượng camera mắt cá tăng nhanh trong những dự án đô thị thông minh và yêu cầu vận hành 24/7 ở quy mô lớn, việc xây dựng một thuật toán phát hiện chuyên biệt, có khả năng mở rộng và đáp ứng độ chính xác cao trở thành nhu cầu cấp thiết.

Phương pháp luận để tối ưu AI phát hiện vật thể từ camera mắt cá

Ngay từ đầu, chúng tôi đặt ra đích đến: (1) khắc phục biến dạng mắt cá, (2) đạt độ chính xác cao cả ngày lẫn đêm trong bối cảnh giao thông phức tạp. Để làm được điều đó, nhóm kỹ sư VNPT AI chọn CO-DETR (Swin-L) làm trụ cột, kết hợp thêm các kiến trúc mạnh về tốc độ và khả năng bắt chi tiết như YOLOv9-e, YOLOR-W6 và InternImage, tạo nên một “đội hình” cân bằng giữa chiều sâu và đa dạng đặc trưng, cùng cách tiếp cận data-centric kết hợp model-centric.

Mô hình đề xuất cho bài toán phát hiện đối tượng từ ảnh camera mắt cá

Chúng tôi bắt đầu dự án với các nội dung cụ thể như sau:

Mở rộng & lựa chọn dữ liệu

Các bộ UAV, MIO-TCD, VisDrone được khảo sát; chỉ VisDrone kết hợp với Fisheye8K cho mức mAP tăng tới 49,05 %. Để mô hình “làm quen” méo thị sai và nhận vật thể nhỏ sát mép khung, chúng tôi áp dụng kỹ thuật Synthetic VisDrone: biến đổi ảnh VisDrone bằng hàm iFish, cắt vùng tối và chuyển đổi toạ độ bounding-box.

Nhãn giả nhiều bước (Three-stage pseudo-label)

Ba mô hình CO-DETR huấn luyện theo chế độ 3-fold tạo nhãn giả cho tập thử. Chu trình tái huấn luyện liên tiếp đẩy mAP CO-DETR từ 56,23 % lên 61,02 %, một bứt phá quan trọng trước khi ensemble.

Lựa chọn & phối hợp mô hình

CO-DETR (Swin-L) giữ vai trò “xương sống” nhờ khả năng mô hình hoá quan hệ dài hạn. Khả năng này chính là lợi thế khi khung hình bị méo. Để bù đắp các trường hợp vật thể cực nhỏ, YOLOv9-e, YOLOR-W6 và InternImage được bổ sung; mỗi kiến trúc khai thác đặc trưng khác nhau của ảnh fisheye.

Ensemble bằng Weighted Boxes Fusion

Sau cùng, bảy mô hình (4 CO-DETR + 3 YOLO/InternImage) được hợp nhất qua Weighted Boxes Fusion với ngưỡng IoU 0,75 và score 0,15. Phương pháp này tối ưu trade-off giữa recall và precision, đồng thời triệt tiêu outlier do từng kiến trúc riêng lẻ.

Kết quả từ phương pháp đã sử dụng

Hình minh họa các phương tiện được phát hiện từ ảnh chụp ban ngày và ban đêm

Chúng tôi đã ứng dụng phương pháp này trong quá trình dự thi AI City Challenge 2024 tại Track 4 - Phát hiện vật thể từ camera mắt cá (Road Object Detection in Fish-Eye Cameras). Nhóm kỹ sư đã đạt F1-score 64,06 %, và giành vị trí #1 Track 4. Thành tích này cao hơn 7,04% so với mô hình CO-DETR gốc (57,02 %) và vượt thêm 1,6% so với giai đoạn chỉ áp dụng pseudo-label (62,46 %). Kết quả này chứng minh tính hiệu quả của phương pháp ensemble Weighted Boxes Fusion.

Trong quá trình tinh chỉnh, mAP của CO-DETR đã tăng ổn định qua ba vòng pseudo-label: 56,23 % → 58,40 % → 61,02 %, cho thấy mô hình tự “dạy” chính mình thành công nhờ khai thác tối đa dữ liệu ẩn trong tập kiểm thử.

Dù Synthetic VisDrone không làm mAP tổng thể nhảy vọt, tập ảnh giả này đã cải thiện đáng kể khả năng phát hiện các vật thể rất nhỏ nằm sát rìa khung hình, làm nên yếu tố then chốt khi xử lý video từ camera mắt cá, nơi méo thị sai thường “nuốt” mất thông tin chi tiết.

Thuật toán trên hiện đã được chúng tôi triển khai ngay vào hệ thống giám sát giao thông, bãi đỗ xe thông minh và nền tảng phân tích video, đáp ứng các bài toán:

  • Đếm lưu lượng chính xác theo làn kể cả khi camera đặt lệch góc.
  • Cảnh báo va chạm sớm trên các giao lộ đông đúc.
  • Tối ưu điều khiển đèn tín hiệu dựa trên đo đạc thời gian thực thay vì lịch trình tĩnh.

Hơn thế nữa, thuật toán này cũng dễ mở rộng sang phân tích hành vi người đi bộ trong trung tâm thương mại hoặc nhận diện vi phạm đỗ xe sai quy định, những nơi mà đang ứng dụng camera mắt cá ngày càng mạnh mẽ.

Tác giả: Tumi Tran

Tin mới nhất

25/12/2024

Nền tảng học sâu kết hợp nhiều thành phần để phát hiện vi phạm đội mũ bảo hiểm của người đi xe máy

VNPT AI

Hãy trở thành đối tác của chúng tôi ngay hôm nay để được sử dụng những dịch vụ hàng đầu!

Gửi lời nhắn

Đánh Giá