Input: Người dùng sử dụng camera điện thoại chụp bao bì của một sản phẩm.
Output trả về mặc định:
Sản phẩm: ...
Thành phần: ...
Hướng dẫn: ...
Thông tin bổ sung: ...
2. Thực hiện:
Xây dựng bộ dữ liệu:
Link dữ liệu: https://drive.google.com/drive/u/1/folders/1spBb0EXsrPwM3ds_XLdm5KLd4SXnWUni?usp=drive_link
Link thông tin chung về tập dữ liệu: [README]_Hướng dẫn đặt tên file data - Google Tài liệu
Kết quả:
Độ chính xác 89,3%, với 75 ảnh trả về kết quả đúng với nội dung trong file .json trên tổng 84 mẫu dữ liệu.
Hạn chế:
Những hình ảnh mờ, không rõ ràng, model gen ra thông tin không chính xác; model tự động dịch output sang tiếng anh; output trả về nhiều thông tin không cần thiết.
Metric để đánh giá chưa chuẩn, cần phải có một bộ dữ liệu tốt hơn để kiểm tra.
Tìm bộ dữ liệu chính xác hơn:
Link dữ liệu: VinAIResearch/dict-guided: Dictionary-guided Scene Text Recognition (CVPR-2021)
Tối ưu hệ thống:
Kết quả:
Thông tin OUTPUT trả về ngắn gọn và chính xác hơn.
Hạn chế: Phần audio ở INPUT sẽ không cho kết quả tốt với giọng nói đặc trưng của vùng miền hay chứa nhiều tạp âm.
Xây dựng web demo: https://drive.google.com/file/d/1ZAu3-VcXF3OzZVbC_8oxR_BYv3KeJabn/view?usp=sharing
Kết quả đạt được:
Tìm được bộ dữ liệu để có thể đánh giá tốt model.
Model xử lý và trả về kết quả khá chính xác với INPUT là ảnh sản phẩm và audio nội dung cần tìm kiếm.
Xây dựng cơ bản web để demo kết quả.
Khuyết điểm:
Audio phần INPUT chưa nhận diện được những giọng nói đặc biệt.
Thời gian xử lý chưa nhanh.
Hướng phát triển:
Tối ưu mô hình xử lý và prompt.
Đa dạng audio.
Xây dựng INPUT là video hoặc multi image.
Published: 2025-05-15