ỨNG DỤNG HỖ TRỢ ĐỌC THÔNG TIN SẢN PHẨM

Phạm Duy Tân, Trần Việt Dũng, Trần Minh Quân, Đỗ Hà Phương, Phạm Thúy Vy, Cầm Vũ Ngọc Thạch

1401

1. Nội dung:

Người khiếm thị gặp khó khăn trong việc đọc thông tin sản phẩm bằng mắt. Ứng dụng sẽ giúp họ tiếp cận thông tin một cách dễ dàng thông qua công nghệ nhận diện giọng nói hoặc quét mã.
Ứng dụng sẽ giúp người khiếm thị có thể tự mình tìm hiểu về sản phẩm mà không cần phụ thuộc vào sự trợ giúp của người khác, từ đó tăng cường sự độc lập trong cuộc sống hàng ngày.

Input: Người dùng sử dụng camera điện thoại chụp bao bì của một sản phẩm.
Output trả về mặc định:
- Sản phẩm: ...
- Thành phần: ...
- Hướng dẫn: ...
- Thông tin bổ sung: ...

INPUT: mỗi lần model xử lý 01 ảnh đầu vào.
Tiền xử lý ảnh: thực hiện các bước lọc nhiễu, tăng cường ảnh, làm cho ảnh sắc nét hơn.
Call API + Promt: API sử dụng của Gemini từ Google AI Studio để đọc, trích xuất các thông tin có trong ảnh và xuất ra theo định dạng của Promt yêu cầu.
OUTPUT: Đọc thông tin đã trích xuất và có hiển thị text để kiểm tra độ chính xác.

2. Thực hiện:

Xây dựng bộ dữ liệu:
- Các thành viên trong nhóm tự xây dựng bộ dữ liệu để kiểm tra độ chính xác của model. Mỗi ảnh được label các thông tin sản phẩm dưới dạng file .json gồm các nội dung: Tên sản phẩm , Loại sản phẩm, Màu sắc, Công dụng/Hướng dẫn sử dụng, Hạn sử dụng để kiểm tra lại kết quả OUTPUT.
Link dữ liệu: https://drive.google.com/drive/u/1/folders/1spBb0EXsrPwM3ds_XLdm5KLd4SXnWUni?usp=drive_link

Link thông tin chung về tập dữ liệu: [README]_Hướng dẫn đặt tên file data - Google Tài liệu
Kết quả:
- Độ chính xác 89,3%, với 75 ảnh trả về kết quả đúng với nội dung trong file .json trên tổng 84 mẫu dữ liệu.
- Hạn chế:
- Những hình ảnh mờ, không rõ ràng, model gen ra thông tin không chính xác; model tự động dịch output sang tiếng anh; output trả về nhiều thông tin không cần thiết.
- Metric để đánh giá chưa chuẩn, cần phải có một bộ dữ liệu tốt hơn để kiểm tra.

Tìm bộ dữ liệu chính xác hơn:
- Việc tìm kiếm bộ dữ liệu cho bài toán khá khó khăn, sau quá trình tìm kiếm nhóm đã lựa chọn tập dữ liệu của VinAI có độ tương đồng gần giống với nội dung của bài toán đang thực hiện.
Link dữ liệu: VinAIResearch/dict-guided: Dictionary-guided Scene Text Recognition (CVPR-2021)
Tối ưu hệ thống:
- Với những hạn chế đã gặp ở tháng 3, để tránh model trả về những thông tin không chính xác và không cần thiết, nhóm đã thêm tính năng audio vào phần INPUT. Nội dụng của audio là những thông tin mà người dùng cần tìm kiếm về sản phẩm.
Kết quả:
- Thông tin OUTPUT trả về ngắn gọn và chính xác hơn.
- Hạn chế: Phần audio ở INPUT sẽ không cho kết quả tốt với giọng nói đặc trưng của vùng miền hay chứa nhiều tạp âm.
Xây dựng web demo: https://drive.google.com/file/d/1ZAu3-VcXF3OzZVbC_8oxR_BYv3KeJabn/view?usp=sharing

Kết quả đạt được:
- Tìm được bộ dữ liệu để có thể đánh giá tốt model.
- Model xử lý và trả về kết quả khá chính xác với INPUT là ảnh sản phẩm và audio nội dung cần tìm kiếm.
- Xây dựng cơ bản web để demo kết quả.
Khuyết điểm:
- Audio phần INPUT chưa nhận diện được những giọng nói đặc biệt.
- Thời gian xử lý chưa nhanh.
Hướng phát triển:
- Tối ưu mô hình xử lý và prompt.
- Đa dạng audio.
- Xây dựng INPUT là video hoặc multi image.