Building Visual Question Answering System for Vietnamese Blind People

Duy Trương - Quang Nguỵ - Chiến Trần - Anh Nguyễn - Huy Dương - Nhật Trương

631

1. Giới thiệu

Tiếp cận thông tin hình ảnh vẫn còn là một thách thức lớn đối với người khiếm thị, đặc biệt là trong các môi trường thiếu nguồn lực. Tại Việt Nam, nơi các công nghệ hỗ trợ người khuyết tật còn hạn chế và chưa được phổ biến rộng rãi, người mù thường gặp khó khăn trong các nhiệm vụ yêu cầu diễn giải nội dung hình ảnh, chẳng hạn như xác định vật thể trong môi trường xung quanh, đọc thông tin sản phẩm hoặc xác định phương hướng ở nơi xa lạ.

Nghiên cứu của chúng tôi tập trung vào việc phát triển một hệ thống Trả lời Câu hỏi dựa trên hình ảnh (Visual Question Answering – VQA) được thiết kế riêng cho người dùng Việt Nam bị khiếm thị. VQA là một lĩnh vực mới kết hợp giữa thị giác máy tính và xử lý ngôn ngữ tự nhiên, cho phép người dùng đặt câu hỏi về một hình ảnh và nhận được câu trả lời dựa trên thông tin từ hình ảnh đó. Mặc dù nhiều mô hình VQA đã đạt được những kết quả đầy hứa hẹn, phần lớn trong số đó được huấn luyện trên các tập dữ liệu tiếng Anh và chưa được tối ưu hóa cho ngôn ngữ tiếng Việt. Hơn nữa, nghiên cứu hiện nay về VQA chủ yếu nhắm đến các trường hợp sử dụng tổng quát, với rất ít sự chú trọng đến nhu cầu cụ thể của người khiếm thị. Việc thiếu tập trung vào tính khả thi và khả năng tiếp cận trong thực tế đã hạn chế đáng kể tính ứng dụng của các hệ thống này đối với cộng đồng người mù.

Trong dự án này, chúng tôi hướng đến việc xây dựng một hệ thống VQA được thiết kế riêng cho người khiếm thị tại Việt Nam. Chúng tôi tập trung vào việc xây dựng bộ dữ liệu phù hợp với nhu cầu của người Việt, và nâng cao khả năng sử dụng của mô hình trong các tình huống thực tế. Thông qua đó, chúng tôi hy vọng không chỉ cải thiện khả năng tiếp cận thông tin hằng ngày cho người dùng mà còn đóng góp vào sự phát triển rộng hơn của các giải pháp AI hỗ trợ người khuyết tật, đồng thời khuyến khích thêm nhiều nghiên cứu và đổi mới trong lĩnh vực quan trọng này.

Các đóng góp chính của chúng tôi bao gồm:

Phát triển một tập dữ liệu được thu thập thủ công, phù hợp với bối cảnh Việt Nam, bao gồm các hình ảnh thực tế và các cặp câu hỏi – trả lời bằng tiếng Việt, tập trung vào nhu cầu của người dùng khiếm thị.
Đánh giá các phương án khả thi, bao gồm sử dụng các mô hình ngôn ngữ được huấn luyện sẵn trên tiếng Việt, các giải pháp dựa trên API (sử dụng Google Gemini) và các mô hình thị giác mã nguồn mở đa ngữ (hoạt động trên nhiều ngôn ngữ). Chúng tôi cũng tiến hành so sánh hiệu suất giữa các phương pháp trên tập dữ liệu của mình.
Công khai toàn bộ dự án mã nguồn mở, bao gồm các công cụ tự phát triển phục vụ gán nhãn dữ liệu, hệ thống demo web và API cùng với source code để hỗ trợ việc tái tạo kết quả cũng như hỗ trợ các dự án tương tự khác.

2. Chi tiết

2.1 Dữ liệu

Ở giai đoạn đầu của dự án, chúng tôi đã tiến hành khảo sát nhiều tập dữ liệu hiện có phục vụ cho bài toán VQA [1]. Tuy nhiên, chúng tôi nhận thấy một số hạn chế chính trong các tập dữ liệu hiện tại:

Rất ít tập dữ liệu có sẵn bằng tiếng Việt.
Nhiều cặp hình ảnh – câu hỏi không phản ánh sát các tình huống thực tế mà người khiếm thị thường gặp phải.
Một số tập dữ liệu được thiết kế riêng cho người khiếm thị chứa các đối tượng hoặc ngữ cảnh phổ biến ở các quốc gia khác nhưng lại không quen thuộc với người Việt Nam.

Mục tiêu của nhóm là xây dựng một hệ thống VQA được tối ưu hóa cho các tình huống thực tế liên quan đến người khiếm thị tại Việt Nam. Để đạt được điều này, nhóm đã kết hợp dữ liệu được gán nhãn thủ công với các hình ảnh được chọn lọc kỹ lưỡng từ các tập dữ liệu hiện có. Do thành viên nhóm nghiên cứu làm việc ở nhiều tỉnh thành khác nhau, chúng tôi cũng phát triển công cụ gán nhãn dữ liệu riêng nhằm giúp việc cộng tác dễ dàn hơn , đồng bộ nhãn được hiệu quả, đồng thời giảm thiểu công sức và đảm bảo tính nhất quán khi mở rộng tập dữ liệu. Minh họa về công cụ gán nhãn và định dạng tập dữ liệu được trình bày trong hình bên dưới.

Do giới hạn thời gian hai tháng cho giai đoạn kiểm chứng ý tưởng (Proof of Concept – POC), nhóm đã thu hẹp phạm vi bài toán, tập trung vào bài toán Kiểm tra sự tồn tại (Existence Checking), kèm theo một số ràng buộc nhằm đảm bảo tính phù hợp – chi tiết được trình bày tại [2]

Kết thúc giai đoạn PoC, chúng tôi đã thu thập tổng cộng 244 hình ảnh, tập trung vào một bài toán: xác định sự tồn tại của một đối tượng nhất định trong hình ảnh. Tập dữ liệu chủ yếu xoay quanh bốn đối tượng quen thuộc: ví, cốc, chai nước và điều khiển từ xa. Mỗi câu hỏi trong tập dữ liệu được gán một trong ba nhãn: “có”, “không”, hoặc “không thể xác định” tùy theo mức độ rõ ràng và sự hiện diện của đối tượng trong hình ảnh.

2.2 Phương pháp

2.2.1 Mô hình ngôn ngữ thị giác (VLMs)

Do giới hạn về thời gian và tài nguyên tính toán, bộ dữ liệu mà nhóm thu thập được tương đối nhỏ, nên việc huấn luyện hoặc tinh chỉnh (fine-tune) mô hình mới không khả thi . Vì vậy, nhóm tập trung vào việc đánh giá các giải pháp đã có sẵn để xem mức độ hiệu quả của các gỉai pháp trên trong bài toán của nhóm. Cách giải pháp này bao gồm việc thử nghiệm các mô hình ngôn ngữ đã được huấn luyện trên tiếng Việt từ trước, tận dụng Google Gemini API, và sử dụng các mô hình ngôn ngữ thị giác mã nguồn mở. Chiến lược này giúp nhóm nhanh chóng xây dựng được các giải pháp cơ bản (baseline) và xác định những hướng phát triển tiềm năng trong tương lai.

Vào cuối giai đoạn PoC, nhóm lựa chọn thí nghiệm trên ba giải pháp khác nhau (baseline), mỗi mô hình có những ưu điểm và hạn chế riêng:

Baseline	Mô hình lựa chọn	Ưu điểm	Cons
1. Mô hình ngôn ngữ thị giác được tiền huấn luyện trên tiếng Việt	Vintern 1B v3.5	- Hiểu tiếng Việt tốt - Dễ dàng tích hợp vào hệ thống do tác giả cung cấp code mẫu (sample code)	- Cần tài nguyên máy móc để triển khai - Ít lựa chọn mô hình hơn so với các hướng tiếp cận khác
2. API miễn phí	Google Gemini API (gemini 2.0 flash)	- Hiệu năng cao, dùng được ngay - Có thể xử lý hình ảnh và ngôn ngữ đồng thời - Dễ sử dụng	- Mã nguồn đóng nên khó tùy biến - Có giới hạn (15 yêu cầu (request)/phút)
3. Mô hình ngôn ngữ thị giác mã nguồn mở	Qwen-2.5	- Mã nguồn mở và minh bạch - Linh hoạt, dễ tùy chỉnh - Có thể tinh chỉnh nếu cần	- Hiệu năng không ổn định với tiếng Việt do huấn luyện đa ngôn ngữ - Nặng hơn so với các phương pháp khác

2.2.2 Đánh giá

Với bộ dữ liệu hiện tại, nhóm cần một tiêu chí đánh giá (evaluation metric) có khả năng đo lường hiệu quả mức độ chính xác của câu trả lời từ mô hình. Do tính chất đặc thù của ngôn ngữ, một câu hỏi có thể có nhiều câu trả lời đúng — dù cách diễn đạt khác nhau nhưng vẫn mang cùng một ý nghĩa.

Ví dụ, với câu hỏi “Thủ đô Việt Nam là thành phố nào?”, các câu trả lời sau đều nên được xem là chính xác:

Câu trả lời 1: Thủ đô Hà Nội
Câu trả lời 2: Thành phố Hà Nội
Câu trả lời 3: Hà Nội

Ví dụ trên cho thấy tầm quan trọng của việc sử dụng tiêu chí đánh giá dựa trên ngữ nghĩa thay vì chỉ so sánh độ giống nhau về chuỗi ký tự, nhằm phản ánh đúng hơn mức độ hiểu ngôn ngữ trong thực tế và nhu cầu thực tế của người dùng.

Lưu ý: Hình minh họa sẽ được bổ sung sau.

2.2.3 Kết qủa

Kết quả cuối cùng được thể hiện trong bảng dưới đây:

Baseline	Mô hình lựa chọn	Độ chính xác
1. Mô hình ngôn ngữ thị giác được tiền huấn luyện trên tiếng Việt	Vintern 1B v3.5	39.75%
2. API miễn phí	Google Gemini API (gemini 2.0 flash)	91.80%
3. Mô hình ngôn ngữ thị giác mã nguồn mở	Qwen-2.5	78.60%

Từ kết quả trên, có thể thấy rằng mặc dù Vintern được huấn luyện trên dữ liệu tiếng Việt, nhưng lại có hiệu năng khá thấp, dưới 40%. Qwen-2.5 đạt kết quả tương đối tốt, gần 80%, trong khi Gemini API cho kết quả vượt trội ở mức 91.80%. Cần lưu ý rằng Vintern có kích thước nhỏ hơn đáng kể với chỉ 1 tỷ tham số, so với phiên bản mạnh nhất của Qwen-2.5 với khoảng 72 tỷ tham số. Trong khi đó, Gemini là mô hình mã nguồn đóng nên không rõ kích thước thực tế.

Nhóm cũng quan sát được một số hành vi đáng chú ý từ các mô hình. Cả Gemini API và các mô hình mã nguồn mở đa ngôn ngữ đều thể hiện năng lực tốt trong việc nhận diện hình dạng vật thể. Trong một số trường hợp, các mô hình còn có thể nhận diện đúng các vật thể bị mờ mà nhóm ban đầu đã không để ý lúc gán nhãn. Tuy nhiên, điều này cũng dẫn đến một số nhầm lẫn — chẳng hạn, mô hình thường gán nhãn bất kỳ vật thể nào có hình dạng giống chai là “chai nước”, dù cho việc này không hoàn toàn chính xác. Trên thực tế, người dùng có thể chụp hình nhiều vật thể tương tự nhau, vốn rất phổ biến trong đời sống hàng ngày ở Việt Nam.

Ngoài ra, bài toán Existence Checking (kiểm tra sự tồn tại) là một bài toán tương đối đơn giản với số lượng câu trả lời giới hạn. Dựa trên kết quả hiện tại, hai hướng tiếp cận 2 và 3 tỏ ra tiềm năng để phát triển thêm. Dù việc sử dụng API có thể đem lại hiệu suất cao, nhưng đối với các bài toán phức tạp hơn, có thể cần cân nhắc hướng tinh chỉnh mô hình (fine-tuning) để có thể chủ động điều chỉnh mô hình cho phù hợp với nhu cầu thực tế.

2.3 Hệ thống

2.3.1 Kiến trúc

Trong giai đoạn thử nghiệm ý tưởng (PoC), nhóm đã phát triển một phiên bản web demo đơn giản để minh họa cách hệ thống hoạt động. Quy trình hoạt động của hệ thống khá đơn giản: khi người dùng gửi một hình ảnh kèm theo câu hỏi, hệ thống sẽ gọi mô hình xử lý để tạo ra câu trả lời.

Để tiết kiệm tài nguyên tính toán, nhóm có sử dụng cơ chế bộ nhớ đệm (cache). Nếu người dùng gửi lại cùng một hình ảnh với một câu hỏi tương tự, hệ thống sẽ lấy câu trả lời từ bộ nhớ đệm thay vì gọi lại mô hình, từ đó giảm thiểu số lượng tính toán không cần thiết.

Về giao diện web, nhóm sử dụng Streamlit, còn phần API backend được xây dựng bằng FastAPI nhằm đảm bảo hiệu suất nhanh và khả năng mở rộng tốt.

2.3.2 Demo

Vui lòng truy cập liên kết sau để xem bản demo

3. Kết luận

Trong giai đoạn thử nghiệm ý tưởng (PoC), nhóm đã chứng minh được tính khả thi ban đầu trong việc xây dựng hệ thống Hỏi đáp bằng hình ảnh (VQA) nhằm hỗ trợ người khiếm thị tại Việt Nam. Dù gặp nhiều hạn chế về thời gian và dữ liệu, nhóm vẫn triển khai thành công một hệ thống hoàn chỉnh, bao gồm: bộ dữ liệu được chọn lọc, chiến lược đánh giá kết quả, và web đơn giản để minh họa khả năng hoạt động của hệ thống.

Trong quá trình phát triển, nhóm đã quan sát được điểm mạnh lẫn hạn chế của các mô hình hiện tại, đặc biệt là khi xử lý các ngữ cảnh hình ảnh đặc trưng của người Việt. Những quan sát này cho thấy tầm quan trọng của việc tinh chỉnh mô hình và mở rộng dữ liệu trong tương lai nhằm giúp hệ thống hoạt động chính xác và hiệu quả hơn trong thực tế.

Trong tương lai, nhóm dự định phát triển thêm dự án theo một số hướng như sau: mở rộng quy mô thu thập dữ liệu, tăng độ chính xác của mô hình thông qua tinh chỉnh (fine-tuning), và cải thiện tính dễ sử dụng của hệ thống đối với người dùng.