Xây dựng bộ dữ liệu tiếng Việt để tối ưu hóa các tính năng AI

Theo danh mục các bài toán lớn về khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số của Bộ Tài chính năm 2025, Trung tâm Đổi mới sáng tạo Quốc gia (NIC) được giao chủ trì xây dựng bộ dữ liệu tiếng Việt mã nguồn mở phục vụ nghiên cứu, phát triển và ứng dụng AI (ViGen).

Dự án này được triển khai nhằm hỗ trợ việc phát triển mô hình ngôn ngữ lớn tiếng Việt trong Danh mục công nghệ chiến lược và sản phẩm công nghệ chiến lược quốc gia đến năm 2030 (theo Quyết định số 1131/QĐ-TTg ngày 12/6/2025 của Thủ tướng Chính phủ).

Trong thời gian qua, NIC đã phối hợp với Tập đoàn Meta, Tổ chức AI for Vietnam và các đối tác liên quan triển khai Dự án ViGen trong khuôn khổ Chương trình Thách thức Đổi mới sáng tạo Việt Nam 2025.

Cuộc họp tham vấn chuyên gia triển khai Dự án ViGen có sự tham gia của nhiều tổ chức hàng đầu có liên quan đến lĩnh vực này. Có thể kể đến các đơn vị như: Viện Công nghệ thông tin thuộc Viện Hàn lâm Khoa học và Công nghệ Việt Nam, Đại học Bách khoa Hà Nội, đại diện các doanh nghiệp trong và ngoài nước như: NVIDIA, Viettel AI, Misa, Genetica...

Phát biểu tại buổi họp tham vấn, ông Vũ Quốc Huy - Giám đốc Trung tâm Đổi mới sáng tạo Quốc gia đã nhấn mạnh tầm quan trọng của Dự án ViGen.

Trong bối cảnh hiện nay, AI không chỉ là một xu hướng công nghệ mà đã trở thành một trụ cột, động lực then chốt cho sự phát triển kinh tế - xã hội, nâng cao năng lực cạnh tranh quốc gia. Tuy nhiên, AI - đặc biệt là các mô hình ngôn ngữ lớn - sẽ không thể phát triển mạnh nếu thiếu đi các bộ dữ liệu chất lượng cao, đa dạng và mang tính đại diện.

Ông Vũ Quốc Huy - Giám đốc Trung tâm Đổi mới sáng tạo Quốc gia phát biểu tại buổi họp tham vấn.

“Tại Việt Nam, chúng ta đang phải đối mặt với một thách thức lớn trong quá trình ứng dụng và phát triển AI. Đó là sự thiếu hụt dữ liệu tiếng Việt toàn diện, là rào cản đáng kể, hạn chế việc phát triển các ứng dụng AI phù hợp với ngôn ngữ, văn hóa, kinh tế, chính trị, xã hội và bối cảnh Việt Nam”, ông Huy nhấn mạnh.

Cũng theo lãnh đạo Trung tâm Đổi mới sáng tạo Quốc gia, đây không chỉ là một dự án tập hợp dữ liệu đơn thuần. Quan trọng hơn, đây là một nguồn tài nguyên chiến lược, phản ánh đầy đủ bản sắc tiếng Việt; từ cách diễn đạt tự nhiên đến các giá trị văn hóa sâu sắc.

Với ViGen, có thể kỳ vọng những bước đột phá tiếp theo; từ các chatbot giao tiếp mượt mà bằng tiếng Việt, các hệ thống dịch thuật chính xác, đến các giải pháp AI hỗ trợ giáo dục, y tế, an ninh... Vai trò của ViGen không chỉ nằm ở việc nâng cao hiệu suất của AI, mà còn ở khả năng đưa công nghệ này đến gần hơn với cuộc sống của người dân Việt Nam.

Bộ dữ liệu ViGen sẽ đóng vai trò như “nguyên liệu đầu vào” thiết yếu cho hệ sinh thái AI của Việt Nam phát triển vững mạnh, mở rộng không gian đổi mới sáng tạo và ứng dụng AI trong thực tiễn. Đây cũng sẽ là chìa khóa mở ra vô vàn cơ hội cho sự phát triển của các giải pháp AI “make in Việt Nam”, từ đó nâng cao chất lượng cuộc sống và giải quyết những thách thức lớn về kinh tế - xã hội.

“Việc xây dựng hạ tầng dữ liệu tiếng Việt mã nguồn mở là một bước đi chiến lược và tạo nền tảng cho sự phát triển của hệ sinh thái AI nội địa. Điều này không chỉ giúp tăng năng lực cạnh tranh cho các tổ chức nghiên cứu, doanh nghiệp trong nước mà còn rất phù hợp với chủ trương, chính sách và quy định pháp luật về dữ liệu mở của Việt Nam”, ông Huy nhấn mạnh thêm.

Hiện nay, Dự án ViGen đã vào giai đoạn thiết lập cơ sở hạ tầng thu thập dữ liệu. Bao gồm việc định hình các tiêu chuẩn dữ liệu và xây dựng các nền tảng kỹ thuật, nhằm đảm bảo chất lượng, an toàn thông tin và quy mô của bộ dữ liệu tiếng Việt với mục tiêu tổng hợp dữ liệu của các đối tác liên quan. Dự kiến sẽ công bố phiên bản đầu tiên của bộ dữ liệu vào tháng 10/2025.

Giám đốc Trung tâm Đổi mới sáng tạo Quốc gia cũng kêu gọi sự chung tay của các chuyên gia, nhà khoa học, doanh nghiệp và các tổ chức để cùng tiếp tục đóng góp các ý kiến chuyên môn và nguồn lực đưa ViGen trở thành một tài sản chung, phục vụ cộng đồng và đưa Việt Nam tiến xa hơn trong lĩnh vực AI trên phạm vi toàn cầu.