Nhận dạng giọng nói chính xác đến 95%
Doanh nghiệp khoa học công nghệ Hệ thống trí thông minh nhân tạo Việt Nam (VAIS) là một trong 2 đơn vị được lựa chọn tham gia Lễ ra mắt Nền tảng công nghệ số do Bộ Thông tin và Truyền thông tổ chức mới đây. Lễ ra mắt này nằm trong chuỗi sự kiện giới thiệu các nền tảng số Make in Vietnam thực hiện Chương trình Chuyển đổi số quốc gia đến năm 2025, định hướng đến năm 2030 vừa được Thủ tướng Chính phủ phê duyệt.
“Make in Vietnam” đã trở thành khẩu hiệu cho việc phát triển ngành công nghiệp ICT (công nghệ thông tin - truyền thông) của Việt Nam, thể hiện khát khao sáng tạo, làm chủ của người Việt trong công nghệ. Là một doanh nghiệp khoa học công nghệ, Hoàng Minh Thành và đội ngũ VAIS mong muốn góp sức vào sự phát triển của ngành ICT, tạo ra những sản phẩm trí tuệ Việt, của người Việt, vì người Việt. Đây chính là động lực để Thành và các cộng sự xây dựng nền tảng chuyển đổi tiếng nói tiếng Việt thành văn bản (speech to text).
“VAIS là sản phẩm được chúng tôi xây dựng dựa trên công nghệ lõi chuyển giọng nói tiếng Việt thành văn bản với những đặc trưng như: nhận dạng được đầy đủ giọng nói cả 3 miền Bắc, Trung, Nam với độ chính xác lên đến 95%; chuyển đổi giọng nói tiếng Việt thành văn bản tức thì; nhận dạng tốt trong môi trường nhiễu và ở khoảng cách xa. Đặc biệt, nền tảng này có tính năng chuẩn hóa văn bản đầu ra như tên riêng, ngày, tháng, số…, hỗ trợ nhiều loại định dạng âm thanh đầu vào”, Thành chia sẻ.
Thành tự tin, VAIS sẽ giúp người Việt chủ động trong quá trình chuyển đổi số, triển khai dịch vụ một cách phù hợp, tiết kiệm chi phí, tăng tính bảo mật an ninh thông tin quốc gia…
Thị trường trong nước với gần 100 triệu dân, khoảng 700.000 doanh nghiệp, 126 triệu thuê bao di động, tỷ lệ người sử dụng Internet đạt 68,7% (năm 2019) là dư địa rộng lớn để Thành và đội ngũ VAIS khai thác, phát huy những ưu điểm của nền tảng công nghệ speech to text. Bên cạnh đó, khối cơ quan nhà nước, gồm các bộ, ngành và 63 tỉnh, thành phố trên toàn quốc cũng là đối tượng khách hàng rất tiềm năng.
Đặc biệt, VAIS đã triển khai thử nghiệm thành công hệ thống chuyển đổi giọng nói sang văn bản tại Kỳ họp thứ 7, Quốc hội khóa XIV và hỗ trợ gỡ băng trực tiếp cho các phóng viên tác nghiệp tại Kỳ họp thứ 8. VAIS đang tiếp tục hỗ trợ gần 300 phóng viên của hơn 50 cơ quan báo chí trong việc chuyển đổi giọng nói sang văn bản, giúp tiết kiệm thời gian soạn thảo văn bản mà không cần phải gõ bàn phím.
Tiếp tục cải thiện công nghệ lõi
Trò chuyện với chúng tôi, Thành tự hào vì VAIS sở hữu công nghệ lõi speech to text 100% do người Việt sáng tạo, với đội ngũ chuyên gia công nghệ được đào tạo bài bản từ những quốc gia hàng đầu trên thế giới.
Cụ thể, công nghệ dịch tiếng nói là đề tài nghiên cứu sinh tại Nhật Bản của Đặng Trường - một thành viên trong nhóm sáng lập VAIS.
“Sau khi nhận bằng tiến sỹ tại Nhật Bản, Trường về nước. Lúc đó, tôi đang có ý tưởng thành lập công ty về AI. Tôi, Trường và một người bạn nữa trở về từ Nhật Bản có cùng chung chí hướng. Chúng tôi gặp nhau, cùng bàn bạc, xây dựng, phát triển và hoàn thiện sản phẩm chuyển đổi giọng nói tiếng Việt thành văn bản. Chỉ sau 2 tháng (từ tháng 10 - tháng 12/2018), VAIS đã hoàn thiện sản phẩm và ký được hợp đồng đầu tiên với Văn phòng Trung ương Đảng”, Thành tâm sự.
Xây dựng sản phẩm chỉ trong thời gian ngắn, nhưng theo Thành, để hoàn thiện và ra mắt sản phẩm là cả một quá trình rất dài và khó khăn, bao gồm cả quá trình lao động của các thành viên sáng lập trong quá khứ.
Điểm khó khăn nhất với đội ngũ VAIS không phải công nghệ, mà là thấu hiểu và đáp ứng yêu cầu của khách hàng. Ngoài ra, sự thiếu hụt nhân sự cũng là một thử thách. Đội ngũ VAIS đã phải hoạt động hết công suất, kiêm nhiệm nhiều công việc, kể cả công việc ngoài chuyên môn.
Dù đang duy trì chính sách “thắt lưng buộc bụng”, nhưng Thành cho biết, VAIS vẫn chưa có ý định gọi vốn nhỏ.
Theo kế hoạch, trong năm 2020, VAIS sẽ đóng gói và tung ra thị trường 2 dòng sản phẩm là phân tích giọng nói và nhập dữ liệu giọng nói; đồng thời, cải thiện công nghệ lõi tương tích với giọng vùng miền, giọng địa phương, không quá phụ thuộc vào thiết bị thu.
“Thời gian tới, VAIS sẽ phát triển và đóng gói nhiều sản phẩm đa dạng dựa trên công nghệ, đưa sản phẩm đến với hàng triệu người Việt, không chỉ ở ở Việt Nam, mà trên toàn thế giới. Thông qua công nghệ này, chúng tôi mong muốn, người Việt có thể bảo tồn ngôn ngữ”, Thành bộc bạch.
Các giải thưởng của VAIS:
Giải Nhất cuộc thi Vietnamese Language & Speech Processing trong 2 năm liên tiếp, năm 2018 và 2019.
Giải Nhất cuộc thi Nhân tài đất Việt 2019 với phần mềm chuyển giọng nói thành văn bản Origin-STT.