Độ chính xác nhận dạng (%) theo các vùng miền trong trường hợp đã huấn luyện giọng miền Tây Nam Bộ
Ấp ủ ý tưởng về sản phẩm ứng dụng dựa trên nhận dạng tiếng nói Việt Nam, TS Hoàng Trang cùng nhóm nghiên cứu Đại học Bách Khoa, Đại học Quốc gia TP Hồ Chí Minh đã đề xuất ý tưởng và nghiên cứu, thiết kế thành công chíp nhận dạng tiếng nói Việt Nam trên nền công nghệ FPGA, phục vụ người khuyết tật điều khiển các thiết bị thông minh bằng chính giọng nói của mình, ứng dụng chế tạo TV, chế tạo robot điều khiển bằng giọng nói từ xa…
Từ ý tưởng đến thực tiễn
TS Hoàng Trang cho biết, trong quá trình nghiên cứu và làm việc tại châu Âu và Mỹ, anh nhận thấy các nước đều có những nhóm thuộc các trường đại học, công ty nghiên cứu giải thuật nhận dạng tiếng nói được đầu tư rất mạnh. Điển hình như Công ty Sony, Đại học Cambrige, Cơ quan Aurora tại châu Âu... Ngoài ra, các nước phát triển đều có chính sách hỗ trợ nhằm tạo ra các sản phẩm thiết thực phục vụ người khuyết tật với những ứng dụng dựa trên nhận dạng tiếng nói.
TS Hoàng Trang đã tìm hiểu các đề tài trong nước và nhận thấy đã có một số nghiên cứu về nhận dạng giọng nói trên máy tính. Khi đó, Chính phủ cũng đã ban hành Quyết định phê duyệt danh sách 46 công nghệ cao được ưu tiên đầu tư phát triển trong đó có công nghệ thiết kế, chế tạo các bộ vi xử lý; công nghệ nhận dạng chữ viết, tiếng nói, hình ảnh, cử chỉ, chuyển động và ý nghĩ. Xuất phát từ thực tiễn đó, nhóm nghiên cứu đã đề xuất ý tưởng với Bộ KH-CN và đã được phê duyệt thực hiện đề tài “Thiết kế chíp nhận dạng tiếng nói Việt Nam trên nền công nghệ FPGA” từ tháng 1.2013. Đề tài đã được bảo vệ thành công cấp Nhà nước, đạt loại xuất sắc vào tháng 3.2013.
Nhóm nghiên cứu cho biết, nhóm hướng đến mục tiêu thiết kế IC nhận dạng tiếng nói Việt Nam với tập tiếng nhận dạng là 20 tiếng, trên nền công nghệ FPGA dựa trên việc trích đặc trưng MFCC và bộ nhận dạng dùng mô hình Markov ẩn (HMM) với nhiều cải tiến mới.
Sau hơn một năm nỗ lực nghiên cứu, nhóm đã thiết kế được IC nhận dạng tiếng nói Việt Nam, gồm 20 tiếng đơn, đó là: “không”, “một”, “hai”, “ba”, “bốn”, “năm”, “sáu”, “bảy”, “tám”, “chín”, “trái”, “phải”, “trên”, “dưới”, “tới”, “lui”, “chạy”, “dừng”, “gọi”, “đứng”. Khi cần thiết, có thể thay đổi dễ dàng tập 20 tiếng nói khác. Sản phẩm nhận dạng tiếng nói Việt Nam có thể chạy trên các nền khác nhau như: FPGA, SoPC (System on Programmable Chip), vi điều khiển, hệ thống nhúng. Chíp được thiết kế chi tiết, gồm các cấu trúc vi mạch để thực hiện các giải thuật phức tạp trong lĩnh vực nhận dạng tiếng nói Việt Nam, đã được thử nhiệm trên 7.400 mẫu âm thanh, trên nền công nghệ 65mm - TS Hoàng Trang cho biết.
Triển vọng phát triển
Trong nhiều năm qua, một số các hãng công nghệ lớn trên thế giới đã đầu tư nghiên cứu về lĩnh vực này song kết quả thu được còn khá khiêm tốn, chỉ có một số ít công ty có chíp nhận dạng tiếng nói tiếng Anh như Công ty Sony, Motorola nhưng vẫn bị giới hạn về số từ vựng và ứng dụng. Ở Việt Nam, vấn đề nghiên cứu thiết kế cấu trúc vi mạch nhận dạng tiếng Việt vẫn còn bỏ ngỏ, mặc dù đây là hai hướng công nghệ cao được ưu tiên phát triển.
Đề tài “Thiết kế chíp nhận dạng tiếng nói Việt Nam trên nền công nghệ FPGA” đã góp phần “cứng hóa” thành công các giải thuật phức tạp trong nhận dạng tiếng Việt. Trên phần cứng, có ba vấn đề rất quan trọng cần quan tâm, bao gồm: độ chính xác nhận dạng, tài nguyên phần cứng và tốc độ tính toán. Ba yếu tố này thường được cân nhắc chọn lựa kỹ bởi khó có thể đạt được tối ưu trên cùng lúc cả ba yếu tố trên.
Đề tài đã được nghiên cứu, thí nghiệm, kiểm tra và chọn được các thông số tối ưu nhất trong giải thuật nhận dạng tiếng nói Việt Nam để đảm bảo cả ba yếu tố quan trọng trên đạt tiêu chuẩn. Đặc biệt, đề tài đã đề xuất các kiến trúc vi mạch và giải thuật mới không chỉ tăng tốc độ nhận dạng trên phần cứng nhanh hơn nhiều lần so với các giải thuật thông thường mà còn giảm tài nguyên phần cứng, giảm độ chính xác nhận dạng từ 1 - 3%. So với chip của hãng Motorola, sản phẩm của đề tài vượt hơn hẳn về tính năng như nhận dạng nhanh hơn, số từ nhận dạng nhiều hơn và nhận dạng nhiều giọng nói hơn...
Các thiết kế, thí nghiệm để tìm ra thông số tối ưu được thực hiện trên rất nhiều mẫu âm thanh của người dân ba miền Bắc, Trung, Nam vốn có giọng nói khác nhau. Sự khác nhau về giọng nói giữa các vùng, miền vốn là thách thức lớn cho các nhóm nghiên cứu trong lĩnh vực liên quan.
TS Hoàng Trang cho biết, nhóm đã bước đầu trao đổi, hợp tác với các doanh nghiệp để chuẩn bị hoàn thiện, chuyển giao, phát triển sản phẩm. Sản phẩm có thể ứng dụng trong điều khiển bằng giọng nói, các ứng dụng cho người khuyết tật; trong chế tạo TV mà hiện tại, các hãng lớn của nước ngoài như Sony, Samsung đã sử dụng chíp nhận dạng tiếng nói tiếng Anh.
Từ nay đến tháng 4.2014, TS Hoàng Trang cùng nhóm nghiên cứu phát triển nhận dạng cho bộ từ vựng lớn hơn, bao gồm: các từ ghép, các từ gần giống âm như từ “dừng” và từ “ngừng”, nhận dạng cả câu nói tiếng Việt, phát triển phần cứng nhận dạng người qua giọng nói trong ứng dụng bảo mật. Nhóm nghiên cứu kỳ vọng, đến năm 2016, chíp sẽ được ứng dụng trong chế tạo robot đọc văn bản và phát âm cho người khiếm thị; thiết bị giao tiếp cho người khiếm thính giúp nhận dạng tiếng nói từ người giao tiếp và hiển thị chữ lên màn hình; điều khiển các thiết bị trong nhà (ứng dụng trong ngôi nhà thông minh); trợ giúp người tàn tật chức năng chân hoặc tay trong việc điều khiển các thiết bị thông minh bằng chính giọng nói của mình như điều khiển xe lăn, các thiết bị điện trong nhà...
Từ tháng 5.2016 đến cuối năm 2018, nhóm sẽ xây dựng cấu hình chíp nhận dạng giọng nói tiếng Việt trên công nghệ 180mm do Tổng công ty Công nghiệp Sài Gòn dự kiến áp dụng cho nhà máy sản xuất chíp tại Việt Nam. Đồng thời sản xuất thử nghiệm chíp, thực hiện hệ thống mạch hoàn chỉnh gồm chíp được sản xuất và chíp liên quan như ROM, RAM, giải mã audio... Từ đó, phát triển thiết bị để gắn vào TV, giúp hiển thị chữ từ giọng nói tiếng Việt phát ra từ TV, ứng dụng trong các nhà máy sản xuất TV nội địa, nâng cao vị thế và sức cạnh tranh của hàng Việt Nam.
|