- Một số nhà nghiên cứu Nhật Bản cho rằng các hệ thống AI được đào tạo bằng các ngôn ngữ nước ngoài không thể hiểu rõ sâu sắc về ngôn ngữ và văn hóa của Nhật Bản.
- Chính phủ Nhật Bản cùng các công ty công nghệ lớn như NEC, Fujitsu và SoftBank đang đầu tư hàng trăm triệu đô la để tạo ra các hệ thống trí tuệ nhân tạo dựa trên cùng công nghệ cơ bản, được gọi là các mô hình ngôn ngữ lớn (LLMs), nhưng sử dụng ngôn ngữ Nhật, thay vì phiên bản dịch từ tiếng Anh.
Tác giả: Tim Hornyak,
(tạp chí Nature vào ngày 15 tháng 9 năm 2023)
Nhật Bản đang xây dựng phiên bản riêng của ChatGPT – chatbot trí tuệ nhân tạo do công ty Mỹ OpenAI tạo ra và đã trở thành hiện tượng trên toàn cầu sau khi được ra mắt chưa đầy một năm.
Chính phủ Nhật Bản cùng các công ty công nghệ lớn như NEC, Fujitsu và SoftBank đang đầu tư hàng trăm triệu đô la để tạo ra các hệ thống trí tuệ nhân tạo dựa trên cùng công nghệ cơ bản, được gọi là các mô hình ngôn ngữ lớn (LLMs), nhưng sử dụng ngôn ngữ Nhật, thay vì phiên bản dịch từ tiếng Anh.
“Những LLM công cộng hiện tại, như GPT, xuất sắc trong tiếng Anh, nhưng thường không đạt được hiệu suất tương tự trong tiếng Nhật do sự khác biệt về hệ thống chữ cái, dữ liệu hạn chế và các yếu tố khác”, như Keisuke Sakaguchi, một nhà nghiên cứu tại Đại học Tohoku ở Nhật Bản chuyên về xử lý ngôn ngữ tự nhiên, đã phát biểu.
Sự thiên vị tiếng Anh
Các mô hình ngôn ngữ lớn (LLMs) thường sử dụng lượng lớn dữ liệu từ các nguồn công khai để học các mẫu của lời nói tự nhiên và văn văn bản. Chúng được đào tạo để dự đoán từ tiếp theo dựa trên các từ trước đó trong một đoạn văn bản. Hầu hết văn bản mà mô hình trước của ChatGPT, GPT-3, đã được đào tạo dựa trên là tiếng Anh.
Khả năng đáng kinh ngạc của ChatGPT trong việc duy trì cuộc trò chuyện giống con người đã khiến các nhà nghiên cứu vừa mừng vừa lo lắng. Một số người thấy nó có thể là một công cụ tiết kiệm lao động tiềm năng; những người khác lo ngại rằng nó có thể được sử dụng để tạo ra các bài báo khoa học giả mạo hoặc dữ liệu giả.
Tại Nhật Bản, có một lo ngại rằng các hệ thống trí tuệ nhân tạo được đào tạo trên các tập dữ liệu ở các ngôn ngữ khác không thể hiểu sâu sắc về ngôn ngữ và văn hóa của Nhật Bản. Cấu trúc câu trong tiếng Nhật hoàn toàn khác biệt so với tiếng Anh. Do đó, ChatGPT phải dịch một truy vấn tiếng Nhật thành tiếng Anh, tìm câu trả lời và sau đó dịch câu trả lời trở lại tiếng Nhật.
Trong khi tiếng Anh chỉ có 26 chữ cái, chữ viết của tiếng Nhật bao gồm hai bộ gồm 48 ký tự cơ bản, cộng thêm 2.136 ký tự Trung Quốc thông thường được sử dụng, hay còn gọi là kanji. Hầu hết kanji có hai hoặc nhiều hơn hai cách phát âm, và còn khoảng 50.000 kanji ít khi được sử dụng. Với sự phức tạp đó, không ngạc nhiên khi ChatGPT gặp khó khăn khi xử lý ngôn ngữ này.
Trong tiếng Nhật, Sakaguchi nói, “đôi khi ChatGPT tạo ra các ký tự cực kỳ hiếm mà hầu hết mọi người chưa bao giờ thấy trước đó, và dẫn đến việc xuất hiện các từ lạ lẫm không rõ nguồn gốc.”
Quy tắc văn hóa
Để một LLM trở nên hữu ích và có khả năng kinh doanh, nó cần phản ánh chính xác các thực hành văn hóa cũng như ngôn ngữ. Ví dụ, nếu ChatGPT được yêu cầu viết một email xin việc bằng tiếng Nhật, nó có thể bỏ qua những biểu đạt lịch sự tiêu chuẩn và trông giống như một bản dịch rõ ràng từ tiếng Anh.
Để đo độ nhạy cảm của LLMs đối với văn hóa Nhật Bản, một nhóm nghiên cứu đã khởi xướng Rakuda, một bảng xếp hạng về khả năng của LLMs trong việc trả lời các câu hỏi mở về các chủ đề Nhật Bản. Sam Passaglia, người đồng sáng lập Rakuda và đồng nghiên cứu của ông, đã yêu cầu ChatGPT so sánh tính linh hoạt và sự phù hợp văn hóa của các câu trả lời với các yêu cầu tiêu chuẩn. Việc sử dụng công cụ này để xếp hạng kết quả dựa trên một bài báo trước in vào tháng 6 đã cho thấy GPT-4 đồng tình với những người đánh giá con người 87% thời gian. LLM tiếng Nhật nguồn mở tốt nhất đứng thứ tư trên Rakuda, trong khi ở vị trí đầu tiên, có lẽ không ngạc nhiên, bởi vì nó cũng là người đánh giá trong cuộc thi, là GPT-4.
“Chắc chắn rằng các LLM tiếng Nhật đang trở nên tốt hơn nhiều, nhưng họ vẫn cách xa GPT-4,” Passaglia, một nhà vật lý tại Đại học Tokyo nghiên cứu về các mô hình ngôn ngữ tiếng Nhật, nói. Nhưng ông cho biết, trong nguyên tắc không có lý do gì mà một LLM tiếng Nhật không thể trong tương lai sánh ngang hoặc vượt qua GPT-4. “Điều này không phải là một vấn đề kỹ thuật không thể vượt qua, mà chỉ là một vấn đề về tài nguyên.”
Một nỗ lực lớn để tạo ra một LLM tiếng Nhật đang sử dụng máy tính siêu tốc Fugaku của Nhật Bản, một trong những máy tính nhanh nhất trên thế giới, đào tạo nó chủ yếu bằng đầu vào tiếng Nhật. Được hậu thuẫn bởi Viện Công nghệ Tokyo, Đại học Tohoku, Fujitsu và nhóm trung tâm nghiên cứu do chính phủ tài trợ, LLM kết quả dự kiến sẽ được phát hành vào năm tới. Nó sẽ tham gia cùng các LLM nguồn mở khác trong việc cung cấp mã nguồn cho tất cả người dùng, khác với GPT-4 và các mô hình chủ quyền khác. Theo Sakaguchi, người tham gia dự án, nhóm hy vọng sẽ cung cấp ít nhất 30 tỷ tham số cho nó, đó là các giá trị ảnh hưởng đến đầu ra của nó và có thể là một tiêu chuẩn cho kích thước của nó.
Tuy nhiên, LLM Fugaku có thể sẽ được kế thừa bởi một LLM lớn hơn. Bộ Giáo dục, Văn hóa, Thể thao, Khoa học và Công nghệ của Nhật Bản đang tài trợ cho việc tạo ra một chương trình trí tuệ nhân tạo tiếng Nhật được điều chỉnh cho các nhu cầu khoa học, sẽ tạo ra giả thuyết khoa học bằng cách học từ nghiên cứu đã được công bố, giúp tăng tốc việc xác định các mục tiêu để điều tra. Mô hình này có thể bắt đầu với 100 tỷ tham số, chỉ hơn một nửa kích thước của GPT-3, và sẽ được mở rộng theo thời gian.
“Mục tiêu của chúng tôi là tăng tốc đáng kể chu kỳ nghiên cứu khoa học và mở rộng không gian tìm kiếm,” Makoto Taiji, phó giám đốc tại Trung tâm Nghiên cứu Động học Hệ thống sống RIKEN, nói về dự án này. LLM này có thể tốn ít nhất 30 tỷ yên (204 triệu USD) để phát triển và dự kiến sẽ được công khai vào năm 2031.
Khả năng Mở rộng
Các công ty Nhật Bản khác đang thương mại hóa hoặc đang lên kế hoạch thương mại hóa công nghệ LLM riêng của họ. Hãng sản xuất máy tính siêu tốc NEC đã bắt đầu sử dụng trí tuệ nhân tạo sáng tạo dựa trên ngôn ngữ tiếng Nhật của mình vào tháng 5 và tuyên bố nó giảm thời gian cần để tạo ra báo cáo nội bộ điều này lên đến 50% và mã nguồn phần mềm nội bộ điều này lên đến 80%. Vào tháng 7, công ty đã bắt đầu cung cấp dịch vụ trí tuệ nhân tạo sáng tạo có thể tùy chỉnh cho khách hàng.
Masafumi Oyamada, người nghiên cứu cấp cao tại Viện Nghiên cứu Khoa học Dữ liệu của NEC, cho biết nó có thể được sử dụng “trong một loạt các ngành, chẳng hạn như tài chính, giao thông vận tải và logistics, phân phối và sản xuất”. Ông thêm rằng các nhà nghiên cứu có thể sử dụng nó để viết mã, hỗ trợ viết và chỉnh sửa bài báo và làm khảo sát các bài báo đã được xuất bản, giữa các nhiệm vụ khác.
Trong khi đó, công ty viễn thông Nhật Bản SoftBank đang đầu tư khoảng 20 tỷ yên vào trí tuệ nhân tạo sáng tạo được đào tạo bằng văn bản tiếng Nhật và có kế hoạch tung ra LLM riêng của mình vào năm tới. Softbank, có 40 triệu khách hàng và đối tác với Microsoft, một trong những nhà đầu tư của OpenAI, nói rằng mục tiêu của họ là giúp các công ty số hóa doanh nghiệp của họ và tăng năng suất. SoftBank kỳ vọng rằng LLM của họ sẽ được sử dụng bởi các trường đại học, tổ chức nghiên cứu và các tổ chức khác.
Trong khi đó, các nhà nghiên cứu Nhật Bản hy vọng rằng một chatbot AI chính xác, hiệu quả và được sản xuất tại Nhật Bản có thể giúp tăng tốc trong lĩnh vực khoa học và nối cầu giữa Nhật Bản và phần còn lại của thế giới.
“Nếu phiên bản tiếng Nhật của ChatGPT có thể được làm chính xác, nó được kỳ vọng sẽ mang lại kết quả tốt hơn cho những người muốn học tiếng Nhật hoặc tiến hành nghiên cứu về Nhật Bản,” Shotaro Kinoshita, một nhà nghiên cứu về công nghệ y tế tại Trường Y khoa Đại học Keio ở Tokyo, cho biết. “Kết quả, có thể sẽ có tác động tích cực đối với nghiên cứu chung quốc tế.”
Bài viết này được sao chép với sự cho phép và đã được xuất bản lần đầu vào ngày 14 tháng 9 năm 2023.
Tim Hornyak là một nhà báo tự do về khoa học và công nghệ đang công tác tại Tokyo. Các bài viết gần đây của Tim Hornyak:
- “Hạt” Robots Hợp Tác Để Thực Hiện Nhiệm Vụ
- Nhà Khoa Học Xác Định Các Gen Liên Quan Đến Giấc Ngủ REM
- Cấy Ghép Thần Kinh Tương Lai Có Thể Phát Hiện Và Theo Dõi Bệnh?