Tác giả: Michael Li,
Viện Thực Hành 21 tháng 1, 2024 1:15 CH
Trí tuệ nhân tạo, đặc biệt là trí tuệ nhân tạo tạo sinh và các mô hình ngôn ngữ lớn (LLMs), đã đạt được những bước tiến kỹ thuật đáng kể và đang tiến đến điểm chuyển động của việc áp dụng rộng rãi trong ngành công nghiệp. Theo báo cáo của McKinsey, các doanh nghiệp hiệu suất cao về trí tuệ nhân tạo đã bắt đầu “đặt cược toàn bộ vào trí tuệ nhân tạo,” các công ty hiểu rằng họ phải đón nhận những công nghệ trí tuệ nhân tạo mới nhất hoặc sẽ bị bỏ lại.
Tuy nhiên, lĩnh vực an toàn của trí tuệ nhân tạo vẫn còn non trẻ, điều này mang lại một rủi ro lớn cho các công ty sử dụng công nghệ này. Các ví dụ về trí tuệ nhân tạo và học máy (ML) trở nên quái đản không khó để tìm thấy. Trong các lĩnh vực từ y học đến lực lượng công lý, các thuật toán được thiết kế để trung lập và không chệch đã bị phơi bày có những đặc tính chệch ẩn mà lại làm tăng thêm các bất bình đẳng xã hội hiện hữu, đồng thời mang lại rủi ro danh tiếng lớn cho những người tạo ra chúng.
Tay Chatbot của Microsoft có thể là câu chuyện cảnh báo nổi tiếng nhất cho các doanh nghiệp: Được đào tạo để nói chuyện bằng ngôn ngữ hành ngôn của tuổi teen trước khi bị những kẻ quấy rối trên internet đào tạo lại để phun ra những lời lẽ phân biệt chủng tộc và phụ nữ, nó nhanh chóng bị chính ông chủ công nghệ nhục nhã và gỡ xuống – nhưng không trước khi gây tổn thương về danh tiếng. Thậm chí cả ChatGPT, được ca ngợi nhiều, cũng đã được gọi là “đần độn hơn bạn nghĩ.”
Các nhà lãnh đạo doanh nghiệp và hội đồng quản trị hiểu rằng công ty của họ phải bắt đầu tận dụng tiềm năng cách mạng của trí tuệ nhân tạo. Nhưng làm thế nào họ có thể bắt đầu suy nghĩ về việc xác định các trường hợp sử dụng ban đầu và thực nghiệm nguyên mẫu khi đang hoạt động trong một môi trường đầy rủi ro liên quan đến an toàn trí tuệ nhân tạo?
Câu trả lời nằm trong việc tập trung vào một loại trường hợp sử dụng mà tôi gọi là vấn đề “Kim trong đống rơm.” Các vấn đề của đống rơm là những vấn đề mà việc tìm kiếm hoặc tạo ra các giải pháp tiềm năng là khá khó khăn đối với con người, nhưng việc xác minh các giải pháp có thể làm tương đối dễ dàng. Do tính chất đặc biệt của chúng, những vấn đề này rất thích hợp cho các trường hợp sử dụng và áp dụng trong ngành công nghiệp từ giai đoạn sớm. Và khi chúng ta nhận ra mẫu này, chúng ta nhận ra rằng những vấn đề của đống rơm đang tràn ngập.
Dưới đây là một số ví dụ:
1: Biên tập sao chép
Kiểm tra một tài liệu dài để tìm lỗi chính tả và ngữ pháp là một công việc khó khăn. Trong khi máy tính đã có khả năng bắt lỗi chính tả từ thời kỳ đầu của Word, việc tìm chính xác lỗi ngữ pháp đã trở nên khó khăn hơn cho đến khi xuất hiện trí tuệ nhân tạo tạo sinh, và thậm chí chúng thường nhận dạng nhầm các cụm từ hoàn toàn hợp lý là sai ngữ pháp.
Chúng ta có thể thấy cách biên tập sao chép phù hợp với mô hình Haystack. Đối với con người, việc nhận diện một lỗi ngữ pháp trong một tài liệu dài có thể là một công việc khó khăn; nhưng một khi trí tuệ nhân tạo đã xác định một lỗi tiềm ẩn, việc xác minh nếu chúng thực sự là sai ngữ pháp lại trở nên dễ dàng. Bước cuối cùng này quan trọng, vì ngay cả các công cụ được động viên bằng trí tuệ nhân tạo hiện đại cũng không hoàn hảo. Các dịch vụ như Grammarly đã sử dụng các mô hình ngôn ngữ lớn để thực hiện điều này.
2: Viết mã mẫu
Một trong những khía cạnh tốn thời gian nhất khi viết mã là học cú pháp và quy ước của một API hoặc thư viện mới. Quá trình này đòi hỏi nhiều nỗ lực trong việc tìm kiếm tài liệu và hướng dẫn, và được lặp lại hàng triệu lần mỗi ngày bởi các kỹ sư phần mềm. Bằng cách tận dụng trí tuệ nhân tạo tạo sinh được đào tạo trên mã nguồn được viết bởi những kỹ sư này, các dịch vụ như Github Copilot và Tabnine đã tự động hóa bước nhàm chán của việc tạo mã mẫu theo yêu cầu.
Vấn đề này rất phù hợp với mô hình “Kim trong đống rơm”. Trong khi việc nghiên cứu cần thiết để tạo ra một đoạn mã hoạt động trong một thư viện mới có thể tốn thời gian đối với con người, việc xác minh xem mã hoạt động đúng đắn hay không là tương đối dễ dàng (ví dụ, chạy mã). Cuối cùng, giống như với nội dung được tạo ra bởi trí tuệ nhân tạo khác, các kỹ sư phải tiếp tục xác minh rằng mã hoạt động đúng như mong đợi trước khi triển khai nó vào sản xuất.
3: Tìm kiếm trong văn bản khoa học
Theo dõi văn bản khoa học là một thách thức ngay cả đối với các nhà khoa học đã được đào tạo, vì hàng triệu bài báo được xuất bản hàng năm. Tuy nhiên, những bài báo này mang lại một kho tàng kiến thức khoa học, với các bằng sáng chế, thuốc và phát minh sẵn sàng được khám phá nếu chỉ có thể xử lý, hấp thụ và kết hợp kiến thức của chúng.
Đặc biệt khó khăn là những hiểu biết liên ngành yêu cầu sự chuyên sâu trong hai lĩnh vực thường rất không liên quan với ít chuyên gia nào đã thành thạo cả hai lĩnh vực. May mắn thay, vấn đề này cũng rơi vào lớp vấn đề “Kim trong đống rơm”: Việc kiểm tra tính hợp lý của những ý tưởng mới có thể được tạo ra bởi trí tuệ nhân tạo bằng cách đọc các bài báo mà chúng được rút ra từ là dễ dàng hơn là tạo ra ý tưởng mới trải rộng qua hàng triệu tác phẩm khoa học.
Và, nếu trí tuệ nhân tạo có thể học sinh học về sinh học phân tử một cách khoảng bằng như nó có thể học toán, nó sẽ không bị hạn chế bởi các ràng buộc chuyên ngành mà các nhà khoa học con người phải đối mặt. Các sản phẩm như Typeset đã là một bước hứa hẹn trong hướng này.
Xác minh của con người là quan trọng
Nhận thức quan trọng trong tất cả các trường hợp sử dụng ở trên là trong khi các giải pháp có thể được tạo ra bởi trí tuệ nhân tạo, chúng luôn được xác minh bởi con người. Để cho phép trí tuệ nhân tạo trực tiếp nói chuyện (hoặc thực hiện hành động) trên thế giới thay mặt cho một doanh nghiệp lớn là một rủi ro đáng sợ, và lịch sử đầy rẫy các thất bại trong quá khứ.
Việc để con người xác minh kết quả của nội dung được tạo ra bởi trí tuệ nhân tạo là quan trọng để đảm bảo an toàn trí tuệ nhân tạo. Tập trung vào các vấn đề “Kim trong đống rơm” cải thiện phân tích chi phí lợi ích của việc xác minh của con người. Điều này giúp trí tuệ nhân tạo tập trung vào việc giải quyết những vấn đề khó khăn đối với con người, đồng thời giữ nguyên quyết định và kiểm tra dễ dàng nhưng quan trọng của những người điều hành con người.
Trong những ngày đầu của các mô hình ngôn ngữ lớn, tập trung vào các trường hợp sử dụng “Kim trong đống rơm” có thể giúp các công ty xây dựng kinh nghiệm trí tuệ nhân tạo trong khi giảm thiểu những lo ngại về an toàn trí tuệ nhân tạo có thể nghiêm trọng.
Tianhui Michael Li là Chủ tịch tại Viện Thực Hành và là người sáng lập và Chủ tịch của The Data Incubator, một công ty đào tạo và đặt việc làm trong lĩnh vực khoa học dữ liệu.