Tác giả: Aayush Mittal
Ngày 12 tháng 1 năm 2024
Lĩnh vực Trí tuệ Nhân tạo (AI) đã chứng kiến sự phát triển đáng kể trong năm 2023. Trí tuệ Nhân tạo Tạo sinh, tập trung vào việc tạo ra nội dung thực tế như hình ảnh, âm thanh, video và văn bản, đã đứng ở hàng đầu trong những tiến bộ này. Các mô hình như DALL-E 3, Stable Diffusion và ChatGPT đã thể hiện khả năng sáng tạo mới, nhưng cũng đặt ra lo ngại về đạo đức, độ chệch và lạm dụng.
Khi trí tuệ Nhân tạo tạo sinh tiếp tục phát triển nhanh chóng, các hỗn hợp chuyên gia (MoE), học đa dạng và khát vọng về Trí tuệ Nhân tạo Tổng hợp (AGI) dường như sẽ định hình những bước tiến tiếp theo của nghiên cứu và ứng dụng. Bài viết này sẽ cung cấp một khảo sát toàn diện về tình trạng hiện tại và hướng phát triển tương lai của trí tuệ Nhân tạo tạo sinh, phân tích cách các đổi mới như Gemini của Google và các dự án được dự kiến như Q* của OpenAI đang biến đổi cảnh quan. Nó sẽ xem xét các ảnh hưởng thực tế trong lĩnh vực chăm sóc sức khỏe, tài chính, giáo dục và các lĩnh vực khác, đồng thời làm nổi bật những thách thức mới xuất hiện về chất lượng nghiên cứu và sự phù hợp của Trí tuệ Nhân tạo với giá trị của con người.
Việc phát hành ChatGPT vào cuối năm 2022 đặc biệt đã làm nảy sinh sự hứng thú và lo ngại mới về trí tuệ nhân tạo, từ khả năng sử dụng ngôn ngữ tự nhiên ấn tượng đến khả năng lan truyền thông tin sai lệch. Trong khi đó, mô hình mới của Google, Gemini, thể hiện khả năng trò chuyện cải thiện đáng kể so với những mô hình trước đó như LaMDA thông qua các tiến bộ như chú ý spike-and-slab. Các dự án đồn đại như Q* của OpenAI gợi ý sự kết hợp giữa trí tuệ nhân tạo trò chuyện và học tăng cường.
Những đổi mới này báo hiệu về ưu tiên chuyển đổi đến các mô hình tạo sinh đa dạng, linh hoạt. Các cuộc thi cũng tiếp tục leo thang giữa các công ty như Google, Meta, Anthropic và Cohere, đua nhau để đẩy ranh giới trong phát triển trí tuệ nhân tạo có trách nhiệm.
Sự tiến hóa của nghiên cứu trí tuệ nhân tạo
Khi khả năng đã phát triển, xu hướng nghiên cứu và ưu tiên cũng đã dịch chuyển, thường tương ứng với các cột mốc công nghệ. Sự bùng nổ của học sâu đã làm tái lập sự quan tâm vào mạng thần kinh, trong khi xử lý ngôn ngữ tự nhiên đã tăng mạnh với các mô hình cấp độ ChatGPT. Trong khi đó, sự chú ý đến đạo đức vẫn là ưu tiên không ngừng giữa sự tiến triển nhanh chóng.
Các kho lưu trữ tiền in như arXiv cũng đã chứng kiến sự tăng trưởng phi mũ trong số lượng bài nộp về Trí tuệ Nhân tạo, tạo điều kiện cho việc phổ biến nhanh chóng nhưng giảm giảm đánh giá từ đồng nghiệp và tăng nguy cơ mắc phải lỗi hoặc độ chệch không được kiểm soát. Mối quan hệ giữa nghiên cứu và tác động thực tế vẫn phức tạp, đòi hỏi những nỗ lực điều hòa tiến triển một cách hiệu quả hơn.
MoE và hệ thống đa chế độ – đợt sóng tiếp theo của trí tuệ nhân tạo
Để khả năng tạo ra Trí tuệ Nhân tạo đa dạng, phức tạp hơn trong nhiều ứng dụng khác nhau, hai phương pháp ngày càng nổi bật là hỗn hợp chuyên gia (MoE) và học đa dạng.
Cấu trúc MoE kết hợp nhiều “chuyên gia” mạng thần kinh chuyên sâu được tối ưu hóa cho các nhiệm vụ hoặc loại dữ liệu khác nhau. Mô hình Gemini của Google sử dụng MoE để nắm bắt cả trao đổi trò chuyện dài và trả lời câu hỏi ngắn gọn. MoE giúp xử lý một loạt đầu vào rộng mà không làm tăng kích thước của mô hình quá nhiều.
Các hệ thống đa chế độ như Gemini của Google đang thiết lập các tiêu chuẩn mới bằng cách xử lý các phương thức đa dạng hơn chỉ là văn bản. Tuy nhiên, để thực hiện tiềm năng của Trí tuệ Nhân tạo đa chế độ, cần vượt qua những rào cản kỹ thuật và thách thức về đạo đức quan trọng.
Gemini: Định hình lại tiêu chuẩn trong đa chế độ
Gemini là một trí tuệ nhân tạo đa chế độ, được thiết kế để hiểu rõ các kết nối giữa văn bản, hình ảnh, âm thanh và video. Cấu trúc bộ mã hai chiều, chú ý chéo chế độ và giải mã đa chế độ của nó cho phép hiểu biết ngữ cảnh phức tạp. Tin rằng Gemini vượt qua các hệ thống chỉ có một bộ mã trong việc liên kết các khái niệm văn bản với các khu vực hình ảnh. Bằng cách tích hợp kiến thức có cấu trúc và đào tạo chuyên sâu, Gemini vượt trội so với các mô hình tiền nhiệm như GPT-3 và GPT-4 trong:
- Đa dạng các chế độ xử lý, bao gồm âm thanh và video
- Hiệu suất trên các tiêu chí như hiểu ngôn ngữ đa nhiệm lớn
- Sinh mã code qua các ngôn ngữ lập trình
- Tính mở rộng thông qua các phiên bản tùy chỉnh như Gemini Ultra và Nano
- Sự minh bạch thông qua lý do cho kết quả.
Những rào cản kỹ thuật trong hệ thống đa chế độ
Để thực hiện Trí tuệ Nhân tạo đa chế độ mạnh mẽ, cần giải quyết các vấn đề về đa dạng dữ liệu, tính mở rộng, đánh giá và khả năng giải thích. Các bộ dữ liệu mất cân đối và không nhất quán trong chú thích dẫn đến độ chệch. Xử lý nhiều luồng dữ liệu tải nặng nguồn lực máy tính, đòi hỏi kiến trúc mô hình được tối ưu hóa. Cần có sự tiến bộ trong các cơ chế chú ý và thuật toán để tích hợp các đầu vào đa chế độ mâu thuẫn. Vấn đề về tính mở rộng vẫn còn do chi phí tính toán lớn. Cải thiện các chỉ số đánh giá thông qua các tiêu chí toàn diện là quan trọng. Nâng cao niềm tin của người dùng thông qua Trí tuệ Nhân tạo có thể giải thích vẫn là quan trọng.
Các kỹ thuật học tiên tiến như học tự giám sát, học meta và điều chỉnh tinh chỉnh đang ở phía trước trong nghiên cứu Trí tuệ Nhân tạo, làm tăng tính tự động, hiệu suất và linh hoạt của các mô hình Trí tuệ Nhân tạo.
Học Tự giám sát: Tự động trong việc huấn luyện mô hình
Học tự giám sát nhấn mạnh việc tự độc trong quá trình huấn luyện mô hình bằng cách sử dụng dữ liệu không được gán nhãn, do đó giảm bớt công sức đánh dấu thủ công và độ chệch của mô hình. Nó tích hợp các mô hình tạo sinh như autoencoders và GANs để học phân phối dữ liệu và tái tạo đầu vào, và sử dụng các phương pháp tương phản như SimCLR và MoCo để phân biệt giữa các cặp mẫu tích cực và tiêu cực. Các chiến lược tự dự đoán, lấy cảm hứng từ NLP và được tăng cường bởi các Vision Transformers gần đây, đóng vai trò quan trọng trong học tự giám sát, thể hiện tiềm năng của nó trong việc nâng cao khả năng tự độc của AI trong quá trình đào tạo.
Học meta
Học meta, hoặc ‘học để học’, tập trung vào trang bị cho các mô hình Trí tuệ Nhân tạo khả năng thích ứng nhanh chóng với các nhiệm vụ mới bằng cách sử dụng số lượng mẫu dữ liệu hạn chế. Kỹ thuật này quan trọng trong các tình huống có sẵn ít dữ liệu, đảm bảo mô hình có thể thích ứng và thực hiện nhanh chóng trên các nhiệm vụ đa dạng. Nó tập trung vào khả năng tổng hợp từ cực kỳ ít dữ liệu, cho phép Trí tuệ Nhân tạo xử lý một loạt nhiệm vụ với dữ liệu tối thiểu, làm nổi bật sự quan trọng của nó trong việc phát triển hệ thống Trí tuệ Nhân tạo linh hoạt và có thể điều chỉnh.
Điều chỉnh tinh chỉnh: Tùy chỉnh Trí tuệ Nhân tạo cho Nhu cầu Cụ thể
Điều chỉnh tinh chỉnh liên quan đến việc thích ứng các mô hình đã được đào tạo trước cho các lĩnh vực cụ thể hoặc sở thích người dùng. Có hai phương pháp chính bao gồm điều chỉnh tinh chỉnh từ đầu đến cuối, điều chỉnh tất cả trọng số của bộ mã và phân loại, và điều chỉnh tinh chỉnh trích xuất đặc trưng, nơi trọng số bộ mã được đóng băng cho phân loại phụ xuống dòng. Kỹ thuật này đảm bảo rằng các mô hình tạo sinh được điều chỉnh một cách hiệu quả để đáp ứng nhu cầu cụ thể của người dùng hoặc yêu cầu lĩnh vực, làm tăng khả năng áp dụng của chúng trên nhiều ngữ cảnh khác nhau.
Đồng bộ giá trị con người: Đồng bộ hóa Trí tuệ Nhân tạo với Đạo đức
Đồng bộ giá trị con người tập trung vào việc đồng bộ hóa các mô hình Trí tuệ Nhân tạo với đạo đức và giá trị con người, đảm bảo rằng quyết định của chúng phản ánh các quy chuẩn xã hội và chuẩn mực đạo đức. Khía cạnh này quan trọng trong các tình huống nơi Trí tuệ Nhân tạo tương tác mật thiết với con người, như trong lĩnh vực chăm sóc sức khỏe và trợ lý cá nhân, để đảm bảo rằng các hệ thống Trí tuệ Nhân tạo ra quyết định một cách đạo đức và có trách nhiệm xã hội.
Phát triển Trí tuệ Nhân tạo Tổng hợp (AGI)
AGI tập trung vào việc phát triển Trí tuệ Nhân tạo có khả năng hiểu biết toàn diện và lập luận phức tạp, đồng bộ hóa với khả năng kognitif của con người. Ước mơ dài hạn này liên tục đẩy ranh giới của nghiên cứu và phát triển Trí tuệ Nhân tạo. An toàn và kiểm soát AGI đề cập đến những rủi ro tiềm ẩn liên quan đến các hệ thống Trí tuệ Nhân tạo tiên tiến, nhấn mạnh sự cần thiết của các giao thức an toàn nghiêm túc và sự đồng bộ với giá trị đạo đức và chuẩn mực xã hội.
MoE đầy sáng tạo
Kiến trúc mô hình Hỗn hợp Chuyên gia (MoE) đại diện cho một bước tiến quan trọng trong các mô hình ngôn ngữ dựa trên transformer, mang lại sự mở rộng và hiệu quả không giới hạn. Các mô hình MoE, như Switch Transformer và Mixtral, đang nhanh chóng định nghĩa lại quy mô và hiệu suất của mô hình trên nhiều nhiệm vụ ngôn ngữ khác nhau.
Khái niệm cơ bản
Các mô hình MoE sử dụng một kiến trúc dựa trên độ rải rác với nhiều mạng chuyên gia và một cơ chế cổng có thể đào tạo được, tối ưu hóa tài nguyên tính toán và thích ứng với độ phức tạp của nhiệm vụ. Chúng thể hiện những ưu điểm đáng kể trong tốc độ tiền đào, nhưng đối mặt với thách thức trong việc điều chỉnh tinh chỉnh và yêu cầu bộ nhớ đáng kể cho suy luận.
Các mô hình MoE nổi tiếng với tốc độ tiền đào xuất sắc, với các đổi mới như DeepSpeed-MoE tối ưu hóa suy luận để đạt được độ trễ và hiệu quả chi phí tốt hơn. Những tiến bộ gần đây đã hiệu quả giải quyết chướng ngại về giao tiếp toàn bộ-toàn bộ, nâng cao hiệu suất đào tạo và suy luận.
Tổ hợp các khối xây dựng cho trí tuệ nhân tạo tổng hợp
Trí Tuệ Nhân Tạo Tổng Hợp (AGI) đại diện cho khả năng giả định về việc Trí Tuệ Nhân Tạo có thể tương đương hoặc vượt trội so với trí tuệ con người trong mọi lĩnh vực. Trong khi Trí Tuệ Nhân Tạo hiện đại xuất sắc trong các nhiệm vụ hẹp, AGI vẫn còn xa và gây tranh cãi do những rủi ro tiềm ẩn của nó.
Tuy nhiên, các tiến bộ từng bước trong các lĩnh vực như học chuyển giao, huấn luyện đa nhiệm, khả năng trò chuyện và trừu tượng hóa đang từng bước tiến gần hơn về tầm nhìn cao cả của AGI. Dự án Q* đầy tưởng tượng của OpenAI nhằm tích hợp học tăng cường vào mô hình ngôn ngữ lâu dài là một bước tiến khác.
Ranh giới đạo đức và rủi ro của việc thao tác mô hình trí tuệ nhân tạo
Việc phá vỡ giới hạn cho phép kẻ tấn công né tránh những ranh giới đạo đức được đặt ra trong quá trình điều chỉnh tinh chỉnh của Trí Tuệ Nhân Tạo. Điều này dẫn đến việc tạo ra nội dung có hại như tin đồn, lời lẽ căm phẫn, email lừa đảo và mã độc hại, đặt ra rủi ro đối với cá nhân, tổ chức và xã hội nói chung. Ví dụ, một mô hình đã bị phá giới hạn có thể tạo ra nội dung thúc đẩy các câu chuyện phân hóa hoặc hỗ trợ hoạt động tội phạm trực tuyến.
Mặc dù chưa có báo cáo về các cuộc tấn công mạng sử dụng phương thức phá giới hạn, nhưng nhiều chứng minh bằng sáng chế thử nghiệm sẵn có trực tuyến và đang được bán trên mạng dark web. Những công cụ này cung cấp câu hỏi được thiết kế để thao tác các mô hình Trí Tuệ Nhân Tạo như ChatGPT, có thể tiềm ẩn khả năng cho hackers để rò rỉ thông tin nhạy cảm thông qua chatbot của công ty. Sự phổ biến của những công cụ này trên các nền tảng như diễn đàn tội phạm mạng làm nổi bật tính cấp bách của việc giải quyết mối đe dọa này.
Giảm thiểu rủi ro tấn công phá tùy chỉnh
Để đối phó với những mối đe dọa này, cần phải có một hướng tiếp cận đa chiều:
- Tinh chỉnh Tốt đẹp: Bao gồm dữ liệu đa dạng trong quá trình điều chỉnh tinh chỉnh cải thiện khả năng chống lại sự thao túng từ kẻ tấn công.
- Huấn luyện Chống đối: Huấn luyện với các ví dụ chống đối tăng cường khả năng của mô hình nhận diện và chống lại các đầu vào bị thao túng.
- Đánh giá Đều đặn: Theo dõi liên tục các kết quả giúp phát hiện sự chệch lệch so với hướng dẫn đạo đức.
- Kiểm Soát của Con Người: Sự tham gia của người đánh giá thêm một lớp an toàn bổ sung.
Rủi ro do trí tuệ nhân tạo: kỹ thuật lạc hướng
Hiện tượng lạc hướng của trí tuệ nhân tạo, khi mô hình tạo đầu ra không dựa trên dữ liệu huấn luyện từ trước, có thể được sử dụng như một vũ khí. Ví dụ, kẻ tấn công đã thao túng ChatGPT để đề xuất các gói không tồn tại, dẫn đến việc lan truyền phần mềm độc hại. Điều này làm nổi bật sự cần thiết của sự thận trọng và các biện pháp chống lại rủi ro tấn công như vậy.
Trong khi đạo đức của việc theo đuổi trí tuệ nhân tạo tổng hợp vẫn là một vấn đề khó khăn, sự theo đuổi tiếp tục ảnh hưởng đến hướng nghiên cứu của trí tuệ nhân tạo tạo tổng quát – liệu các mô hình hiện tại có giống như những bước tiến hay là những đường chuyền trái đường đến trí tuệ nhân tạo tương ứng với trí tuệ của con người.