Tác giả: Tiến Sĩ Tehseen Zia
ngày 6 tháng 5 năm 2024
Gần một năm trước, Mustafa Suleyman, một trong những người sáng lập DeepMind, đã dự đoán rằng thời kỳ của trí tuệ nhân tạo tạo ra nội dung sẽ sớm chuyển sang một cái gì đó tương tác hơn: các hệ thống có khả năng thực hiện các nhiệm vụ thông qua việc tương tác với ứng dụng phần mềm và nguồn lực con người. Ngày nay, chúng ta đang bắt đầu nhìn thấy tầm nhìn này trở nên rõ ràng với sự phát triển của hệ điều hành mới được AI của Rabbit AI, R1. Hệ thống này đã chứng minh khả năng ấn tượng trong việc theo dõi và mô phỏng các tương tác của con người với các ứng dụng. Ở trung tâm của R1 là Mô hình Hành động Lớn (LAM), một trợ lý AI tiên tiến có khả năng hiểu được ý định của người dùng và thực hiện các nhiệm vụ thay mặt họ. Trong khi trước đây được biết đến bằng các thuật ngữ khác như Trí Tuệ Nhân Tạo Tương Tác và Mô Hình Tư Tưởng Lớn, khái niệm về LAM đang thu hút sự chú ý như một đổi mới quan trọng trong các tương tác dựa trên trí tuệ nhân tạo. Bài viết này khám phá các chi tiết về LAM, cách chúng khác biệt so với các mô hình ngôn ngữ lớn truyền thống (LLMs), giới thiệu hệ thống R1 của Rabbit AI, và nhìn vào cách mà Apple đang tiến tới một phương pháp giống như LAM. Nó cũng thảo luận về các ứng dụng tiềm năng của LAM và những thách thức chúng phải đối mặt.
Hiểu về Mô Hình Hành Động Lớn hoặc Tư Tưởng (LAMs)
Một LAM là một hệ thống trợ lý AI tiên tiến được thiết kế để hiểu được ý định của con người và thực hiện các mục tiêu cụ thể. Những mô hình này xuất sắc trong việc hiểu nhu cầu của con người, lập kế hoạch cho các nhiệm vụ phức tạp, và tương tác với các mô hình, ứng dụng hoặc người khác để thực hiện kế hoạch của họ. LAMs vượt xa các nhiệm vụ AI đơn giản như tạo ra câu trả lời hoặc hình ảnh; chúng là hệ thống hoàn chỉnh được thiết kế để xử lý các hoạt động phức tạp như lập kế hoạch đi du lịch, sắp xếp cuộc hẹn, và quản lý email. Ví dụ, trong việc lập kế hoạch du lịch, một LAM sẽ phối hợp với một ứng dụng dự báo thời tiết, tương tác với các dịch vụ đặt vé máy bay để tìm các chuyến bay phù hợp, và tương tác với các hệ thống đặt phòng khách sạn để đảm bảo chỗ ở. Khác với nhiều mô hình AI truyền thống chỉ phụ thuộc vào mạng nơ-ron, LAMs sử dụng một phương pháp kết hợp huyền biểu tượng và mạng nơ-ron. Sự kết hợp này giúp trong lập luận logic và kế hoạch, trong khi mạng nơ-ron đóng góp vào việc nhận diện các mẫu cảm giác phức tạp. Sự kết hợp này cho phép LAMs giải quyết một loạt các nhiệm vụ, đánh dấu họ như một sự phát triển tinh tế trong các tương tác dựa trên trí tuệ nhân tạo.
So sánh LAMs với LLMs
Khác với LAMs, LLMs là các hệ thống trợ lý AI xuất sắc trong việc hiểu các yêu cầu của người dùng và tạo ra các phản hồi dựa trên văn bản, hỗ trợ chủ yếu trong các nhiệm vụ liên quan đến xử lý ngôn ngữ. Tuy nhiên, phạm vi của chúng thường chỉ giới hạn trong các hoạt động liên quan đến văn bản. Ngược lại, LAMs mở rộng khả năng của trí tuệ nhân tạo ra ngoài ngôn ngữ, cho phép chúng thực hiện các hành động phức tạp để đạt được mục tiêu cụ thể. Ví dụ, trong khi một LLM có thể hiệu quả soạn thảo một email dựa trên hướng dẫn của người dùng, một LAM đi xa hơn bằng cách không chỉ soạn thảo mà còn hiểu bối cảnh, quyết định phản hồi phù hợp và quản lý việc gửi email.
Ngoài ra, LLMs thường được thiết kế để dự đoán token tiếp theo trong một chuỗi văn bản và thực hiện các hướng dẫn được viết. Ngược lại, LAMs không chỉ được trang bị khả năng hiểu ngôn ngữ mà còn có khả năng tương tác với các ứng dụng và hệ thống thế giới thực như các thiết bị IoT. Chúng có thể thực hiện các hành động vật lý, điều khiển thiết bị và quản lý các nhiệm vụ đòi hỏi tương tác với môi trường bên ngoài, như đặt cuộc hẹn hoặc đặt chỗ. Sự kết hợp này giữa kỹ năng ngôn ngữ với thực thi thực tế cho phép LAMs hoạt động trên nhiều kịch bản đa dạng hơn so với LLMs.
LAMs trong Hành động: Rabbit R1
Rabbit R1 đứng là một ví dụ xuất sắc về việc sử dụng thực tiễn của LAMs. Thiết bị được cung cấp bởi trí tuệ nhân tạo này có thể quản lý nhiều ứng dụng thông qua một giao diện đơn giản, dễ sử dụng. Được trang bị màn hình cảm ứng 2,88 inch, một camera quay quanh và một bánh xe cuộn, R1 được đặt trong một bộ khung mảnh mai, với hình dạng tròn được thiết kế phối hợp cùng Teenage Engineering. Thiết bị hoạt động trên một bộ vi xử lý MediaTek tốc độ 2,3GHz, được bổ sung bởi 4GB bộ nhớ và 128GB dung lượng lưu trữ.
Ở trung tâm của R1 là LAM của nó, một cách thông minh giám sát các chức năng của ứng dụng và đơn giản hóa các nhiệm vụ phức tạp như điều khiển âm nhạc, đặt vận chuyển, đặt hàng tạp hóa và gửi tin nhắn, tất cả từ một điểm tương tác duy nhất. Điều này giúp R1 loại bỏ sự phiền toái của việc chuyển đổi giữa nhiều ứng dụng hoặc nhiều đăng nhập để thực hiện các nhiệm vụ này.
LAM bên trong R1 ban đầu được huấn luyện bằng cách quan sát các tương tác của con người với các ứng dụng phổ biến như Spotify và Uber. Quá trình huấn luyện này đã cho phép LAM điều hướng các giao diện người dùng, nhận dạng biểu tượng và xử lý các giao dịch. Quá trình huấn luyện kỹ lưỡng này cho phép R1 thích ứng một cách linh hoạt với gần như mọi ứng dụng. Ngoài ra, một chế độ huấn luyện đặc biệt cho phép người dùng giới thiệu và tự động hóa các nhiệm vụ mới, liên tục mở rộng phạm vi khả năng của R1 và biến nó thành một công cụ linh hoạt trong lĩnh vực tương tác dựa trên trí tuệ nhân tạo.
Tiến bộ của Apple Hướng Tới Khả năng Lấy Cảm Hứng từ LAMs trong Siri
Nhóm nghiên cứu trí tuệ nhân tạo của Apple gần đây đã chia sẻ những thông tin chi tiết về nỗ lực của họ để nâng cao khả năng của Siri thông qua một sáng kiến mới, giống như các tính năng của LAMs. Sáng kiến này, được đề cập trong một bài báo nghiên cứu về Giải Quyết Tham Khảo Như Mô Hình Ngôn Ngữ (ReALM), nhằm mục tiêu cải thiện khả năng của Siri trong việc hiểu bối cảnh trò chuyện, xử lý nội dung hình ảnh trên màn hình và phát hiện các hoạt động xung quanh. Phương pháp được ReALM áp dụng trong xử lý đầu vào giao diện người dùng (UI) có điểm tương đồng với các chức năng quan sát được trong Rabbit AI’s R1, thể hiện ý định của Apple làm tăng cường khả năng hiểu biết của Siri về tương tác của người dùng.
Sự phát triển này cho thấy Apple đang xem xét việc áp dụng các công nghệ LAM để làm cho cách người dùng tương tác với các thiết bị của họ trở nên hoàn thiện hơn. Mặc dù chưa có thông báo cụ thể về việc triển khai ReALM, tiềm năng để cải thiện đáng kể khả năng tương tác của Siri với các ứng dụng cho thấy những tiến bộ hứa hẹn trong việc làm cho trợ lý trở nên thông minh và nhanh nhạy hơn.
Các Ứng Dụng Tiềm Năng của LAMs
LAMs có tiềm năng mở rộng tác động của chúng xa hơn so với việc cải thiện tương tác giữa người dùng và thiết bị; chúng có thể mang lại những lợi ích đáng kể trong nhiều ngành công nghiệp khác nhau.
- Dịch Vụ Khách Hàng: LAMs có thể nâng cao dịch vụ khách hàng bằng cách xử lý các yêu cầu và khiếu nại độc lập qua các kênh khác nhau. Các mô hình này có thể xử lý các truy vấn bằng ngôn ngữ tự nhiên, tự động giải quyết các vấn đề, và quản lý lịch trình, cung cấp dịch vụ cá nhân hóa dựa trên lịch sử của khách hàng để cải thiện sự hài lòng.
- Y Tế: Trong lĩnh vực y tế, LAMs có thể giúp quản lý chăm sóc bệnh nhân bằng cách sắp xếp các cuộc hẹn, quản lý đơn thuốc, và tạo điều kiện cho việc giao tiếp giữa các dịch vụ. Chúng cũng hữu ích trong việc giám sát từ xa, phiên dịch dữ liệu y tế và cảnh báo nhân viên trong tình huống khẩn cấp, đặc biệt hữu ích cho quản lý chăm sóc bệnh mãn tính và người cao tuổi.
- Tài Chính: LAMs có thể cung cấp lời khuyên tài chính cá nhân và quản lý các nhiệm vụ như cân bằng danh mục và gợi ý đầu tư. Chúng cũng có thể giám sát các giao dịch để phát hiện và ngăn chặn gian lận, tích hợp một cách mượt mà với hệ thống ngân hàng để nhanh chóng giải quyết các hoạt động đáng ngờ.
Thách Thức của LAMs
Mặc dù có tiềm năng đáng kể, LAMs đối mặt với một số thách thức cần được giải quyết.
- Bảo mật và Quyền Riêng Tư Dữ Liệu: Với quyền truy cập rộng lớn vào thông tin cá nhân và nhạy cảm mà LAMs cần để hoạt động, đảm bảo bảo mật và quyền riêng tư dữ liệu là một thách thức lớn. LAMs tương tác với dữ liệu cá nhân trên nhiều ứng dụng và nền tảng, đặt ra lo ngại về việc xử lý, lưu trữ và xử lý thông tin này một cách an toàn.
- Các Vấn Đề Đạo Đức và Quy Định: Khi LAMs đảm nhận các vai trò tự động hóa hơn trong việc ra quyết định và tương tác với môi trường con người, các vấn đề đạo đức trở nên ngày càng quan trọng. Câu hỏi về trách nhiệm, minh bạch, và mức độ quyết định được giao cho máy móc trở nên quan trọng. Ngoài ra, có thể có những thách thức về quy định khi triển khai các hệ thống trí tuệ nhân tạo tiên tiến như vậy trong các ngành công nghiệp khác nhau.
- Độ Phức Tạp của Tích Hợp: LAMs yêu cầu tích hợp với một loạt các hệ thống phần mềm và phần cứng để thực hiện các nhiệm vụ một cách hiệu quả. Quá trình tích hợp này là phức tạp và có thể khó khăn trong việc quản lý, đặc biệt là khi điều phối các hành động qua các nền tảng và dịch vụ khác nhau, chẳng hạn như đặt vé máy bay, đặt chỗ ở và các chi tiết vận chuyển khác trong thời gian thực.
- Khả năng Mở Rộng và Điều Chỉnh: Mặc dù LAMs được thiết kế để thích ứng với một loạt các tình huống và ứng dụng, việc mở rộng các giải pháp này để xử lý môi trường thực tế đa dạng, liên tục và hiệu quả vẫn là một thách thức. Đảm bảo rằng LAMs có thể thích ứng với các điều kiện thay đổi và duy trì hiệu suất trên các nhiệm vụ và nhu cầu người dùng khác nhau là rất quan trọng cho sự thành công lâu dài của chúng.
Thay lời kết
Các Mô Hình Hành Động Lớn (LAMs) đang trỗi dậy như một đổi mới quan trọng trong lĩnh vực trí tuệ nhân tạo, ảnh hưởng không chỉ đến tương tác giữa các thiết bị mà còn đến các ứng dụng ngành công nghiệp rộng lớn hơn. Được thể hiện bởi Rabbit AI’s R1 và được khám phá trong những tiến bộ của Apple với Siri, LAMs đang tạo nên sân khấu cho các hệ thống trí tuệ nhân tạo tương tác và trực quan hơn. Các mô hình này đang chuẩn bị tăng cường hiệu suất và cá nhân hóa trong các lĩnh vực như dịch vụ khách hàng, y tế và tài chính.
Tuy nhiên, triển khai của LAMs đến với những thách thức, bao gồm các vấn đề về quyền riêng tư dữ liệu, vấn đề đạo đức, sự phức tạp trong tích hợp và khả năng mở rộng. Giải quyết những vấn đề này là rất quan trọng khi chúng ta tiến xa hơn trong việc áp dụng rộng rãi các công nghệ LAM, với mục tiêu sử dụng các khả năng của chúng một cách có trách nhiệm và hiệu quả. Khi LAMs tiếp tục phát triển, tiềm năng của chúng trong việc biến đổi các tương tác kỹ thuật số vẫn rất lớn, nhấn mạnh về sự quan trọng của chúng trong cảnh quan tương lai của trí tuệ nhân tạo.