Tác giả: AI Innovations
Newton từng nói, “Nếu tôi nhìn xa hơn, đó là nhờ đứng trên vai những người khổng lồ.” Chắc chắn, nếu những người khổng lồ đó có một chút hiện đại, họ sẽ là những tác nhân Trí Tuệ Nhân Tạo mã nguồn mở tự động đang thực hiện công việc nặng nhọc.
Trong bài viết hôm nay, chúng tôi sẽ xem xét một số tốt nhất trong số các tác nhân Trí Tuệ Nhân Tạo mã nguồn mở và các khung làm việc đa tác nhân mà bạn có thể sử dụng trong công việc cá nhân và kinh doanh của mình. Chúng tôi cũng sẽ đào sâu vào một số cơ hội, thách thức và điều chưa biết về kiến trúc tác nhân. Bạn sẽ tìm hiểu về:
🔶 Cách tác nhân Trí Tuệ Nhân Tạo mã nguồn mở tạo cơ hội cho sự đổi mới và hiệu quả.
🔶 Các khung làm việc đa tác nhân nào cung cấp những tính năng tốt nhất cho dự án của bạn.
🔶 Khi nào là thời điểm tốt nhất để triển khai tác nhân Trí Tuệ Nhân Tạo trong việc giải quyết các vấn đề thực tế trong thế giới thực.
🔶 Tác động của tác nhân tự động đối với quản lý công việc dựa trên Trí Tuệ Nhân Tạo. Và nhiều điều khác nữa…
Tác Nhân Tự Động (Autonomous Agents) Là Gì?
Các công cụ như ChatGPT, DALL-E 3, hoặc Midjourney sử dụng giao diện dựa trên hướng dẫn để tương tác giữa con người và Trí Tuệ Nhân Tạo. Điều đó có nghĩa bạn cần viết một bộ hướng dẫn bằng ngôn ngữ tự nhiên – thường đi kèm với rất nhiều nỗ lực thử nghiệm lại và lại để có được một phản ứng có ý nghĩa.
Điều này chậm, không hợp lý, xét đến khả năng của các mô hình Trí Tuệ Nhân Tạo. Vì Neuralink vẫn còn một khoảng thời gian nữa, chúng ta cần cách tốt hơn, hiệu quả hơn để tương tác với Trí Tuệ Nhân Tạo.
Vậy, tác nhân Trí Tuệ Nhân Tạo là gì?
Tác nhân tự động (hoặc gọi tắt là tác nhân Trí Tuệ Nhân Tạo) đảm nhận vai trò của người quản lý công việc cho Trí Tuệ Nhân Tạo. Đó là những ứng dụng đơn giản hoạt động trong các vòng lặp tự điều khiển, thiết lập, ưu tiên và xác định lại ưu tiên nhiệm vụ cho Trí Tuệ Nhân Tạo cho đến khi mục tiêu tổng quan được hoàn thành. Kết quả là một trải nghiệm với Trí Tuệ Nhân Tạo (tương đối) không cần can thiệp bằng tay
Thông Tin Trò Chơi Về Tác Nhân Trí Tuệ Nhân Tạo: Khái niệm về tác nhân Trí Tuệ Nhân Tạo tự động ra đời qua một bài báo mang tiêu đề “Tác Nhân Tự Động Được Dẫn Đầu Bởi Nhiệm Vụ” được xuất bản vào đầu năm 2023 bởi Yohei Nakajima, đối tác chung tại Untapped Capital.
Kiến trúc tác nhân ra đời vào tháng 3 năm 2023, nhưng cho đến vài tháng sau đó mới thực sự thâm nhập vào cộng đồng mã nguồn mở. Khung cảnh tác nhân có thể vẫn còn trông giống như một loại thử nghiệm của “nhà khoa học điên,” nhưng đã có một số mô hình mạnh mẽ vô cùng bạn có thể thử nghiệm.
11 Dự án nguồn mở tác nhân tự động (Autonomous Agent)
1. AutoGPT
Do Toran Bruce Richards, người sáng lập của công ty sản xuất trò chơi video Significant Gravitas Ltd., phát triển, AutoGPT là một trong những tác nhân ban đầu được ra mắt vào tháng 3 năm 2023, theo sau bài báo của Nakajima. Nó cũng là kho lưu trữ tác nhân phổ biến nhất có sẵn trên GitHub hiện nay.
Ý tưởng đằng sau AutoGPT rất đơn giản – đó là một bộ công cụ hoàn chỉnh để xây dựng và chạy các tác nhân Trí Tuệ Nhân Tạo tùy chỉnh cho mọi loại dự án. Công cụ này sử dụng các mô hình ngôn ngữ lớn (LLM) GPT-4 và GPT-3.5 của OpenAI và cho phép bạn xây dựng các tác nhân cho mọi loại dự án cá nhân và doanh nghiệp.
2. BabyAGI
BabyAGI là một phiên bản thu gọn của Tác Nhân Tự Động Được Dẫn Đầu Bởi Nhiệm Vụ của Nakajima. Tập lệnh Python chỉ có 140 từ mã và, theo kho lưu trữ chính thức trên GitHub, “sử dụng OpenAI và cơ sở dữ liệu vector như Chroma hoặc Weaviate để tạo, ưu tiên và thực hiện nhiệm vụ.”
Kể từ khi ra mắt, BabyAGI đã phát triển thành một số dự án thú vị. Một số dự án như twitter-agent🐣 hoặc BabyAGI trên Slack mang sức mạnh của tác nhân vào các nền tảng hiện có. Các dự án khác thêm các plugin và tính năng bổ sung hoặc chuyển đổi BabyAGI sang các ngôn ngữ khác (ví dụ: babyagi-perl).
3. SuperAGI
SuperAGI là một sự lựa chọn linh hoạt và thân thiện với người dùng hơn so với AutoGPT. Hãy tưởng tượng nó như một bệ phóng cho các tác nhân Trí Tuệ Nhân Tạo mã nguồn mở đi kèm với tất cả những gì bạn cần để xây dựng, duy trì và chạy các tác nhân của riêng bạn. Điều này bao gồm cả plugin và phiên bản trên nền tảng đám mây để bạn có thể thử nghiệm các tính năng.
Khung làm việc này có nhiều mô hình Trí Tuệ Nhân Tạo, một giao diện người dùng đồ họa, tích hợp với cơ sở dữ liệu vector (để lưu trữ/truy xuất dữ liệu) và thông tin về hiệu suất. Còn có một cửa hàng với các bộ công cụ cho phép bạn kết nối nó với các ứng dụng và dịch vụ phổ biến như Google Analytics.
4. ShortGPT
Các mô hình Trí Tuệ Nhân Tạo đang thể hiện sự xuất sắc trong việc tạo ra nội dung. Tuy nhiên, đến gần đây, định dạng video thường bị bỏ quên. ShortGPT là một khung làm việc cho phép bạn sử dụng các mô hình ngôn ngữ lớn để tối ưu hóa các nhiệm vụ phức tạp như tạo video, tổng hợp giọng nói và chỉnh sửa.
ShortGPT có thể xử lý hầu hết các nhiệm vụ liên quan đến video như viết kịch bản video, tạo giọng đọc, lựa chọn nhạc nền, viết tiêu đề và mô tả, thậm chí chỉnh sửa video. Công cụ này hoạt động cho cả nội dung video ngắn và dài, không phân biệt nền tảng sử dụng.
5. ChatDev
CoPilot, Bard, ChatGPT và nhiều công cụ khác là các trợ lý mã mạnh mẽ. Nhưng các dự án như ChatDev có thể sớm đe doạ vị trí của họ. Được quảng cáo là “một công ty phần mềm ảo,” ChatDev không chỉ sử dụng một mà nhiều tác nhân thực hiện các vai trò khác nhau trong một tổ chức phát triển truyền thống.
Các tác nhân – mỗi tác nhân được giao một vai trò duy nhất – có thể hợp tác để xử lý nhiều nhiệm vụ khác nhau, từ thiết kế phần mềm đến viết mã và tài liệu. Ambitious? Chắc chắn là vậy. ChatDev vẫn còn là một bài kiểm tra cho tương tác giữa các tác nhân, nhưng đáng xem nếu bạn là một nhà phát triển.
6. AutoGen
Sau khi đầu tư 13 tỷ đô la vào OpenAI và làm cho Bing thông minh hơn một chút, Microsoft hiện là một trong những người chơi chính trong lĩnh vực Trí Tuệ Nhân Tạo. AutoGen của họ là một khung làm việc mã nguồn mở để phát triển và triển khai nhiều tác nhân có thể làm việc cùng nhau để đạt được các mục tiêu một cách tự động.
AutoGen cố gắng tạo điều kiện và đơn giản hóa việc giao tiếp giữa các tác nhân, giảm thiểu lỗi và tối ưu hóa hiệu suất của các mô hình ngôn ngữ lớn. Nó cũng có tính năng tùy chỉnh rộng rãi và cho phép bạn lựa chọn các mô hình ưa thích, cải thiện đầu ra với phản hồi từ con người và sử dụng các công cụ bổ sung.
7. MetaGPT
MetaGPT là một khung làm việc khác cho các tác nhân Trí Tuệ Nhân Tạo mã nguồn mở mà cố gắng mô phỏng cấu trúc của một công ty phần mềm truyền thống. Tương tự như ChatDev, các tác nhân được giao các vai trò của quản lý sản phẩm, quản lý dự án và kỹ sư, và họ hợp tác trong việc thực hiện các nhiệm vụ lập trình do người dùng định nghĩa.
Cho đến nay, MetaGPT chỉ có thể xử lý các nhiệm vụ có độ khó trung bình – hãy nghĩ đến việc viết mã cho một trò chơi rắn hoặc xây dựng các ứng dụng tiện ích đơn giản – nhưng đó là một công cụ triển vọng có thể phát triển nhanh chóng trong tương lai. Việc tạo ra một dự án hoàn chỉnh sẽ tốn khoảng 2 đô la cho các khoản phí API của OpenAI.
8. Camel
Chúng tôi đã viết về Camel trong một trong những bài viết trước đó của chúng tôi, và dự án đã phát triển kể từ đó. Tóm lại, Camel là một trong những khung làm việc đa tác nhân ban đầu sử dụng một thiết kế về vai trò độc đáo để cho phép nhiều tác nhân tương tác và hợp tác với nhau.
Mọi thứ bắt đầu với một nhiệm vụ do con người định rõ. Khung làm việc này sử dụng sức mạnh của một mô hình ngôn ngữ lớn (LLM) để động cơ giao vai trò cho các tác nhân, định rõ và phát triển các nhiệm vụ phức tạp và sắp xếp các kịch bản về vai trò để tạo điều kiện cho sự hợp tác giữa các tác nhân. Đó giống như một buổi biểu diễn cho Trí Tuệ Nhân Tạo.
9. LoopGPT
LoopGPT là một phiên bản phát triển từ AutoGPT của Toran Bruce Richards. Bên cạnh việc triển khai Python đúng đắn, khung làm việc này mang đến sự hỗ trợ cải thiện cho GPT-3.5, tích hợp và khả năng tùy chỉnh cho tác nhân. Nó cũng tiêu thụ ít mã thông báo API hơn, vì vậy việc chạy nó rẻ hơn nhiều.
LoopGPT có thể hoạt động tự động hoặc với sự tham gia của con người để giảm thiểu hiện tượng tưởng tượng của mô hình. Điều thú vị là khung làm việc này không yêu cầu truy cập vào cơ sở dữ liệu vector hoặc lưu trữ ngoại để lưu trữ dữ liệu. Nó có thể lưu trạng thái của tác nhân vào các tệp hoặc dự án Python.
10. Jarvis
JARVIS không gì sánh bằng trợ lý Trí Tuệ Nhân Tạo nổi tiếng của Tony Stark (với giọng nói cũng nổi tiếng của Paul Bettany), nhưng nó có một số chiêu trò đặc biệt. Với ChatGPT là “bộ não quyết định” của nó, JARVIS xử lý việc lập kế hoạch nhiệm vụ, lựa chọn mô hình, thực hiện nhiệm vụ và tạo nội dung.
Với quyền truy cập vào hàng chục mô hình chuyên dụng trong trung tâm HuggingFace, JARVIS sử dụng khả năng lập luận của ChatGPT để áp dụng các mô hình tốt nhất cho một nhiệm vụ cụ thể. Điều này mang lại sự linh hoạt khá thú vị cho nhiều loại nhiệm vụ, từ tóm tắt đơn giản đến nhận dạng đối tượng.
11. OpenAGI
OpenAGI là một nền tảng nghiên cứu AGI (Trí Tuệ Nhân Tạo Tổng Quát) mã nguồn mở kết hợp các mô hình nhỏ chuyên gia – các mô hình được tùy chỉnh cho các nhiệm vụ như phân tích tâm trạng hoặc giảm nhiễu hình ảnh – và Học Tăng Cường dựa trên Phản Hồi Nhiệm Vụ (RLTF) để cải thiện đầu ra của chúng.
Dưới bộ khung, OpenAGI không khác biệt nhiều so với các khung làm việc Trí Tuệ Nhân Tạo tự động mã nguồn mở khác. Nó tổng hợp các nền tảng phổ biến như ChatGPT, các mô hình ngôn ngữ lớn như LLaMa2 và các mô hình chuyên dụng khác, và động cơ lựa chọn các công cụ phù hợp dựa vào ngữ cảnh của một nhiệm vụ.
Truy cập trang kho lưu trữ để tìm hiểu thêm:
Vai Trò của Các Tác Nhân Tự Động trong Quản Lý Nhiệm Vụ
“Vậy, tôi có thể sử dụng tác nhân cho điều gì?” Đó là một câu hỏi tuyệt vời và chúng tôi muốn nói “mọi thứ,” nhưng điều đó sẽ không hoàn toàn đúng trong tình hình công nghệ hiện tại. Tuy nhiên, ngay cả trong giai đoạn “con chó con đuổi đuôi của nó,” các tác nhân đã có thể làm cuộc sống và công việc của bạn dễ dàng hơn bằng cách:
🔎 Tối ưu hóa nghiên cứu và thu thập dữ liệu.
✏️ Tạo nội dung trong nhiều phong cách và tông màu khác nhau.
🌐 Lướt web và trích xuất thông tin quan trọng.
💭 Tóm tắt tài liệu và bảng tính.
🔀 Dịch nội dung giữa các ngôn ngữ.
🤝 Đóng vai trò như một trợ lý ảo cho các nhiệm vụ sáng tạo.
⚡️ Tự động hóa các nhiệm vụ quản lý như lên lịch và theo dõi.
Cuối cùng, hãy nói về sự hợp tác giữa các tác nhân
Đôi khi một dự án có thể quá phức tạp để một tác nhân quản lý. Và thậm chí với các công cụ như ChatGPT, bạn cũng cần đợi đầu ra trước khi có thể bắt đầu nhập lệnh khác.
Với một cài đặt đa tác nhân, bạn có thể triển khai nhiều tác nhân, mỗi tác nhân được giao nhiệm vụ cụ thể để quản lý. Một tác nhân có thể thu thập dữ liệu trong khi một tác nhân khác tạo bản dự thảo cho một báo cáo. Một tác nhân thứ ba có thể tổng hợp thông tin và tạo ra nội dung thực tế. Thật kỳ diệu. 🪄
Thách thức và Xem xét về Các Tác Nhân Tự Động
Các tác nhân mã nguồn mở vẫn đang ở trong lãnh thổ hoang dã của các công cụ Trí Tuệ Nhân Tạo. Chúng phần lớn là thử nghiệm và yêu cầu kiến thức kỹ thuật để thiết lập, triển khai và duy trì. Điều đó hoàn toàn phù hợp cho các dự án DIY, nhưng nó không phải lúc nào cũng là trải nghiệm cắm và chạy nếu tất cả những gì bạn muốn là làm được công việc.
Lý thuyết bạn có thể kết hợp các tác nhân mã nguồn mở với quy trình làm việc hiện có.
Nhưng điều đó tốn thời gian, kiến thức chuyên môn và tài nguyên.
Nếu bạn thiếu cả hai và không muốn dành hàng giờ để thiết lập mọi thứ, bạn có thể sử dụng các tác nhân không cần code (no-code agents) mà tích hợp một cách trôi chảy với các công cụ hiện có và hiểu ngữ cảnh của công việc của bạn.
Tất nhiên, còn vấn đề về hiện tượng tưởng tượng. Vì các tác nhân phụ thuộc vào các mô hình ngôn ngữ lớn (LLMs) để tạo ra thông tin, họ mắc phải cùng xu hướng trượt vào các câu chuyện kỳ cục không dựa trên sự thật. Càng lâu một tác nhân hoạt động, khả năng tưởng tượng và bóp méo hiện thực càng cao.
Điều này tạo ra một số khúc mắc từ góc độ năng suất. Giới hạn thời gian hoạt động của các tác nhân của bạn? Giới hạn phạm vi của các nhiệm vụ? Giữ một con người trong quy trình để kiểm tra đầu ra?
Bạn có thể đạt được kết quả tốt hơn rất nhiều bằng cách triển khai nhiều tác nhân thông minh – do đó, đa tác nhân trở nên phổ biến – với kiến thức chuyên môn và kỹ năng độc đáo. Giống như những tác nhân này đã được huấn luyện trên tài liệu nội bộ của công ty và hoạt động trong dự án.
Tương lai tự động: Điều gì đang chờ đợi phía trước
Thế giới của các tác nhân tự động là một thế giới hấp dẫn, thú vị và đang phát triển nhanh chóng. Với sự ra đời của các phiên bản AI mạnh mẽ, nhanh hơn, chính xác hơn và lớn hơn như GPT-4, Bard và LlaMa2, chúng ta có khả năng chứng kiến nhiều đột phá thú vị hơn trong những tháng tới.
Ai có thể dự đoán được tương lai?
Có lẽ các tác nhân là cột mốc tiếp theo trong cách mà AI tiến bộ. Một cột mốc sẽ đưa chúng ta gần hơn với những thế giới được tạo ra bởi Asimov, Lem và Stephenson (ngay cả khi chúng ta muốn tránh xa khỏi kịch bản kỹ thuật-địa hạt mới). Một kỷ nguyên mới về năng suất khi con người và Trí Tuệ Nhân Tạo làm việc cùng nhau.
Dưới đây là một số điểm nhấn khác từ bài viết:
🍼 Kiến trúc của tác nhân là một khái niệm thử nghiệm đã xuất hiện vào đầu năm 2023.
⏩ Các tác nhân tự động tối ưu hóa việc tương tác với các mô hình ngôn ngữ lớn (LLMs).
📈 Chúng chuyển tương tác giữa con người và Trí Tuệ Nhân Tạo từ dựa trên hướng dẫn sang các vòng lặp tự điều khiển.
🧠 Giống như LLMs, các tác nhân dựa vào học máy và xử lý ngôn ngữ tự nhiên (NLP).
🛠️ Tạo ra các tác nhân phần mềm mã nguồn mở tự động yêu cầu kiến thức chuyên môn.
🤝 Các thực thể AI có thể hợp tác trong các nhiệm vụ trong các khung làm việc đa tác nhân.
💻 Các tác nhân có tiềm năng biến đổi quản lý nhiệm vụ và năng suất.
Trên một thang thời gian đủ dài, các tác nhân sẽ định nghĩa lại cách chúng ta nghĩ về công việc, kế hoạch và sự hợp tác. Chúng sẽ biến đổi năng suất và nâng cao hiệu quả của quy trình làm việc truyền thống.
Vậy, bạn đã sẵn sàng tham gia vào cuộc cách mạng đó chưa?