Tác giả: Aayush Mittal
Với sự tiến bộ trong học sâu, xử lý ngôn ngữ tự nhiên (NLP), và trí tuệ nhân tạo (AI), chúng ta đang ở trong một thời kỳ mà các AI agent có thể hình thành một phần quan trọng trong lực lượng lao động toàn cầu. Những AI agent này, vượt qua cả chatbots và trợ lý giọng nói, đang định hình một mô hình mới cho cả hai ngành công nghiệp và cuộc sống hàng ngày của chúng ta. Nhưng thực sự, điều gì nghĩa là sống trong một thế giới được bổ sung bởi những “công nhân” này? Bài viết này sẽ đi sâu vào cảnh quan đang tiến triển này, đánh giá những tác động, tiềm năng, và thách thức đang đứng trước chúng ta.
Tóm Tắt Ngắn Gọn: Sự Tiến Hóa Của Agent AI
Trước khi hiểu về cuộc cách mạng sắp tới, điều quan trọng là phải nhận biết sự tiến hóa do trí tuệ nhân tạo đã xảy ra.
- Hệ Thống Tính Toán Truyền Thống: Từ các thuật toán tính toán cơ bản, hành trình bắt đầu. Những hệ thống này có thể giải quyết các nhiệm vụ được định nghĩa trước bằng cách sử dụng một bộ quy tắc cố định.
- Chatbots & Trợ Lý Giọng Nói Sớm: Khi công nghệ phát triển, giao diện của chúng ta cũng thay đổi. Các công cụ như Siri, Cortana, và các chatbots sớm đã đơn giản hóa tương tác giữa người dùng và trí tuệ nhân tạo, nhưng có khả năng hiểu biết và khả năng hạn chế.
- Mạng Nơ-ron & Học Sâu: Mạng nơ-ron đánh dấu một bước ngoặt, bắt chước các chức năng của bộ não con người và tiến hóa thông qua kinh nghiệm. Các kỹ thuật học sâu đã tạo điều kiện thuận lợi cho việc nhận diện hình ảnh và giọng nói phức tạp hơn.
- Transformers và Các Mô Hình NLP Tiên Tiến: Sự giới thiệu của kiến trúc transformer đã cách mạng hóa cảnh quan NLP. Các hệ thống như ChatGPT của OpenAI, BERT và T5 đã tạo điều kiện cho các bước đột phá trong giao tiếp giữa con người và trí tuệ nhân tạo. Với sự hiểu biết sâu rộng về ngôn ngữ và bối cảnh, những mô hình này có thể thực hiện cuộc trò chuyện có ý nghĩa, viết nội dung và trả lời các câu hỏi phức tạp với độ chính xác chưa từng thấy.
Thâm nhập thế giới AI Agent: Không Chỉ Là Cuộc Trò Chuyện
Cảnh quan AI hiện nay đã gợi ý đến một điều gì đó mở rộng hơn so với các công cụ trò chuyện thông thường. Những AI agent, vượt xa khái niệm của các chức năng trò chuyện đơn thuần, hiện đã có khả năng thực hiện nhiệm vụ, học hỏi từ môi trường của họ, đưa ra quyết định và thậm chí là thể hiện sự sáng tạo. Chúng không chỉ đơn giản trả lời câu hỏi; chúng đang giải quyết các vấn đề.
Mô hình phần mềm truyền thống đã hoạt động theo một lộ trình rõ ràng. Các bên liên quan đã trình bày mục tiêu cho các quản lý phần mềm, sau đó họ đã thiết kế một kế hoạch cụ thể. Các kỹ sư sẽ thực hiện kế hoạch này thông qua các dòng mã. Mô hình “paradigm kế thừa” này của chức năng phần mềm đã rõ ràng, liên quan đến rất nhiều sự can thiệp của con người.
Tuy nhiên, các AI agent hoạt động khác biệt. Một agent:
- Có những mục tiêu mà nó cố gắng đạt được.
- Có khả năng tương tác với môi trường của nó.
- Xây dựng một kế hoạch dựa trên các quan sát này để đạt được mục tiêu của nó.
- Thực hiện các hành động cần thiết, điều chỉnh cách tiếp cận dựa trên sự thay đổi trong trạng thái của môi trường.
Điều thực sự phân biệt AI agent so với các mô hình truyền thống là khả năng của họ tự động tạo ra một kế hoạch từng bước để thực hiện một mục tiêu. Theo bản chất, trong quá khứ, người lập trình cung cấp kế hoạch, nhưng ngày nay, các AI agent tự xây dựng lộ trình của họ.
Hãy xem xét một ví dụ hàng ngày. Trong thiết kế phần mềm truyền thống, một chương trình sẽ thông báo cho người dùng về các công việc quá hạn dựa trên các điều kiện được xác định trước. Những người phát triển sẽ đặt ra các điều kiện này dựa trên thông số kỹ thuật được cung cấp bởi quản lý sản phẩm.
Trong mô hình của AI agent, chính agent xác định khi nào và cách nào để thông báo cho người dùng. Nó đo lường môi trường (thói quen của người dùng, trạng thái của ứng dụng) và quyết định hành động tốt nhất. Quá trình trở nên linh hoạt hơn, thời điểm hơn.
ChatGPT đã đánh dấu sự rời bỏ so với việc sử dụng truyền thống của nó thông qua việc tích hợp các plugin, từ đó cho phép nó sử dụng các công cụ bên ngoài để thực hiện nhiều yêu cầu. Nó đã trở thành một biểu hiện sớm của khái niệm về agent. Nếu chúng ta xem xét một ví dụ đơn giản: một người dùng hỏi về thời tiết của New York City, ChatGPT, thông qua việc sử dụng các plugin, có thể tương tác với một API thời tiết bên ngoài, hiểu dữ liệu và thậm chí điều chỉnh lộ trình dựa trên các phản hồi nhận được.
Các AI agent, bao gồm Auto-GPT, AgentGPT và BabyAGI, đang tiên phong một kỷ nguyên mới trong vũ trụ AI mở rộng. Trong khi ChatGPT đã phổ biến hóa Generative AI bằng cách yêu cầu đầu vào từ con người, tầm nhìn đằng sau các AI agent là để cho phép AI hoạt động độc lập, điều hướng đến mục tiêu với ít hoặc không có sự can thiệp của con người. Tiềm năng biến đổi này đã được nhấn mạnh bởi sự bùng nổ của Auto-GPT, thu hút hơn 107,000 “stars” trên GitHub chỉ trong sáu tuần kể từ khi được khởi xướng, một sự tăng trưởng chưa từng thấy so với các dự án đã thành lập như gói công cụ khoa học dữ liệu ‘pandas’.
AI Agent so với ChatGPT
Nhiều AI agent tiên tiến, như Auto-GPT và BabyAGI, sử dụng kiến trúc GPT. Ước tính chính của họ là giảm thiểu sự cần thiết của sự can thiệp của con người trong việc hoàn thành nhiệm vụ của AI. Các thuật ngữ mô tả như “GPT trên vòng lặp” mô tả hoạt động của các mô hình như AgentGPT và BabyAGI. Chúng hoạt động trong các chu kỳ lặp để hiểu rõ hơn về yêu cầu của người dùng và tinh chỉnh kết quả của họ. Trong khi đó, Auto-GPT đẩy ranh giới xa hơn bằng cách tích hợp khả năng truy cập internet và thực thi mã, mở rộng đáng kể phạm vi giải quyết vấn đề của nó.
Các Đổi Mới trong AI Agents
- Bộ Nhớ Dài Hạn: LMM truyền thống có bộ nhớ hạn chế, chỉ giữ lại các phần tương tác gần đây. Đối với các nhiệm vụ toàn diện, việc nhớ lại toàn bộ cuộc trò chuyện hoặc thậm chí là cuộc trò chuyện trước trở nên quan trọng. Để vượt qua điều này, các AI agent đã áp dụng luồng làm việc nhúng, chuyển đổi cuộc trò chuyện văn bản thành mảng số, đưa ra giải pháp cho hạn chế về bộ nhớ.
- Khả năng Duyệt Web: Để cập nhật thông tin với các sự kiện gần đây, Auto-GPT đã được trang bị khả năng duyệt web, sử dụng Google Search API. Điều này đã gây ra cuộc tranh luận trong cộng đồng AI về phạm vi kiến thức của một AI.
- Thực Thi Mã Lệnh: Ngoài việc tạo mã, Auto-GPT có thể thực thi cả mã shell và mã Python. Khả năng chưa từng thấy này cho phép nó tương tác với các phần mềm khác, từ đó mở rộng lĩnh vực hoạt động của nó.
Biểu đồ hình dung kiến trúc của một hệ thống trí tuệ nhân tạo được cung cấp bởi một Mô Hình Ngôn Ngữ Lớn và các Agent.
- Đầu vào: Hệ thống nhận dữ liệu từ nhiều nguồn khác nhau: lệnh trực tiếp từ người dùng, cơ sở dữ liệu có cấu trúc, nội dung web và các cảm biến môi trường thời gian thực.
- LLM & Agent: Ở trung tâm, LLM xử lý các đầu vào này, hợp tác với các agent chuyên biệt như Auto-GPT để xây dựng suy nghĩ, AgentGPT để thực hiện các nhiệm vụ cụ thể trên web, BabyAGI để thực hiện các hành động cụ thể và HuggingGPT để xử lý dựa trên nhóm.
- Đầu ra: Sau khi được xử lý, thông tin được biến đổi thành định dạng dễ sử dụng cho người dùng và sau đó được truyền đến các thiết bị có thể thực hiện hoặc ảnh hưởng đến môi trường bên ngoài.
- Các Thành Phần Bộ Nhớ: Hệ thống giữ lại thông tin, cả tạm thời và vĩnh viễn, thông qua bộ nhớ cache ngắn hạn và cơ sở dữ liệu dài hạn.
- Môi Trường: Đây là lĩnh vực bên ngoài, ảnh hưởng đến các cảm biến và bị tác động bởi các hành động của hệ thống.
Các AI Agent Tiên Tiến: Auto-GPT, BabyAGI và Nhiều Thứ Khác
Auto-GPT và Agent-GPT
Auto-GPT, một dự án được phát hành trên GitHub vào tháng 3 năm 2023, là một ứng dụng thông minh dựa trên Python sử dụng sức mạnh của GPT, mô hình tạo ra đột phá của OpenAI. Điều phân biệt Auto-GPT so với các phiên bản trước đó là tính tự động của nó – nó được thiết kế để thực hiện các nhiệm vụ với sự hướng dẫn tối thiểu từ con người và có khả năng độc đáo tự khởi đầu các yêu cầu. Người dùng chỉ cần xác định một mục tiêu chung, và Auto-GPT tạo ra các yêu cầu cần thiết để đạt được mục tiêu đó, làm cho nó có thể là một bước tiến cách mạng tiềm năng đối với trí tuệ nhân tạo tổng quát thực sự (AGI).
Với những tính năng bao gồm kết nối internet, quản lý bộ nhớ và khả năng lưu trữ tệp sử dụng GPT-3.5, công cụ này thông thạo trong việc xử lý một loạt các nhiệm vụ, từ các nhiệm vụ thông thường như viết email đến các nhiệm vụ phức tạp mà thông thường sẽ đòi hỏi sự can thiệp nhiều hơn từ con người.
Mặt khác, AgentGPT, cũng được xây dựng trên khung GPT, là một giao diện tập trung vào người dùng mà không đòi hỏi kiến thức về lập trình phức tạp để thiết lập và sử dụng. AgentGPT cho phép người dùng xác định mục tiêu của trí tuệ nhân tạo, sau đó nó phân chia thành các nhiệm vụ có thể quản lý được.
Hơn nữa, AgentGPT nổi bật với tính linh hoạt của nó. Nó không bị giới hạn trong việc tạo ra các chatbot. Nền tảng này mở rộng khả năng của nó để tạo ra các ứng dụng đa dạng như bot trên Discord và thậm chí tích hợp một cách mượt mà với Auto-GPT. Với cách tiếp cận này, ngay cả những người không có kiến thức về lập trình phức tạp có thể thực hiện các nhiệm vụ như lập trình hoàn toàn tự động, tạo ra văn bản, dịch ngôn ngữ và giải quyết vấn đề.
LangChain là một khung công việc kết nối các Mô Hình Ngôn Ngữ Lớn (LLM) với các công cụ khác nhau và sử dụng các agent, thường được coi là ‘Bot’, để xác định và thực hiện các nhiệm vụ cụ thể bằng cách chọn công cụ thích hợp. Các agent này tích hợp một cách mượt mà với các tài nguyên bên ngoài, trong khi một cơ sở dữ liệu vector trong LangChain lưu trữ dữ liệu không cấu trúc, giúp tìm kiếm thông tin nhanh chóng cho các LLM.
BabyAGI
Và sau đó, có BabyAGI, một agent đơn giản nhưng mạnh mẽ. Để hiểu về khả năng của BabyAGI, hãy tưởng tượng một quản lý dự án kỹ thuật số có khả năng tự động tạo ra, tổ chức và thực hiện các nhiệm vụ với sự tập trung sắc nét vào mục tiêu đã cho. Trong khi hầu hết các nền tảng dựa trên trí tuệ nhân tạo bị giới hạn bởi kiến thức được đào tạo sẵn, BabyAGI nổi bật với khả năng thích nghi và học hỏi từ kinh nghiệm. Nó có khả năng sâu rộng để phân biệt phản hồi và, giống như con người, đưa ra quyết định dựa trên thử nghiệm và sai lầm.
Đáng chú ý, sức mạnh cơ bản của BabyAGI không chỉ nằm ở tính thích nghi mà còn ở khả năng thực thi mã lệnh cho các mục tiêu cụ thể. Nó tỏa sáng trong các lĩnh vực phức tạp như giao dịch tiền điện tử, robot và lái xe tự động, biến nó thành một công cụ đa dạng trong nhiều ứng dụng.
Quá trình này có thể được phân loại thành ba agent:
- Agent Thực Hiện: Đây là trái tim của hệ thống, agent này tận dụng API của OpenAI để xử lý nhiệm vụ. Với mục tiêu và nhiệm vụ cụ thể, nó gửi các yêu cầu đến API của OpenAI và trả về kết quả của nhiệm vụ.
- Agent Tạo Nhiệm Vụ: Chức năng này tạo ra các nhiệm vụ mới dựa trên các kết quả trước đó và mục tiêu hiện tại. Một yêu cầu được gửi đến API của OpenAI, sau đó API trả về các nhiệm vụ tiềm năng, được tổ chức dưới dạng danh sách các từ điển.
- Agent Ưu Tiên Hóa Nhiệm Vụ: Giai đoạn cuối cùng liên quan đến việc sắp xếp các nhiệm vụ dựa trên mức ưu tiên. Agent này sử dụng API của OpenAI để sắp xếp lại các nhiệm vụ đảm bảo rằng những nhiệm vụ quan trọng nhất được thực hiện trước.
Trong sự hợp tác với mô hình ngôn ngữ của OpenAI, BabyAGI tận dụng khả năng của Pinecone để lưu trữ và truy xuất kết quả nhiệm vụ dựa trên ngữ cảnh.
Dưới đây là một ví dụ về BabyAGI sử dụng liên kết này.
Để bắt đầu, bạn sẽ cần một khóa OpenAPI hợp lệ. Để dễ truy cập, giao diện người dùng có một phần cài đặt nơi bạn có thể nhập khóa OpenAPI. Ngoài ra, nếu bạn muốn quản lý chi phí, hãy nhớ đặt giới hạn cho số lần lặp lại.
Sau khi tôi đã cấu hình ứng dụng, tôi đã thực hiện một thử nghiệm nhỏ. Tôi đưa ra một yêu cầu cho BabyAGI: “Tạo một chuỗi tweet ngắn gọn tập trung vào hành trình phát triển cá nhân, đề cập đến các mốc quan trọng, thách thức và sức mạnh biến đổi của việc học liên tục.”
BabyAGI đã phản hồi bằng một kế hoạch suy nghĩ kỹ lưỡng. Đó không chỉ là một bản mẫu chung chung mà là một lộ trình toàn diện cho thấy rằng trí tuệ nhân tạo cơ bản đã hiểu được sự tinh tế của yêu cầu.
Deepnote AI Copilot
Deepnote AI Copilot làm thay đổi động lực của việc khám phá dữ liệu trong các sổ ghi chú. Nhưng điều gì làm nó nổi bật?
Ở bản chất, Deepnote AI nhắm vào việc bổ sung quy trình làm việc của các nhà khoa học dữ liệu. Ngay lập tức khi bạn cung cấp một hướng dẫn cơ bản, trí tuệ nhân tạo này bắt đầu hành động, lập kế hoạch chiến lược, thực thi các truy vấn SQL, trực quan hóa dữ liệu bằng Python và trình bày kết quả của mình một cách rõ ràng.
Một trong những điểm mạnh của Deepnote AI là sự hiểu biết toàn diện về không gian làm việc của bạn. Bằng cách hiểu các lược đồ tích hợp và hệ thống tệp, nó điều chỉnh hoàn hảo kế hoạch thực thi của mình với ngữ cảnh tổ chức, đảm bảo rằng các thông tin của nó luôn có giá trị.
Sự tích hợp của trí tuệ nhân tạo với các phương tiện sổ ghi chú tạo ra một vòng phản hồi độc đáo. Nó đánh giá một cách tích cực các kết quả mã, giúp nó thành thạo trong việc tự sửa lỗi và đảm bảo kết quả luôn phù hợp với mục tiêu đã đặt ra.
Deepnote AI nổi bật với hoạt động minh bạch của nó, cung cấp thông tin rõ ràng về quy trình làm việc của nó. Sự kết hợp giữa mã lệnh và kết quả đảm bảo rằng các hành động của nó luôn có trách nhiệm và có thể tái tạo.
CAMEL
CAMEL là một khung công việc mục tiêu khuyến khích sự hợp tác giữa các agent trí tuệ nhân tạo, nhằm mục tiêu hoàn thành nhiệm vụ một cách hiệu quả với sự giám sát tối thiểu từ con người.
Nó chia hoạt động của mình thành hai loại chính:
- Agent Người Dùng AI đặt ra các hướng dẫn.
- Agent Trợ Lý AI thực hiện nhiệm vụ dựa trên các chỉ đạo được cung cấp.
Một trong những khát vọng của CAMEL là để làm sáng tỏ những phức tạp trong quá trình suy nghĩ của trí tuệ nhân tạo, nhằm mục tiêu tối ưu hóa sự kết hợp giữa nhiều agent. Với các tính năng như đóng vai và khởi đầu các yêu cầu, nó đảm bảo rằng các nhiệm vụ của trí tuệ nhân tạo liên kết một cách mượt mà với mục tiêu của con người.
Mô Phỏng Westworld: Sự Sống trong Trí Tuệ Nhân Tạo
Xuất phát từ những nguồn cảm hứng như phần mềm Unity và được thích nghi bằng Python, mô phỏng Westworld là một bước tiến vào việc mô phỏng và tối ưu hóa các môi trường mà nhiều agent trí tuệ nhân tạo tương tác, gần giống như một xã hội kỹ thuật số.
Những agent này không chỉ là thực thể kỹ thuật số. Chúng mô phỏng những hành vi con người đáng tin cậy, từ các thói quen hàng ngày đến các tương tác xã hội phức tạp. Kiến trúc của chúng mở rộng một mô hình ngôn ngữ lớn để lưu trữ các trải nghiệm, suy ngẫm về chúng và sử dụng chúng để lập kế hoạch hành vi động.
Môi trường chơi tương tác của Westworld, gợi nhớ đến The Sims, hình thành một thị trấn được cư dân hóa bởi các agent tạo ra. Tại đây, người dùng có thể tương tác, quan sát và hướng dẫn các agent này trong cuộc sống hàng ngày của họ, quan sát các hành vi phát sinh và các tương tác xã hội phức tạp.
Mô phỏng Westworld là ví dụ điển hình về sự kết hợp hòa hợp giữa khả năng tính toán và những tinh tế giống con người. Bằng cách kết hợp các mô hình ngôn ngữ rộng lớn với mô phỏng agent động, nó mở ra một con đường để tạo ra các trải nghiệm trí tuệ nhân tạo khá giống thực tế.
Kết Luận
Các agent trí tuệ nhân tạo có thể vô cùng linh hoạt và chúng đang tạo nên các ngành công nghiệp, thay đổi quy trình làm việc và cho phép các kỳ tích mà trước đây có vẻ không thể. Nhưng giống như tất cả các đổi mới mang tính đột phá, chúng vẫn còn tồn tại những không hoàn hảo.
Mặc dù chúng có sức mạnh để định hình cấu trúc cơ bản của cuộc sống kỹ thuật số của chúng ta, những agent này vẫn phải đối mặt với những thách thức cụ thể, một số trong số đó là bản chất của con người, chẳng hạn như việc hiểu bối cảnh trong các tình huống phức tạp hoặc giải quyết các vấn đề nằm ngoài tập dữ liệu huấn luyện của chúng.
Trong bài viết tiếp theo, chúng ta sẽ đi sâu hơn vào AutoGPT và GPT Engineer, xem xét cách thiết lập và sử dụng chúng. Ngoài ra, chúng ta sẽ khám phá các lý do mà các agent trí tuệ nhân tạo này đôi khi gặp khó khăn, chẳng hạn như bị mắc kẹt trong vòng lặp, cùng với các vấn đề khác. Vì vậy, hãy tiếp tục theo dõi!
Aayush Mittal Tôi đã dành năm năm qua để đắm chìm mình trong thế giới thú vị của Machine Learning và Deep Learning. Đam mê và kiến thức của tôi đã dẫn tôi tham gia hơn 50 dự án kỹ thuật phần mềm đa dạng, với một tập trung đặc biệt vào lĩnh vực AI/ML. Sự tò mò liên tục của tôi cũng đã đưa tôi vào lĩnh vực Xử lý Ngôn Ngữ Tự Nhiên, một lĩnh vực mà tôi rất háo hức muốn khám phá thêm.