Bởi Aneesh Tickoo – Ngày 9 tháng 8 năm 2023
Các Hệ thống Đa tác nhân dựa trên Mô hình Ngôn ngữ Lớn (LLM) có cơ hội đặc biệt để mô phỏng và cải thiện hoạt động của con người. Tuy nhiên, như đã được chứng minh qua các nghiên cứu gần đây, các hệ thống hiện tại đôi khi cần phải chính xác hơn trong việc phức tạp hóa hiện diện trong các ứng dụng thực tế. Những hệ thống này chủ yếu cần sự hỗ trợ để thúc đẩy sự hợp tác xây dựng thông qua trao đổi bằng lời nói và công cụ, điều này gây khó khăn trong việc tạo ra sự trao đổi mạch lạc, giảm thiểu các vòng lặp phản hồi không hiệu quả và tạo điều kiện cho các tương tác hợp tác mơ fruitful. Các Quy trình Vận hành Chuẩn hóa (SOPs) được cấu trúc tốt là cần thiết cho việc các quy trình phức tạp có thể hiệu quả. Việc hiểu rõ và tích hợp thực tiễn thế giới là điều quan trọng.
Việc giải quyết những ràng buộc thông thường này và tích hợp những thông tin này để cải thiện thiết kế và cấu trúc của các hệ thống đa tác nhân dựa trên LLM, cũng như tăng cường tính hiệu quả và ứng dụng của chúng, là điều quan trọng. Thêm vào đó, thông qua việc thực hành tập thể rộng rãi, con người đã tạo ra các Quy trình Vận hành Chuẩn hóa (SOPs) được công nhận chung trong các lĩnh vực khác nhau. Các SOPs này là rất cần thiết để tạo điều kiện cho việc phân chia công việc hiệu quả và điều phối. Ví dụ, quy trình waterfall trong kỹ thuật phần mềm xác định các bước logic cho phân tích yêu cầu, thiết kế hệ thống, lập trình, kiểm thử và sản phẩm cuối cùng.
Với sự hỗ trợ từ quy trình làm việc theo sự nhất trí này, một số kỹ sư có thể làm việc cùng nhau một cách hiệu quả. Ngoài ra, các công việc của con người có kiến thức chuyên môn phù hợp với nhiệm vụ của họ: kỹ sư phần mềm sử dụng kỹ năng lập trình của họ để tạo mã, trong khi quản lý sản phẩm sử dụng nghiên cứu thị trường để xác định nhu cầu của khách hàng. Sự hợp tác lệch khỏi những kết quả điển hình và trở nên không có trật tự. Ví dụ, quản lý sản phẩm phải tiến hành các nghiên cứu cạnh tranh tỉ mỉ, bao gồm xem xét mong muốn của người dùng, xu hướng thị trường và các sản phẩm cạnh tranh để thúc đẩy sự phát triển. Những phân tích này phải được tiếp theo bởi việc tạo ra các Tài liệu Yêu cầu Sản phẩm (PRDs), có định dạng rõ ràng, chuẩn hóa và mục tiêu được ưu tiên xác định.
Những tượng tượng chính trị này là cần thiết để thúc đẩy những dự án phức tạp, đa dạng đòi hỏi đóng góp liên quan từ các vai trò khác nhau. Chúng tinh chế sự hiểu biết cộng đồng. Do đó, việc sử dụng tài liệu tổ chức, báo cáo và đồ họa thể hiện các phụ thuộc là rất quan trọng. Trong nghiên cứu này, các nhà nghiên cứu từ DeepWisdom, Đại học Xiamen, Đại học Trung Quốc Hồng Kông – Shenzhen, Đại học Nanjing, Đại học Pennsylvania và Đại học California, Berkeley giới thiệu MetaGPT, một khung công cụ đa tác nhân đột phá bao gồm kiến thức thực tiễn dựa trên SOPs. Trước hết, một chức danh mô tả nhiệm vụ của họ được sử dụng để xác định mỗi tác nhân. Điều này cho phép hệ thống khởi tạo với tiền tố gợi ý phù hợp cho vai trò cụ thể. Thay vì các tín hiệu chơi vai cồng kềnh, điều này tích hợp kiến thức lĩnh vực vào định nghĩa tác nhân. Thứ hai, họ xem xét các quy trình con người hiệu quả để trích xuất SOPs với kiến thức thủ tục cần thiết cho các dự án nhóm.
Những SOP này được mã hóa bằng cách sử dụng các thông số hành động dựa trên vai trò trong kiến trúc tác nhân. Thứ ba, để tạo điều kiện cho việc trao đổi thông tin, các tác nhân tạo ra các đầu ra hành động được chuẩn hóa. MetaGPT tối ưu hóa sự điều phối giữa các công việc tương phụ thuộc bằng cách hình thành những tượng tượng chính trị mà các chuyên gia con người trao đổi. Các tác nhân được kết nối thông qua một môi trường chia sẻ cung cấp cái nhìn về các hoạt động và sự sử dụng chung của công cụ và tài nguyên. Tất cả các giao tiếp giữa các tác nhân được chứa trong môi trường này. Họ cũng cung cấp một bể nhớ toàn cầu nơi tất cả các bản ghi hợp tác được lưu trữ, cho phép bất kỳ tác nhân nào đăng ký hoặc tìm kiếm dữ liệu mà họ cần. Các tác nhân có thể truy xuất các tin nhắn trước đó từ bể nhớ này để có thêm ngữ cảnh.
Khác với việc passively hấp thụ thông tin thông qua cuộc trò chuyện, kiến trúc này cho phép các tác nhân theo dõi và trích xuất thông tin liên quan một cách tích cực. Cài đặt này mô phỏng các hệ thống được tìm thấy trong môi trường làm việc thực tế khuyến khích sự làm việc nhóm. Họ hiển thị các quy trình phát triển phần mềm hợp tác và các thí nghiệm thực hiện mã nguồn liên quan, bao gồm cả việc sản xuất các trò chơi nhỏ và các hệ thống lớn phức tạp hơn, để minh họa tính hiệu quả của kiến trúc của họ. MetaGPT quản lý phức tạp hóa phần mềm nhiều hơn so với GPT-3.5 hoặc các khung công cụ mã nguồn mở khác như AutoGPT và AgentVerse, được đo bằng số dòng mã sản xuất.
Hơn nữa, MetaGPT tạo ra các tài liệu yêu cầu chất lượng cao, tượng tượng thiết kế, biểu đồ luồng và các thông số giao diện trong suốt quá trình tự động từ đầu đến cuối. Những đầu ra tiêu chuẩn trung gian này tăng đáng kể tỷ lệ thành công của việc thực thi mã cuối cùng. Nhờ vào tài liệu được tạo tự động, các nhà phát triển con người có thể nhanh chóng nắm bắt và cải thiện kiến thức chuyên môn của họ để tiếp tục cải thiện yêu cầu, thiết kế và mã. Nó cũng cho phép tương tác con người – Trí tuệ Nhân tạo phức tạp hơn. Tóm lại, họ xác minh tính hiệu quả của MetaGPT thông qua nghiên cứu rộng rãi trên các dự án phần mềm khác nhau.
Các khả năng được tạo ra bởi mô hình hợp tác của các chuyên gia dựa trên vai trò của MetaGPT được thể hiện thông qua các chỉ số sản xuất mã số lượng và đánh giá chất lượng đầu ra toàn bộ quá trình theo cách định lượng và chất lượng. Tóm lại, họ chủ yếu đóng góp vào những điều sau:
• Họ thiết kế một cơ chế mới về meta-programming, bao gồm việc định nghĩa vai trò, phân tích nhiệm vụ, tiêu chuẩn hóa quy trình và thiết kế kỹ thuật khác.
• Họ đề xuất MetaGPT, một khung công tác đa tác nhân dựa trên LLM, mã hóa các SOP con người vào các tác nhân LLM và mở rộng mức độ khả năng của việc giải quyết vấn đề phức tạp.
• Họ thực hiện các thử nghiệm rộng rãi trên việc phát triển mã CRUD2, công việc phân tích dữ liệu cơ bản và trò chơi Python với AutoGPT, AgentVerse, LangChain và MetaGPT.
Theo cách này, MetaGPT có thể tạo ra phần mềm phức tạp bằng cách sử dụng các SOP. Các kết quả tổng thể cho thấy MetaGPT vượt trội đáng kể so với các đối thủ của nó về chất lượng mã và tuân thủ quy trình dự kiến.