ngày 7 tháng 9 năm 2023
Tác giả: Dattaraj Rao
Chúng ta đang chứng kiến sự tiến bộ của các ứng dụng Trí tuệ Nhân tạo Sáng tạo dựa trên các mô hình ngôn ngữ lớn (LLM) từ việc sử dụng gợi ý, đến việc sử dụng phương pháp tạo ra bổ sung thông tin (RAG), và hiện tại là các hệ thống đại diện (agents). Các hệ thống đại diện đang được nhiều người bàn luận mạnh mẽ trong các ngành công nghiệp và trong các vòng nghiên cứu, chủ yếu là vì sức mạnh mà công nghệ này mang lại trong việc biến đổi các ứng dụng Doanh nghiệp và cung cấp trải nghiệm khách hàng xuất sắc hơn. Có những mẫu chung cho việc xây dựng các hệ thống đại diện, giúp thực hiện những bước đầu tiên trong việc phát triển Trí tuệ Nhân tạo tổng quát (AGI).
Trong bài viết trước của tôi, chúng ta đã thấy một bước tiến về mẫu lập trình thông minh để xây dựng các ứng dụng được sử dụng bởi LLM. Bắt đầu với các gợi ý để nắm bắt lĩnh vực vấn đề và sử dụng bộ nhớ trong của LLM để tạo ra kết quả. Với RAG, chúng ta bổ sung thông tin từ bên ngoài vào gợi ý thông qua việc tìm kiếm từ cơ sở dữ liệu vector để kiểm soát kết quả đầu ra. Tiếp theo, thông qua việc kết hợp các cuộc gọi LLM, chúng ta có thể xây dựng quy trình làm việc để thực hiện các ứng dụng phức tạp. Các hệ thống đại diện đưa điều này lên một tầm cao mới bằng cách tự động xác định cách hình thành các chuỗi LLM này. Hãy cùng xem xét chi tiết.
Trợ lý đại diện hoạt động thế nào?
Một mẫu chung quan trọng của các trợ lý đại diện là chúng sử dụng khả năng hiểu ngôn ngữ của LLM để lập kế hoạch giải quyết một vấn đề cụ thể. LLM hiểu vấn đề và cung cấp cho chúng ta một chuỗi các bước để giải quyết vấn đề. Tuy nhiên, điều này chưa đủ. Các trợ lý đại diện không phải là một hệ thống hỗ trợ thuần túy sẽ cung cấp gợi ý về cách giải quyết vấn đề và sau đó chuyển nhiệm vụ cho bạn để thực hiện các bước được đề xuất. Các trợ lý đại diện được trang bị công cụ để tiến hành và thực hiện các hành động. Có vẻ rất đáng sợ, phải không!?
Nếu chúng ta hỏi một trợ lý đại diện một câu hỏi cơ bản như sau:
Con người: Người phát minh ra điện thoại đã thành lập công ty nào?
Dưới đây là một ví dụ về các bước tư duy mà một trợ lý đại diện có thể thực hiện.
Trợ lý đại diện (SUY NGHĨ):
Suy nghĩ: Tôi cần tìm kiếm về người phát minh ra điện thoại. Hành động: Tìm kiếm [người phát minh ra điện thoại] Quan sát: Alexander Graham Bell Suy nghĩ: Tôi cần tìm kiếm về công ty được thành lập bởi Alexander Graham Bell Hành động: Tìm kiếm [công ty được thành lập bởi Alexander Graham Bell] Quan sát: Alexander Graham Bell là một trong những người sáng lập Công ty Điện thoại và Điện tín Hoa Kỳ (AT&T) vào năm 1885. Suy nghĩ: Tôi đã tìm thấy câu trả lời. Tôi sẽ trả lời ngay.
Trợ lý đại diện (PHẢN HỒI): Alexander Graham Bell là một trong những người sáng lập AT&T vào năm 1885.
Bạn có thể thấy rằng trợ lý đại diện tuân theo một cách thức hệ thống để chia nhỏ vấn đề thành các vấn đề con có thể được giải quyết bằng cách thực hiện các Hành động cụ thể. Các hành động ở đây được đề xuất bởi LLM và chúng ta có thể ánh xạ chúng vào các công cụ cụ thể để thực hiện các hành động này. Chúng ta có thể kích hoạt một công cụ tìm kiếm cho trợ lý đại diện sao cho khi hệ thống nhận ra rằng LLM đã đề xuất tìm kiếm là một hành động, nó sẽ gọi công cụ này với các tham số do LLM cung cấp. Tìm kiếm ở đây trên internet nhưng cũng có thể được định hướng để tìm kiếm trong một cơ sở kiến thức nội bộ như cơ sở dữ liệu vector. Hệ thống bây giờ trở nên tự cung cấp và có thể tìm hiểu cách giải quyết các vấn đề phức tạp theo một chuỗi bước. Các khung như LangChain và LLaMAIndex mang đến cho bạn một cách dễ dàng để xây dựng các hệ thống đại diện này và kết nối với các công cụ và API. Amazon gần đây đã ra mắt khung công việc Bedrock Agents của họ, cung cấp một giao diện trực quan để thiết kế các hệ thống đại diện.
Bên trong, các hệ thống đại diện tuân theo một kiểu đặc biệt khi gửi các gợi ý đến LLM để tạo ra một kế hoạch hành động. Mẫu suy nghĩ-hành động-quan sát như trên được phổ biến trong một loại hệ thống đại diện được gọi là ReAct (Reasoning and Acting – Lý luận và Thực hiện). Các loại hệ thống đại diện khác bao gồm MRKL và Plan & Execute, chúng chủ yếu khác nhau ở kiểu gợi ý của họ.
Đối với các hệ thống đại diện phức tạp hơn, các hành động có thể liên quan đến các công cụ gây ra các thay đổi trong các hệ thống nguồn. Ví dụ, chúng ta có thể kết nối hệ thống đại diện với một công cụ kiểm tra số ngày nghỉ và xin nghỉ trong hệ thống ERP cho một nhân viên. Bây giờ, chúng ta có thể xây dựng một chatbot thú vị sẽ tương tác với người dùng và thông qua một lệnh trò chuyện, xin nghỉ trong hệ thống. Không còn màn hình phức tạp để xin nghỉ, chỉ cần giao diện trò chuyện thống nhất đơn giản. Nghe có vẻ thú vị, phải không!?
Những lưu ý về trách nhiệm đối với ứng dụng AI
Bây giờ hãy tưởng tượng nếu chúng ta có một công cụ kích hoạt các giao dịch trên thị trường chứng khoán bằng cách sử dụng một API được ủy quyền trước đó. Bạn xây dựng một ứng dụng trong đó hệ thống đại diện nghiên cứu các biến động trên thị trường chứng khoán (sử dụng các công cụ) và ra quyết định thay bạn về việc mua bán cổ phiếu. Nhưng nếu hệ thống đại diện bán cổ phiếu sai vì nó mơ hồ và đưa ra một quyết định sai lầm thì sao? Vì LLM là các mô hình lớn, khó để xác định chính xác tại sao chúng lại đưa ra một số quyết định, do đó hiện tượng mơ hồ thường xảy ra khi thiếu các hệ thống kiểm soát chính thống.
Mặc dù các hệ thống đại diện đều thú vị, bạn có thể đã đoán được mức độ nguy hiểm của chúng. Nếu chúng mơ hồ và thực hiện một hành động sai lầm, điều này có thể gây ra thiệt hại tài chính lớn hoặc gây ra các vấn đề lớn trong các hệ thống Doanh nghiệp. Do đó, Trí tuệ Nhân tạo Trách nhiệm đang trở nên cực kỳ quan trọng trong thời đại của các ứng dụng được trang bị bởi LLM. Các nguyên tắc của Trí tuệ Nhân tạo Trách nhiệm liên quan đến khả năng tái sản xuất, minh bạch và trách nhiệm, cố gắng đưa ra các hệ thống kiểm soát đối với các quyết định được thực hiện bởi các hệ thống đại diện và đề xuất phân tích nguy cơ để xác định những hành động nào cần sự can thiệp của con người. Khi các hệ thống đại diện phức tạp hơn đang được thiết kế, chúng cần phải được kiểm tra kỹ lưỡng hơn, phải đảm bảo tính minh bạch và trách nhiệm để chúng ta biết được chúng đang làm gì.
Vài điểm cần đào sâu
Khả năng của các trơ lý đại diện (agent) để tạo ra một chuỗi hành đông phù hợp với nhiệm vụ đã thể hiện rất gần với quá trình tư duy thực tế của con người. Trang bị cho chúng với các công cụ mạnh mẽ hơn có thể mang lại cho họ sức mạnh phi thường. Các mẫu như ReAct cố gắng mô phỏng cách con người giải quyết vấn đề và chúng ta sẽ thấy các mẫu hệ thống đại diện tốt hơn sẽ liên quan đến ngữ cảnh và lĩnh vực cụ thể (ngân hàng, bảo hiểm, chăm sóc sức khỏe, công nghiệp, v.v.). Tương lai đã đến và công nghệ đằng sau các hệ thống đại diện đã sẵn sàng để chúng ta sử dụng. Đồng thời, chúng ta cần theo dõi chặt chẽ các khung kiểm soát Trí tuệ Nhân tạo Trách nhiệm để đảm bảo rằng chúng ta không đang xây dựng một hệ thống như Skynet!