Tác giả: Dattaraj Rao
Các mô hình ngôn ngữ lớn hiện diện khắp nơi. Mỗi cuộc trò chuyện với khách hàng hoặc buổi thuyết trình cho các nhà đầu tư đều liên quan đến câu hỏi về sự sẵn sàng của công nghệ LLM và cách nó sẽ thúc đẩy các ứng dụng trong tương lai. Bài viết này tập trung trao đổi về một số ứng dụng thực tế trong lĩnh vực dược phẩm mà Công ty Persistent Systems đã có cơ hội làm việc.
Các Mô hình Ngôn ngữ Lớn và Điểm mạnh Cốt lõi
LLM có khả năng hiểu ngôn ngữ, đó là điểm mạnh của họ. Mẫu phổ biến nhất mà chúng ta thấy trong các ứng dụng là RAG (retrieval augmented generation), trong đó kiến thức được tổng hợp từ các nguồn dữ liệu bên ngoài và được cung cấp trong ngữ cảnh dưới dạng một yêu cầu để LLM tái diễn đạt. Trong trường hợp này, các cơ chế tìm kiếm siêu nhanh như cơ sở dữ liệu vector và các hệ thống động Elasticsearch được sử dụng làm dòng đầu tiên của quá trình tìm kiếm. Sau đó, kết quả tìm kiếm được tổng hợp thành một yêu cầu và gửi đến LLM chủ yếu dưới dạng cuộc gọi API.
Mẫu khác là tạo ra một truy vấn trên dữ liệu có cấu trúc bằng cách cung cấp cho LLM một mô hình dữ liệu làm yêu cầu và một truy vấn cụ thể của người dùng. Mẫu này có thể được sử dụng để phát triển giao diện “nói chuyện với dữ liệu của bạn” tiên tiến cho các cơ sở dữ liệu SQL như Snowflake, cũng như cơ sở dữ liệu đồ thị như Neo4j.
Tận dụng các mô hình LLM cho thông tin thực tế
Công ty Persistent Systems gần đây đã xem xét một mẫu cho Blast Motion, một công ty dịch vụ công nghệ thông tin thể thao (phân tích cú đánh cho bóng chày, golf, vv.), trong đó chúng tôi phân tích dữ liệu chuỗi thời gian của tóm tắt về người chơi để đưa ra các đề xuất.
Đối với các ứng dụng phức tạp hơn, chúng ta thường cần kết nối các yêu cầu LLM với các xử lý ở giữa các cuộc gọi. Đối với một công ty dược phẩm, chúng tôi đã phát triển ứng dụng thông minh để lọc bệnh nhân tham gia thử nghiệm lâm sàng dựa trên các tiêu chí được trích xuất từ tài liệu thử nghiệm lâm sàng. Ở đây, chúng tôi đã sử dụng một phương pháp chuỗi LLM. Trước tiên, chúng tôi đã phát triển một LLM để đọc tài liệu pdf thử nghiệm và sử dụng mẫu RAG để trích xuất các tiêu chí bao gồm và tiêu trừ.
Đối với việc này, chúng tôi đã sử dụng một LLM tương đối đơn giản như GPT-3.5-Turbo (ChatGPT). Sau đó, chúng tôi kết hợp các thực thể được trích xuất này với mô hình dữ liệu của bệnh nhân trong cơ sở dữ liệu SQL trên Snowflake để tạo ra một yêu cầu. Yêu cầu này được cung cấp cho một LLM mạnh mẽ hơn như GPT4, và chúng tôi thu được một truy vấn SQL để lọc bệnh nhân, sẵn sàng chạy trên Snowflake. Bởi vì chúng tôi sử dụng chuỗi LLM, chúng tôi có thể sử dụng nhiều LLM cho từng bước trong chuỗi, giúp chúng tôi quản lý chi phí.
Hiện tại, chúng tôi đã quyết định giữ cho chuỗi này xác định để có sự kiểm soát tốt hơn. Điều này có nghĩa là chúng tôi đã quyết định đưa thêm sự thông minh vào trong các chuỗi và giữ cho quá trình điều phối rất đơn giản và dễ dự đoán. Mỗi phần tử trong chuỗi đều là một ứng dụng phức tạp mà trong thời kỳ trước khi có LLM, nó sẽ mất vài tháng để phát triển.
Tăng cường Sức mạnh cho các kịch bản sử dụng nâng cao
Đối với một trường hợp nâng cao hơn, chúng ta có thể sử dụng các Agent như ReAct để khuyến khích LLM tạo ra hướng dẫn từng bước để thực hiện theo truy vấn cụ thể của người dùng. Điều này tất nhiên sẽ cần một LLM cao cấp như GPT4, Cohere hoặc Claude 2. Tuy nhiên, có nguy cơ mô hình thực hiện một bước không chính xác và cần phải được kiểm tra bằng các biện pháp kiểm soát. Điều này là một sự cân nhắc giữa việc đưa thông minh vào các liên kết có thể kiểm soát được trong chuỗi hoặc làm cho toàn bộ chuỗi trở nên tự động.
Hiện nay, khi chúng ta quen với thời đại của Trí tuệ Nhân tạo Tạo ra ngôn ngữ, ngành công nghiệp đang bắt đầu áp dụng các ứng dụng LLM với Chuỗi có thể dự đoán. Khi sự áp dụng này mở rộng, chúng ta sẽ sớm bắt đầu thử nghiệm tính tự động hơn cho các chuỗi này thông qua các agent. Đó là điều cuộc tranh luận về Trí tuệ Nhân tạo Tổng hợp đang nói về, và chúng tôi rất quan tâm để xem tất cả những điều này sẽ phát triển ra sao theo thời gian.