Ron Miller@ron_miller / 8:15 PM GMT+7•Ngày 17 tháng 8 năm 2023
Arthur, một startup theo dõi học máy, đã hưởng lợi từ sự quan tâm đối với trí tuệ nhân tạo tạo sinh trong năm nay và đã phát triển các công cụ để giúp các công ty làm việc hiệu quả hơn với mô hình ngôn ngữ biểu diễn lớn (LLM). Hôm nay, họ đã phát hành Arthur Bench, một công cụ mã nguồn mở giúp người dùng tìm ra LLM tốt nhất cho một tập dữ liệu cụ thể.
Adam Wenchel, CEO và đồng sáng lập của Arthur, cho biết công ty đã nhận thấy nhiều sự quan tâm đối với trí tuệ nhân tạo tạo sinh và LLMs, vì vậy họ đã dành nhiều nỗ lực để tạo ra các sản phẩm.
Ông nói rằng ngày nay, và có thể thừa nhận rằng chúng ta mới chưa đầy một năm kể từ khi ChatGPT được ra mắt, các công ty không có cách tổ chức để đo lường hiệu suất của một công cụ so với công cụ khác, và đó là lý do tại sao họ tạo ra Arthur Bench.
“Arthur Bench giải quyết một trong những vấn đề quan trọng mà chúng tôi thường nghe từ mỗi khách hàng, đó là [với tất cả các lựa chọn mô hình], mô hình nào là tốt nhất cho ứng dụng cụ thể của bạn,” Wenchel nói với TechCrunch.
Nó đi kèm với một bộ công cụ mà bạn có thể sử dụng để kiểm tra hiệu suất một cách phương pháp, nhưng giá trị thực sự của nó là cho phép bạn kiểm tra và đo lường cách các loại gợi ý mà người dùng của bạn sẽ sử dụng cho ứng dụng cụ thể của bạn sẽ hoạt động như thế nào so với các LLM khác.
“Bạn có thể tiềm năng kiểm tra 100 gợi ý khác nhau, sau đó xem cách hai LLM khác nhau – ví dụ như Anthropic so sánh với OpenAI – trên các loại gợi ý mà người dùng của bạn có khả năng sử dụng,” Wenchel nói. Hơn nữa, ông nói rằng bạn có thể thực hiện điều đó ở quy mô lớn và đưa ra quyết định tốt hơn về mô hình nào là tốt nhất cho trường hợp sử dụng cụ thể của bạn.
Arthur Bench được phát hành hôm nay như một công cụ mã nguồn mở. Cũng sẽ có một phiên bản dịch vụ dựa trên mô hình SaaS dành cho khách hàng không muốn đối mặt với phức tạp khi quản lý phiên bản mã nguồn mở hoặc có yêu cầu kiểm tra lớn hơn và sẵn sàng trả phí cho điều đó. Nhưng hiện tại, Wenchel nói rằng họ đang tập trung vào dự án mã nguồn mở.
Công cụ mới này ra mắt ngay sau việc phát hành Arthur Shield vào tháng 5, một loại tường lửa LLM được thiết kế để phát hiện các hình ảnh ảo trong các mô hình, đồng thời bảo vệ khỏi thông tin độc hại và rò rỉ dữ liệu riêng.