Tác giả: Devin Coldewey@techcrunch
Ngày 28 Tháng 9, 2023
Những mô hình ngôn ngữ phổ biến nhất có thể truy cập thông qua API, nhưng mô hình ngôn ngữ mã nguồn mở – miễn là cụm từ đó có thể được coi là đáng nghiêm túc – đang trở nên phổ biến. Mistral, một công ty khởi nghiệp AI nguồn gốc Pháp đã gây chú ý bằng việc huy động nguồn vốn lớn vào tháng 6, vừa công bố mô hình đầu tiên của họ, mà họ tuyên bố có hiệu suất vượt trội hơn so với những mô hình cùng kích thước – và hoàn toàn miễn phí sử dụng mà không có hạn chế.
Mô hình Mistral 7B hiện đã có sẵn để tải xuống thông qua nhiều phương tiện khác nhau, bao gồm một file torrent có dung lượng 13.4 gigabyte (với vài trăm người seed). Công ty cũng đã tạo một kho lưu trữ trên GitHub và một kênh Discord để hợp tác và khắc phục sự cố.
Quan trọng nhất, mô hình này đã được phát hành dưới giấy phép Apache 2.0, một chương trình cực kỳ linh hoạt mà không có bất kỳ hạn chế nào về việc sử dụng hoặc sao chép ngoài việc ghi nguồn. Điều này có nghĩa rằng mô hình có thể được sử dụng bởi một người làm theo sở thích, một tập đoàn đa tỷ đô, hoặc Bộ Quốc phòng, miễn là họ có một hệ thống có khả năng chạy nó tại địa phương hoặc sẵn sàng trả tiền cho tài nguyên đám mây cần thiết.
Mistral 7B là sự tinh chỉnh tiếp theo của các mô hình ngôn ngữ lớn “nhỏ” khác như Llama 2, cung cấp các khả năng tương tự (theo một số tiêu chuẩn kiểm tra tiêu chuẩn) với chi phí tính toán đáng kể thấp hơn. Mô hình cơ sở như GPT-4 có thể làm nhiều việc hơn, nhưng đắt đỏ và khó khăn hơn để chạy, dẫn đến việc chúng chỉ được cung cấp thông qua API hoặc truy cập từ xa.
“Aspirations của chúng tôi là trở thành người ủng hộ hàng đầu của cộng đồng AI tạo ra mã nguồn mở, và mang các mô hình mã nguồn mở lên hiệu suất hàng đầu,” đội ngũ của Mistral viết trong một bài đăng trên blog đi kèm với việc phát hành mô hình này. “Hiệu suất của Mistral 7B chứng minh những gì mô hình nhỏ có thể làm khi có đủ sự thuyết phục. Đây là kết quả của ba tháng công việc chăm chỉ, trong đó chúng tôi đã tổ chức đội ngũ Mistral AI, xây dựng một ngăn xếp MLops hiệu suất cao và thiết kế một đường ống xử lý dữ liệu tinh vi nhất từ đầu.”
Đối với một số người (có lẽ là hầu hết), danh sách đó có vẻ như là một công việc kéo dài hơn ba tháng, nhưng các nhà sáng lập đã có sự chuẩn bị tốt hơn trong việc họ đã làm việc với các mô hình tương tự tại Meta và Google DeepMind. Điều đó không làm cho công việc trở nên dễ dàng, nhưng ít nhất họ đã biết họ đang làm gì.
Tất nhiên, mặc dù nó có thể được tải xuống và sử dụng bởi mọi người, điều đó khác xa so với “nguồn mở” hoặc một loại hình nào đó của thuật ngữ đó, như chúng tôi đã thảo luận tuần trước tại Disrupt. Mặc dù giấy phép rất linh hoạt, mô hình này đã được phát triển riêng tư, sử dụng tiền riêng, và các tập dữ liệu và trọng số cũng là tài sản riêng.
Và đó là điều có vẻ tạo nên mô hình kinh doanh của Mistral: Mô hình miễn phí có thể sử dụng miễn phí, nhưng nếu bạn muốn tìm hiểu sâu hơn, bạn sẽ muốn sử dụng sản phẩm trả phí của họ. “([Sản phẩm thương mại của chúng tôi] sẽ được phân phối dưới dạng giải pháp hộp trắng, cho phép cả trọng số và mã nguồn code được sử dụng. Chúng tôi đang tích cực làm việc trên các giải pháp được lưu trữ và triển khai dành riêng cho các doanh nghiệp,” bài đăng trên blog nói.
Khi được yêu cầu Mistral cung cấp một chút thông tin bổ sung về quy trình và kế hoạch, giám đốc điều hành Arthur Mensch cho biết không phải tất cả các mô hình trong tương lai của công ty sẽ được phát hành dưới giấy phép Apache 2.0. Tuy nhiên, công ty vẫn sẽ tiếp tục phát hành một số mô hình theo giấy phép này.
Các mô hình lớn hơn sẽ có sẵn thông qua API (có lẽ là dự kiến sẽ phải trả phí) thay vì tiếp cận tự làm. Và anh ấy từ chối cung cấp thông tin chi tiết hơn về quá trình đào tạo và việc lập tập dữ liệu, nói rằng chúng là “sở hữu” cho đến nay.