Tác giả: Aayush Mittal
Ngày 12 tháng 2 năm 2024
Các mô hình ngôn ngữ lớn (LLMs) đã thu hút cộng đồng trí tuệ nhân tạo trong những năm gần đây, dẫn đầu trong việc đạt được các bước đột phá trong xử lý ngôn ngữ tự nhiên. Đằng sau sự phô trương đó là một cuộc tranh luận phức tạp – liệu các mô hình mạnh mẽ này nên là mã nguồn mở hay đóng?
Trong bài viết này, chúng tôi sẽ phân tích sự phân biệt kỹ thuật giữa các phương pháp này để hiểu rõ cơ hội và hạn chế mà mỗi phương pháp đem lại. Chúng tôi sẽ bao quát các khía cạnh chính sau đây:
- Xác định mô hình mã nguồn mở so với mô hình đóng
- Sự minh bạch về kiến trúc và khả năng tùy chỉnh
- Tiêu chuẩn đo lường hiệu suất
- Yêu cầu tính toán
- Đa dạng ứng dụng
- Khả năng tiếp cận và cấp phép
- Quyền riêng tư và bảo mật dữ liệu
- Hỗ trợ thương mại và sự ủng hộ
Đến cuối bài viết, bạn sẽ có cái nhìn thông thái về các lựa chọn kỹ thuật giữa các mô hình mã nguồn mở và đóng để hướng dẫn chiến lược AI của riêng bạn. Hãy bắt đầu!
Thế nào là mô hình MỞ và mô hình ĐÓNG
Các mô hình LLM mã nguồn mở có kiến trúc mô hình, mã nguồn và tham số trọng số có thể truy cập công khai. Điều này cho phép các nhà nghiên cứu kiểm tra bên trong, đánh giá chất lượng, tái tạo kết quả và xây dựng các biến thể tùy chỉnh. Các ví dụ nổi bật bao gồm ConstitutionalAI của Anthropic, LLaMA của Meta và GPT-NeoX của EleutherAI.
Ngược lại, các mô hình LLM đóng xử lý kiến trúc mô hình và trọng số như là tài sản độc quyền. Các tổ chức thương mại như Anthropic, DeepMind và OpenAI phát triển chúng nội bộ. Mà không có mã nguồn hoặc chi tiết thiết kế có sẵn, khả năng tái tạo và tùy chỉnh đối mặt với hạn chế.
Minh bạch kiến trúc và Khả năng Tùy chỉnh
Việc truy cập vào bên trong mô hình LLM mã nguồn mở mở ra cơ hội tùy chỉnh mà đơn giản không thể có với các lựa chọn mã nguồn đóng.
Bằng cách điều chỉnh kiến trúc mô hình, các nhà nghiên cứu có thể khám phá các kỹ thuật như giới thiệu kết nối thưa giữa các lớp hoặc thêm các mã thông báo phân loại riêng để cải thiện hiệu suất trên các nhiệm vụ đặc biệt. Với việc truy cập vào các tham số trọng số, các nhà phát triển có thể chuyển học các biểu diễn hiện có hoặc khởi tạo các biến thể với các khối xây dựng đã được huấn luyện trước như nhúng T5 và BERT.
Khả năng tùy chỉnh này cho phép các mô hình LLM mã nguồn mở phục vụ tốt hơn các lĩnh vực chuyên ngành như nghiên cứu y sinh học, tạo mã và giáo dục. Tuy nhiên, sự hiểu biết cần thiết có thể làm tăng rào cản cho việc cung cấp các bản triển khai chất lượng sản xuất.
Các mô hình LLM đóng cung cấp khả năng tùy chỉnh hạn chế vì chi tiết kỹ thuật của chúng vẫn là tài sản độc quyền. Tuy nhiên, các nhà tài trợ của họ cam kết nguồn lực mở rộng cho nghiên cứu và phát triển nội bộ. Các hệ thống kết quả làm nổi bật những gì có thể thực hiện được với một kiến trúc mô hình LLM tổng quát.
Vì vậy, mặc dù ít linh hoạt hơn, các mô hình LLM đóng vượt trội trong các nhiệm vụ ngôn ngữ tự nhiên có áp dụng rộng rãi. Họ cũng đơn giản hóa tích hợp bằng cách tuân thủ các giao diện đã được thiết lập như tiêu chuẩn OpenAPI.
Tiêu chuẩn đo lường hiệu suất
Mặc dù có sự minh bạch về kiến trúc, việc đo lường hiệu suất của các mô hình LLM mã nguồn mở mang lại những thách thức. Sự linh hoạt của chúng cho phép vô số cấu hình và chiến lược điều chỉnh có thể thực hiện. Điều này cũng cho phép các mô hình có tiền tố là “mã nguồn mở” thực sự bao gồm các kỹ thuật độc quyền có thể làm biến dạng so sánh.
Các mô hình LLM đóng kín được quảng bá với các mục tiêu hiệu suất được xác định rõ ràng hơn khi các nhà tài trợ tiến hành đo lường và quảng cáo ngưỡng chỉ số cụ thể. Ví dụ, Anthropic công bố độ chính xác của ConstitutionalAI trên các bộ dữ liệu vấn đề NLU được tạo ra. Microsoft nhấn mạnh cách GPT-4 vượt qua ngưỡng cơ sở của con người trên bộ công cụ hiểu ngôn ngữ SuperGLUE.
Tuy nhiên, các tiêu chuẩn đo lường được xác định hẹp này đã phải đối mặt với sự phê phán về việc nói quá về hiệu suất trên các nhiệm vụ thực tế và việc không đại diện đầy đủ cho các thất bại. Việc đánh giá chính xác mô hình LLM mà không thiên vị vẫn là một vấn đề nghiên cứu mở – cho cả hai phương pháp mã nguồn mở và đóng kín.
Yêu cầu tính toán
Huấn luyện các mô hình ngôn ngữ lớn đòi hỏi nguồn lực tính toán mạnh mẽ. OpenAI đã tiêu hàng triệu đô la cho việc huấn luyện GPT-3 trên cơ sở hạ tầng điện toán đám mây, trong khi Anthropic đã tiêu hơn 10 triệu đô la cho việc sử dụng GPU cho ConstitutionalAI.
Hóa đơn cho những mô hình như vậy loại trừ phần lớn cá nhân và các nhóm nhỏ khỏi cộng đồng mã nguồn mở. Trong thực tế, EleutherAI đã phải gỡ bỏ mô hình GPT-J khỏi quyền truy cập công khai do chi phí lưu trữ tăng vọt.
Mà không có túi tiền sâu, các câu chuyện thành công của mô hình LLM mã nguồn mở tận dụng các nguồn lực máy tính được quyên góp. LAION đã tạo ra mô hình LAION-5B tập trung vào công nghệ của họ bằng cách sử dụng dữ liệu được tổng hợp từ cộng đồng. Dự án phi lợi nhuận ConstitutionalAI của Anthropic đã sử dụng tính toán do người tình nguyện cung cấp.
Sự hậu thuẫn từ các công ty công nghệ lớn như Google, Meta và Baidu cung cấp cho các nỗ lực mã nguồn đóng kín nguồn lực tài chính cần thiết để công nghiệp hóa việc phát triển các mô hình LLM. Điều này cho phép mở rộng đến mức không thể tưởng tượng được đối với các sáng kiến cơ bản – chỉ cần xem mô hình Gopher 280 tỷ tham số của DeepMind là thấy rõ.
Ứng dụng Đa dạng
Khả năng tùy chỉnh của các mô hình LLM mã nguồn mở giúp xử lý các trường hợp sử dụng cực kỳ chuyên biệt. Các nhà nghiên cứu có thể sửa đổi mạnh mẽ bên trong mô hình để tăng hiệu suất trên các nhiệm vụ đặc biệt như dự đoán cấu trúc protein, tạo tài liệu mã và xác minh bằng chứng toán học.
Tuy nhiên, khả năng truy cập và chỉnh sửa mã không đảm bảo một giải pháp cụ thể cho một lĩnh vực mà không có dữ liệu phù hợp. Các tập dữ liệu huấn luyện toàn diện cho các ứng dụng hẹp đòi hỏi nỗ lực lớn để tổ chức và cập nhật.
Ở đây, các mô hình LLM đóng kín lợi ích từ nguồn lực để lấy dữ liệu huấn luyện từ các kho dữ liệu nội bộ và đối tác thương mại. Ví dụ, DeepMind cấp phép cơ sở dữ liệu như ChEMBL cho hóa học và UniProt cho protein để mở rộng phạm vi ứng dụng. Việc truy cập dữ liệu quy mô công nghiệp cho phép các mô hình như Gopher đạt được tính đa dạng đáng kinh ngạc mặc dù kiến trúc không minh bạch.
Tiếp Cận và Giấy Phép
Việc cấp phép linh hoạt của các mô hình LLM mã nguồn mở thúc đẩy việc truy cập miễn phí và sự hợp tác. Các mô hình như GPT-NeoX, LLaMA và Jurassic-1 Jumbo sử dụng các thỏa thuận như Creative Commons và Apache 2.0 để cho phép nghiên cứu không thương mại và sự thương mại hợp lý.
Ngược lại, các mô hình LLM đóng kín mang theo các giấy phép hạn chế giới hạn sẵn có của mô hình. Các tổ chức thương mại kiểm soát chặt chẽ quyền truy cập để bảo vệ các luồng thu nhập tiềm năng từ các giao diện dự đoán và các đối tác doanh nghiệp.
Đương nhiên, các tổ chức như Anthropic và Cohere thu phí để truy cập vào giao diện ConstitutionalAI và Cohere-512. Tuy nhiên, điều này có nguy cơ làm tăng giá các lĩnh vực nghiên cứu quan trọng, làm xiên lệch phát triển về các ngành công nghiệp có nguồn tài chính mạnh.
Tuy cấp phép mở gặp phải những thách thức, đặc biệt là xung đột về quyền sở hữu và trách nhiệm. Tuy nhiên, đối với các trường hợp sử dụng nghiên cứu, sự tự do được cấp phép bởi tính truy cập mã nguồn mở mang lại những lợi ích rõ ràng.
Bảo mật Dữ liệu và Tính Bí Mật
Các tập dữ liệu huấn luyện cho các mô hình LLM thường tổng hợp nội dung từ nhiều nguồn trực tuyến như trang web, bài báo khoa học và diễn đàn thảo luận. Điều này có nguy cơ hiển thị thông tin cá nhân hoặc nhạy cảm khác trong các kết quả của mô hình.
Đối với các mô hình LLM mã nguồn mở, việc xem xét thành phần của tập dữ liệu cung cấp biện pháp bảo vệ tốt nhất chống lại các vấn đề về bí mật. Đánh giá các nguồn dữ liệu, các quy trình lọc và việc ghi lại các ví dụ đáng ngại được tìm thấy trong quá trình kiểm thử có thể giúp xác định các điểm yếu.
Thật không may, các mô hình LLM đóng kín không cho phép kiểm tra công khai như vậy. Thay vào đó, người tiêu dùng phải dựa vào sự nghiêm ngặt của các quy trình đánh giá nội bộ dựa trên các chính sách được công bố. Ví dụ, Azure Cognitive Services hứa sẽ lọc dữ liệu cá nhân trong khi Google chỉ định các đánh giá bảo mật chính thức và đánh dấu dữ liệu.
Nhìn chung, các mô hình LLM mã nguồn mở giúp xác định một cách tích cực hơn các nguy cơ về tính bí mật trong các hệ thống trí tuệ nhân tạo trước khi những điểm yếu đó biểu hiện ở quy mô lớn. Các đối thủ đóng kín cung cấp thông tin về xử lý dữ liệu tương đối hạn chế.
Ủng hộ và Hỗ trợ Thương mại
Khả năng tạo ra lợi nhuận từ các mô hình LLM đóng kín thúc đẩy việc đầu tư thương mại đáng kể cho việc phát triển và bảo trì. Ví dụ, để dự đoán các lợi nhuận hấp dẫn từ danh mục AI Azure của mình, Microsoft đã đồng ý hợp tác đa tỷ đô la với OpenAI xung quanh các mô hình GPT.
Ngược lại, các mô hình LLM mã nguồn mở phụ thuộc vào những tình nguyện viên dành thời gian cá nhân để bảo dưỡng hoặc các khoản tài trợ cung cấp tài chính có thời hạn. Sự mất cân bằng tài nguyên này đe dọa tính liên tục và bền vững của các dự án mã nguồn mở.
Tuy nhiên, các rào cản đối với việc thương mại hóa cũng giải phóng cộng đồng mã nguồn mở để tập trung vào tiến bộ khoa học hơn là lợi nhuận. Và tính phân tán của các hệ sinh thái mở giảm thiểu sự phụ thuộc quá mức vào sự quan tâm liên tục của bất kỳ nhà ủng hộ nào.
Cuối cùng, mỗi phương pháp đều mang lại sự đánh đổi về tài nguyên và động cơ. Các mô hình LLM đóng kín có được sự bảo đảm tài chính lớn hơn nhưng tập trung ảnh hưởng. Hệ sinh thái mở thúc đẩy sự đa dạng nhưng phải chịu sự không chắc chắn cao hơn.
Lựa chọn mô hình Mở hay Đóng
Quyết định giữa sử dụng mô hình LLM mã nguồn mở hay đóng kín yêu cầu phải phù hợp với các ưu tiên tổ chức như tính tùy chỉnh, tính tiếp cận và khả năng mở rộng với các khả năng của mô hình.
Đối với các nhà nghiên cứu và các doanh nghiệp mới thành lập, mã nguồn mở mang lại sự kiểm soát hơn để điều chỉnh các mô hình cho các nhiệm vụ cụ thể. Việc cấp phép cũng thuận tiện cho việc chia sẻ thông tin miễn phí giữa các cộng tác viên. Tuy nhiên, gánh nặng của việc tìm kiếm dữ liệu huấn luyện và cơ sở hạ tầng có thể làm suy yếu tính khả thi trong thực tế.
Ngược lại, các mô hình LLM đóng kín hứa hẹn cải thiện chất lượng đáng kể nhờ nguồn tài chính và dữ liệu dồi dào. Tuy nhiên, các hạn chế về quyền truy cập và sự chỉnh sửa giới hạn tính minh bạch khoa học và ràng buộc triển khai theo lộ trình của nhà cung cấp.
Trong thực tế, các tiêu chuẩn mở về các quy định kiến trúc, các điểm kiểm tra mô hình và dữ liệu đánh giá có thể giúp làm giảm nhược điểm của cả hai phương pháp. Các nền tảng chung như Transformer của Google hoặc REALTO của Oxford cải thiện khả năng tái tạo. Các tiêu chuẩn tương thích như ONNX cho phép kết hợp các thành phần từ nguồn mở và đóng kín.
Cuối cùng, điều quan trọng là chọn công cụ phù hợp – mã nguồn mở hoặc đóng kín – cho công việc hiện tại. Các tổ chức thương mại hậu thuẫn cho các mô hình LLM đóng kín mang lại sức ảnh hưởng không thể phủ nhận. Nhưng sự nhiệt huyết và nguyên tắc của cộng đồng khoa học mở sẽ tiếp tục đóng vai trò quan trọng trong việc thúc đẩy tiến bộ của trí tuệ nhân tạo.