Tính đến thời điểm viết, có 371,380 mô hình có sẵn trên Hugging Face, một cộng đồng mã nguồn mở bao gồm một kho lưu trữ khổng lồ các mô hình mã nguồn mở. Trong đó, có hơn 28,000 mô hình thuộc danh mục ‘tạo văn bản’ (text generation).
Khi các tùy chọn cho các mô hình được huấn luyện trước ngày càng tăng lên, có những yếu tố quan trọng có thể quyết định sự lựa chọn của bạn.
Tác giả: Jonathan Davis
Tính đến thời điểm viết, có 371,380 mô hình có sẵn trên Hugging Face, một cộng đồng mã nguồn mở bao gồm một kho lưu trữ lớn các mô hình mã nguồn mở. Trong đó, có hơn 28,000 mô hình thuộc danh mục ‘tạo văn bản’.
Khi xem xét rằng điều này thậm chưa bao gồm một số người chơi quan trọng trong lĩnh vực tạo văn bản (các mô hình GPT của OpenAI, Bard của Google, v.v.), thì làm thế nào để chọn mô hình tốt nhất cho trường hợp sử dụng của họ?
Khi huấn luyện các mô hình học máy, chúng ta cẩn thận xem xét dữ liệu mà chúng ta đang cung cấp, dạng của kết quả, và cách mô hình hoạt động, được đo lường bằng một số chỉ số đã được định nghĩa trước.
Khi chọn một Mô Hình Cơ Sở, có lẽ bạn cũng muốn áp dụng cùng quy trình tư duy… Mô hình nào sẽ hoạt động tốt nhất? Tuy nhiên, có những yếu tố quan trọng có thể hạn chế sự lựa chọn của bạn trước khi bạn thậm chí có thể bắt đầu xem xét hiệu suất.
Dưới đây là một số yếu tố quan trọng như vậy. Mặc dù câu chuyện và ví dụ chủ yếu liên quan đến các mô hình ngôn ngữ lớn (LLMs) và Trí tuệ Nhân tạo Tạo ra, nhưng chúng có thể áp dụng cho bất kỳ mô hình học máy được huấn luyện trước nào.
Giấy phép
Thường thì, các mô hình cơ sở được cấp giấy phép, và điều này có thể hạn chế cách chúng được phép sử dụng. Dưới đây là một số điều cần xem xét, tuy nhiên, đây không phải là lời khuyên pháp lý, và khi cần, bạn nên tìm kiếm lời khuyên pháp lý.
Hầu hết các Mô Hình Cơ Sở có giấy phép mã nguồn mở. Ví dụ, Apache 2.0 (BERT, XLNet, Bloom) và MIT (GPT-2, TF, BLOOM) là các giấy phép phù hợp thường cho phép sử dụng trong mục đích thương mại với một số điều kiện, chẳng hạn như thông báo cho tác giả, trích dẫn giấy phép hoặc ghi công cho tác giả.
Trên đầu mũi còn lại của phổ giấy phép, các giấy phép sở hữu thường cấp quyền truy cập với các hạn chế quan trọng về việc sử dụng. Ví dụ, OpenAI không cho phép người dùng “sử dụng đầu ra từ Dịch vụ để phát triển các mô hình cạnh tranh với OpenAI”. Họ cũng có thể đánh thuế hoặc yêu cầu người dùng đề nghị quyền truy cập.
Ở đây, quan trọng là phải phân biệt giữa việc sử dụng trong mục đích thương mại, sử dụng cá nhân và sử dụng nghiên cứu. Alpaca, một mô hình được tạo ra bởi các nghiên cứu viên tại Đại học Stanford, đã sử dụng mô hình text-davinci-003 của OpenAI để tạo ra văn bản sau đó được sử dụng để điều chỉnh tinh chỉnh mô hình LlaMa của Meta. Mô hình này không thể được sử dụng trong môi trường thương mại vì:
- Các nhà nghiên cứu đã sử dụng một mô hình của OpenAI để tạo ra một mô hình có thể cạnh tranh với các mô hình khác của OpenAI.
- Nó dựa trên LlaMa, một mô hình được tạo ra bởi Meta với một giấy phép phi thương mại.
Tuy nhiên, cả hai lý do này đều không áp dụng trong môi trường nghiên cứu (hoặc thậm chí trong môi trường cá nhân).
Quan trọng là phải kiểm tra kỹ giấy phép sở hữu vì chúng đôi khi có thể chứa các điều kiện sử dụng cụ thể. Ví dụ, khác với phiên bản trước đó, Meta đã cấp giấy phép sử dụng LlaMa 2 cho mục đích thương mại, trừ khi số người dùng hoạt động hàng tháng của bạn vượt quá 700 triệu người dùng. Trong trường hợp đó, bạn cần có sự cho phép rõ ràng từ Meta.
Mô hình mã nguồn mở so với mô hình nguồn đóng
Các mô hình mã nguồn mở có mã nguồn của họ được công khai. Mặc dù việc sử dụng có thể bị giới hạn bởi giấy phép, như đã thảo luận ở trên, người dùng có khả năng tự nhiên sử dụng, điều chỉnh và chia sẻ mô hình. Điều này cũng có nghĩa rằng những mô hình này thường là miễn phí để sử dụng, không có phí.
Quyền truy cập vào mã nguồn của mô hình cung cấp khả năng tùy chỉnh gần như không giới hạn. Người dùng có thể thử nghiệm với các kỹ thuật mới, điều chỉnh mô hình cho các nhiệm vụ cụ thể hoặc điều chỉnh đầu vào và/hoặc đầu ra của mô hình. Các kỹ thuật học chuyển giao, chẳng hạn như ULMFit, dựa vào việc có quyền truy cập vào trọng số mô hình để huấn luyện các mô hình tùy chỉnh.
Trái lại, các mô hình sở hữu, chẳng hạn như GPT-4 của OpenAI và Bard của Google, không cho phép truy cập vào mã nguồn, và thường không cho phép truy cập vào bất kỳ thông tin nào khác liên quan đến cách mô hình hoạt động bên trong, chẳng hạn như kiến trúc.
Những mô hình này thường là tiên tiến nhất, điều này có thể làm cho việc huấn luyện chúng đắt đỏ. Do đó, các công ty có thể giữ chúng là mã nguồn đóng để đặt giá và đền bù cho chi phí của họ.
Họ cũng có thể muốn đảm bảo rằng đối thủ không hưởng lợi từ đầu tư của họ. OpenAI mở rộng điều này và không cho phép người dùng “thử lắp ngược, biên soạn ngược, giải mã, dịch hoặc thử tìm hiểu mã nguồn hoặc các thành phần cơ bản của mô hình, thuật toán”.
Những mô hình này thường có các công cụ và tính năng cho phép tùy chỉnh, nhưng thường giới hạn hơn so với những khả năng có thể đạt được với mã nguồn. Tuy nhiên, những mô hình này thường là những mô hình có hiệu suất tốt nhất và có thể tổng quát hóa rất tốt. Thậm chí, các mô hình của OpenAI thường là một số trong những mô hình phổ biến nhất vì điều này.
Dữ liệu của tôi đi đâu?
Hiểu rõ nơi mà dữ liệu bạn đang gửi đến mô hình là điều quan trọng để đảm bảo quản lý thông tin và bảo mật tốt. Thông thường, điều này đơn giản hơn với các mô hình mã nguồn mở, vì chúng phụ thuộc gần như hoàn toàn vào ngăn xếp công nghệ đang được sử dụng. Mô hình có thể được đặt trên cùng môi trường với dữ liệu và không cần phải ra khỏi đó.
Ngược lại, tính bí mật với các mô hình sở hữu giới hạn các phương pháp sử dụng mô hình và do đó, nơi dữ liệu được gửi đến. Bard của Google có thể được truy cập thông qua giao diện người dùng trên trang web của họ. Cũng có sẵn một API, tuy nhiên, hiện tại nó đang trong giai đoạn beta. Điều này có nghĩa là bất kỳ dữ liệu nào được gửi đến mô hình cũng sẽ được gửi đến máy chủ của Google.
Đối với nhiều trường hợp sử dụng, điều này có thể là chấp nhận được. Tuy nhiên, đối với các loại dữ liệu cụ thể, chẳng hạn như dữ liệu nhạy cảm về mặt thương mại hoặc tài chính, hoặc dữ liệu cá nhân của khách hàng, có thể không được phép rời xa máy chủ nơi nó được lưu trữ.
OpenAI đã cố gắng vượt qua điều này bằng cách làm cho các mô hình của họ có sẵn thông qua Dịch vụ Azure OpenAI. Tương tự, mô hình Claude của Anthropic có sẵn thông qua AWS Bedrock. Tuy nhiên, điều này đòi hỏi việc sử dụng một nhà cung cấp dịch vụ đám mây cụ thể.
Do nhà cung cấp dịch vụ đám mây được sử dụng bởi một công ty thường được định trước và không linh hoạt, điều này sẽ giới hạn sự lựa chọn của các mô hình sở hữu cho những mô hình có sẵn trong môi trường đám mây cụ thể đó.
Những điểm đáng chú ý khác
- Hệ quả đạo đức và pháp lý của dữ liệu được sử dụng để huấn luyện mô hình. Việc sử dụng một số loại dữ liệu để huấn luyện LLMs có thể gây ra hệ quả pháp lý và đạo đức. Vì vậy, một số nhà cung cấp mô hình có sự minh bạch hơn những người khác. OpenAI không tiết lộ dữ liệu được sử dụng để huấn luyện các mô hình ngôn ngữ của họ, trong khi Google đã công khai dữ liệu C4 của họ.
- Nguồn gốc của mô hình. Khi các LLMs trở nên thông dụng và có hiệu suất tốt hơn, có nhiều lo ngại về việc lạm dụng và sử dụng sai mục đích của các mô hình này. Các mô hình ngôn ngữ Falcon và Jais có liên quan chặt chẽ đến các vùng như UAE và Saudi Arabia. Có những lo ngại về cách các nhà lãnh đạo độc tài có thể sử dụng công nghệ này.
- Xác định nhiệm vụ. Điều này hầu như không cần nói rằng bạn phải xác định nhiệm vụ cần thiết cho trường hợp sử dụng của bạn. Không có ý nghĩa gì trong việc xem xét Bard, một mô hình tạo văn bản, cho việc tạo hình ảnh.
Kết luận
Kể từ khi ChatGPT được phát hành, các lo ngại về đạo đức và pháp lý của các mô hình này, từ dữ liệu được sử dụng để huấn luyện chúng đến cách chúng được sử dụng, đã trở thành một chủ đề tranh luận nóng hổi.
Mặc dù pháp luật và tư duy trong lĩnh vực trí tuệ nhân tạo vẫn đang đi chậm hơn so với tốc độ phát triển của công nghệ, nhưng các khung khổ và quy định pháp lý đang nhận được sự quan tâm và hình thành nhanh chóng thời gian gần đây. Để đảm bảo một tương lai phát triển lành mạnh và hạn chế mặt tác hại những vấn đề này cần chú trọng đúng mức ngay từ bước lựa chọn đầu tiên mô hình cơ sở.