Tác giả: Tanya Malhotra
Ngày 2 tháng 4 năm 2024
Các Mô hình Ngôn ngữ Lớn Mã nguồn Mở hàng đầu có sẵn cho Sử dụng Thương mại là như sau.
Llama – 2
Meta đã phát hành Llama 2, một bộ các mô hình LLM đã được huấn luyện trước và tinh chỉnh, cùng với Llama 2-Chat, một phiên bản của Llama 2. Các mô hình này có khả năng mở rộng lên đến 70 tỷ tham số. Sau khi tiến hành kiểm tra mở rộng trên các tiêu chuẩn tập trung vào an toàn và tính hữu ích, đã phát hiện rằng các mô hình Llama 2-Chat hoạt động tốt hơn so với các mô hình mã nguồn mở hiện tại trong hầu hết các trường hợp. Các đánh giá của con người đã cho thấy rằng chúng phù hợp tốt với một số mô hình mã nguồn đóng.
Các nhà nghiên cứu đã thậm chí đã thực hiện một số bước để đảm bảo an ninh của các mô hình này. Điều này bao gồm việc chú thích dữ liệu, đặc biệt là cho mục đích an toàn, thực hiện các bài tập kiểm tra từ đội “đỏ”, điều chỉnh lại các mô hình với sự tập trung vào các vấn đề an toàn, và kiểm tra các mô hình theo cách lặp đi lặp lại và liên tục.
Các biến thể của Llama 2 với 7 tỷ, 13 tỷ và 70 tỷ tham số cũng đã được phát hành. Llama 2-Chat, được tối ưu hóa cho các kịch bản đối thoại, cũng đã được phát hành dưới các biến thể có cùng tỷ lệ tham số.
Dự án: https://huggingface.co/meta-llama
Bài báo: https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/
Falcon
Các nhà nghiên cứu từ Viện Đổi mới Công nghệ, Abu Dhabi đã giới thiệu dòng sản phẩm Falcon, bao gồm các mô hình với 7 tỷ, 40 tỷ và 180 tỷ tham số. Các mô hình này, được thiết kế để chỉ là các mô hình giải mã gây nguyên nhân, được huấn luyện trên một bộ văn bản đa dạng và chất lượng cao, chủ yếu được thu thập từ dữ liệu trực tuyến. Falcon-180B, mô hình lớn nhất trong loạt mô hình này, là lần chạy huấn luyện trước duy nhất có sẵn công khai từ trước đến nay, đã được huấn luyện trên một tập dữ liệu với hơn 3,5 nghìn tỷ mã thông tin văn bản.
Các nhà nghiên cứu phát hiện rằng Falcon-180B có những tiến bộ lớn so với các mô hình khác, bao gồm cả PaLM hoặc Chinchilla. Nó vượt trội hơn các mô hình đang được phát triển đồng thời, như LLaMA 2 hoặc Inflection-1. Falcon-180B đạt được hiệu suất gần với PaLM-2-Large, điều đáng chú ý là chi phí huấn luyện trước và suy luận của nó thấp hơn. Với thứ hạng này, Falcon-180B tham gia cùng GPT-4 và PaLM-2-Large là những mô hình ngôn ngữ hàng đầu trên thế giới.
Dự án: https://huggingface.co/tiiuae/falcon-180B
Dự án: https://arxiv.org/pdf/2311.16867.pdf
Dolly 2.0
Các nhà nghiên cứu từ Databricks đã tạo ra mô hình LLM Dolly-v2-12b, được thiết kế cho việc sử dụng thương mại và được tạo ra trên nền tảng Machine Learning của Databricks. Dựa trên pythia-12b như là một nền tảng cơ sở, nó được huấn luyện bằng khoảng 15.000 cặp hướng dẫn/phản hồi (được đặt tên là databricks-dolly-15k) được tạo ra bởi nhân viên của Databricks. Một số lĩnh vực chức năng được phủ bởi các cặp hướng dẫn/phản hồi này bao gồm việc đố vị, phân loại, trả lời câu hỏi đóng, tạo ra, trích xuất thông tin, trả lời câu hỏi mở, và tóm tắt, như được nêu trong tài liệu InstructGPT.
Dolly-v2 cũng có sẵn trong các kích thước mô hình nhỏ hơn cho các trường hợp sử dụng khác nhau. Dolly-v2-7b có 6.9 tỷ tham số và dựa trên pythia-6.9b.
Dolly-v2-3b có 2.8 tỷ tham số và dựa trên pythia-2.8b.
Dự án HF: https://huggingface.co/databricks/dolly-v2-12b
Github: https://github.com/databrickslabs/dolly#getting-started-with-response-generation
Các mô hình ngôn ngữ dựa trên Transformer đã đạt được tiến bộ lớn với việc phát hành MPT-7B của MosaicML. MPT-7B đã được huấn luyện từ đầu và đã tiếp xúc với một tập dữ liệu lớn gồm 1 nghìn tỷ mã thông tin, bao gồm cả văn bản và mã nguồn.
Hiệu suất mà MPT-7B đã được huấn luyện là đáng kinh ngạc. Chỉ trong 9,5 ngày, quá trình huấn luyện đầy đủ, được thực hiện mà không có sự tham gia của con người nào, đã được hoàn thành. MPT-7B đã được huấn luyện với một giá cả cực kỳ thấp, đáng kể đến kích thước và độ khó của nhiệm vụ. Quy trình huấn luyện, sử dụng cơ sở hạ tầng tiên tiến của MosaicML, có giá khoảng 200.000 đô la.
Dự án HF: https://huggingface.co/mosaicml/mpt-7b
Github: https://github.com/mosaicml/llm-foundry/
FLAN – T5
Google giới thiệu FLAN – T5, một phiên bản nâng cao của T5 đã được điều chỉnh tinh chỉnh trong một hỗn hợp các nhiệm vụ. Các điểm kiểm tra của Flan-T5 thể hiện hiệu suất mạnh mẽ trong ít bước thậm chí khi so sánh với các mô hình lớn hơn đáng kể như PaLM 62B. Với FLAN – T5, nhóm đã thảo luận về việc điều chỉnh tinh chỉnh hướng dẫn như một phương pháp linh hoạt để cải thiện hiệu suất của mô hình ngôn ngữ trên nhiều nhiệm vụ và tiêu chí đánh giá khác nhau.
Dự án HF: https://huggingface.co/google/flan-t5-base
Bài báo: https://arxiv.org/pdf/2210.11416.pdf
GPT-NeoX-20B
EleutherAI giới thiệu GPT-NeoX-20B, một mô hình ngôn ngữ tự hồi quy lớn với 20 tỷ tham số. Hiệu suất của GPT-NeoX-20B được đánh giá trên nhiều nhiệm vụ bao gồm kỹ năng dựa trên kiến thức, lập luận toán học và hiểu ngôn ngữ.
Kết luận chính của đánh giá là GPT-NeoX-20B thể hiện sự xuất sắc khi là một bộ lập luận trong ít bước, ngay cả khi chỉ được cung cấp thông tin rất ít. GPT-NeoX-20B hoạt động đáng kể tốt hơn so với các thiết bị có kích thước tương đương như GPT-3 và FairSeq, đặc biệt là trong các đánh giá với năm bước.
Dự án HF: https://huggingface.co/EleutherAI/gpt-neox-20b
Bài báo: https://arxiv.org/pdf/2204.06745.pdf
Open Pre-trained Transformers (OPT)
Vì các mô hình LLM thường được huấn luyện qua hàng trăm nghìn ngày tính toán, thường cần tài nguyên tính toán đáng kể. Điều này làm cho việc tái tạo trở nên cực kỳ khó khăn đối với các nhà nghiên cứu thiếu nguồn tài chính đáng kể. Truy cập hoàn chỉnh vào trọng số mô hình thường bị hạn chế, ngăn cản nghiên cứu và phân tích sâu sắc, ngay cả trong những trường hợp mà những mô hình này được phát hành thông qua các API.
Để giải quyết những vấn đề này, các nhà nghiên cứu của Meta đã trình bày Open Pre-trained Transformers (OPT), một bộ các bộ biến đổi được huấn luyện trước giới hạn chỉ đến bộ giải mã và bao gồm một loạt các giá trị tham số rộng lớn, từ 125 triệu đến 175 tỷ. Mục tiêu chính của OPT là demokhoa học truy cập vào các mô hình ngôn ngữ tiên tiến bằng cách làm cho những mô hình này hoàn toàn và đạo đức được sử dụng bởi cộng đồng học thuật.
OPT-175B, mô hình cơ sở trong bộ công cụ OPT, được các nhà nghiên cứu chỉ ra là thực hiện tương tự như GPT-3. Nhưng điều thực sự phân biệt OPT-175B so với các kỹ thuật huấn luyện mô hình ngôn ngữ quy mô lớn thông thường là nó chỉ cần 1/7 tác động môi trường trong quá trình phát triển.
Dự án HF: https://huggingface.co/facebook/opt-350m
Bài báo: https://arxiv.org/pdf/2205.01068.pdf
BLOOM
Các nhà nghiên cứu từ BigScience đã phát triển BLOOM, một mô hình ngôn ngữ mở với 176 tỷ tham số đáng kể. Vì BLOOM là một mô hình ngôn ngữ Transformer chỉ có giải mã, nó đặc biệt tốt trong việc tạo ra các chuỗi văn bản phản ứng với các dấu hiệu đầu vào. Tập dữ liệu ROOTS, một tập dữ liệu lớn với nội dung từ hàng trăm nguồn bao gồm 46 ngôn ngữ tự nhiên và 13 ngôn ngữ lập trình, tổng cộng 59 ngôn ngữ, đã được sử dụng làm môi trường huấn luyện. Do lượng dữ liệu huấn luyện lớn, BLOOM có khả năng hiểu và tạo ra văn bản trong nhiều ngữ cảnh ngôn ngữ khác nhau.
Bài báo: https://arxiv.org/pdf/2211.05100.pdf
Dự án HF: https://huggingface.co/bigscience/bloom
Baichuan
Phiên bản mới nhất của các mô hình ngôn ngữ mã nguồn mở rộng lớn được tạo ra bởi Công ty Trí tuệ Baichuan có tên gọi là Baichuan 2. Với 2,6 nghìn tỷ token trong bộ dữ liệu được lựa chọn cẩn thận của mình, mô hình phức tạp này được giảng dạy để bắt capture một loạt các sắc thái và mẫu ngôn ngữ. Đáng chú ý, Baichuan 2 đã thiết lập các tiêu chuẩn mới cho các mô hình có kích thước tương tự bằng cách thể hiện hiệu suất xuất sắc trên các tiêu chuẩn đáng tin cậy cả trong tiếng Trung và tiếng Anh.
Baichuan 2 đã được phát hành trong các phiên bản khác nhau, mỗi phiên bản được thiết kế cho một trường hợp sử dụng cụ thể. Tùy chọn được cung cấp trong các kết hợp tham số 7 tỷ và 13 tỷ cho mô hình Cơ bản. Baichuan 2 cung cấp các mô hình Trò chuyện trong các biến thể phù hợp với 7 tỷ và 13 tỷ tham số, được điều chỉnh cho các cài đặt đối thoại. Hơn nữa, một phiên bản lượng tử hóa 4 bit của mô hình Trò chuyện được cung cấp để tăng hiệu quả, giảm nhu cầu xử lý mà không làm giảm hiệu suất.
Dự án HF: https://huggingface.co/baichuan-inc/Baichuan2-13B-Chat#Introduction
BERT
Google giới thiệu BERT (Bidirectional Encoder Representations from Transformers). BERT được phát triển đặc biệt để tiền huấn các biểu diễn sâu hai chiều từ văn bản không có nhãn, không giống như các mô hình ngôn ngữ trước đó. Điều này có nghĩa là BERT có thể nắm bắt một cái nhìn sâu sắc hơn về các sắc thái ngôn ngữ vì nó đồng thời xem xét ngữ cảnh bên trái và bên phải trong mỗi lớp của kiến trúc của nó.
Đơn giản về mặt khái niệm và mạnh mẽ về mặt thực nghiệm là hai lợi ích chính của BERT. Nó thu được các nhúng ngữ cảnh phong phú thông qua việc tiền huấn rộng rãi trên dữ liệu văn bản, có thể được tinh chỉnh một cách dễ dàng để tạo ra các mô hình cực kỳ hiệu quả cho một loạt các ứng dụng xử lý ngôn ngữ tự nhiên. Thêm chỉ một lớp đầu ra bổ sung thường là tất cả những gì cần thiết cho quá trình điều chỉnh tinh chỉnh này, khiến cho BERT cực kỳ linh hoạt và dễ thích ứng với một loạt các ứng dụng mà không đòi hỏi các thay đổi cấu trúc cụ thể cho nhiệm vụ lớn.
BERT hoạt động tốt trên mười một nhiệm vụ xử lý ngôn ngữ tự nhiên khác nhau. Nó cho thấy những tiến bộ đáng chú ý trong hiệu suất trả lời câu hỏi SQuAD, độ chính xác của MultiNLI và điểm GLUE. Ví dụ, BERT tăng điểm GLUE lên 80,5%, đó là một cải thiện tuyệt vời tuyệt đối là 7,7%.
Github: https://github.com/google-research/bert
Bài báo: https://arxiv.org/pdf/1810.04805.pdf
Vicuna
LMSYS giới thiệu Vicuna-13B, một chatbot mã nguồn mở được tạo ra bằng cách sử dụng các cuộc trò chuyện được người dùng chia sẻ từ ShareGPT để điều chỉnh tinh chỉnh mô hình LLaMA. Vicuna-13B cung cấp cho người tiêu dùng khả năng trò chuyện vượt trội và là một bước tiến lớn trong công nghệ chatbot.
Trong đánh giá ban đầu, hiệu suất của Vicuna-13B được đánh giá bằng cách sử dụng GPT-4. Kết quả đánh giá cho thấy rằng Vicuna-13B vượt trội hơn các mô hình chatbot nổi tiếng khác như OpenAI ChatGPT và Google Bard, với một mức chất lượng vượt quá 90%. Vicuna-13B hoạt động tốt hơn và hiệu quả hơn trong việc tạo ra các phản hồi chất lượng cao hơn so với các mô hình khác, như LLaMA và Stanford Alpaca, trong hơn 90% các trường hợp. Vicuna-13B là một thiết bị tốt về mặt hiệu quả chi phí. Vicuna-13B có thể được phát triển với khoảng 300 đô la trong quá trình huấn luyện, làm cho nó trở thành một giải pháp hiệu quả về chi phí.
Dự án HF: https://huggingface.co/lmsys/vicuna-13b-delta-v1.1
Mistral
Mistral 7B v0.1 là một mô hình ngôn ngữ tiên tiến với 7 tỷ tham số đã được phát triển để đạt hiệu suất và hiệu quả đáng kinh ngạc. Mistral 7B phá vỡ tất cả các kỷ lục trước đó, vượt trội hơn Llama 2 13B trong mọi tiêu chuẩn và thậm chí cả Llama 1 34B trong các lĩnh vực quan trọng như logic, toán học và lập trình.
Các phương pháp hiện đại như chú ý truy vấn nhóm (GQA) đã được sử dụng để tăng tốc quá trình suy luận và chú ý cửa sổ trượt (SWA) để xử lý hiệu quả các chuỗi có độ dài khác nhau trong khi giảm thiểu áp lực tính toán. Một phiên bản tùy chỉnh, Mistral 7B — Instruct, cũng đã được cung cấp và tối ưu hóa để thực hiện xuất sắc trong các hoạt động yêu cầu tuân thủ theo hướng dẫn.
Dự án HF: https://huggingface.co/mistralai/Mistral-7B-v0.1
Bài báo: https://arxiv.org/pdf/2310.06825.pdf
Gemma
Gemma là một loạt các mô hình mã nguồn mở tiên tiến mà Google đã xây dựng bằng cùng công nghệ và nghiên cứu như các mô hình Gemini. Các mô hình ngôn ngữ lớn chỉ có giải mã bằng tiếng Anh này, được gọi là Gemma, được thiết kế cho các ứng dụng văn bản-sang-văn bản. Chúng có ba biến thể: được điều chỉnh theo hướng dẫn, được tiền huấn và có trọng số mở. Các mô hình Gemma thực hiện tốt đặc biệt trong nhiều nhiệm vụ tạo văn bản khác nhau, như tóm tắt, lập luận và trả lời câu hỏi.
Gemma độc đáo ở chỗ nó nhẹ nhàng, điều này làm cho nó lý tưởng cho việc triển khai trong các ngữ cảnh có tài nguyên hạn chế, như máy tính để bàn, laptop hoặc cơ sở hạ tầng đám mây cá nhân.
Dự án HF: https://huggingface.co/google/gemma-2b-it
Phi-2
Microsoft giới thiệu Phi-2, một mô hình Transformer với 2,7 tỷ tham số. Nó đã được huấn luyện bằng cách sử dụng một kết hợp các nguồn dữ liệu tương tự như Phi-1.5. Nó cũng tích hợp một nguồn dữ liệu mới, bao gồm các văn bản tổng hợp NLP và các trang web đã được lọc được coi là hướng dẫn và an toàn. So sánh Phi-2 với các tiêu chuẩn đo lường tư duy logic, hiểu ngôn ngữ và lý thuyết thực tế cho thấy nó hoạt động gần như ở mức độ tiên tiến nhất giữa các mô hình có ít hơn 13 tỷ tham số.
Dự án HF: https://huggingface.co/microsoft/phi-2
StarCoder2
StarCoder2 được giới thiệu bởi dự án BigCode; một nỗ lực hợp tác tập trung vào việc tạo ra Mô hình Ngôn ngữ Lớn cho Mã (Code LLMs) một cách tỉ mỉ. Stack v2 được dựa trên nguồn tài nguyên kỹ thuật số của lưu trữ mã nguồn của Software Heritage (SWH), bao gồm 619 ngôn ngữ lập trình. Một tập hợp được lựa chọn cẩn thận của các nguồn dữ liệu bổ sung chất lượng cao, như tài liệu mã nguồn, sổ ghi chú Kaggle và yêu cầu kéo GitHub, làm cho tập huấn luyện lớn hơn gấp bốn lần so với bộ dữ liệu ban đầu của StarCoder.
Các mô hình StarCoder2 với 3 tỷ, 7 tỷ và 15 tỷ tham số được kiểm tra một cách toàn diện trên một bộ sưu tập rộng lớn các tiêu chuẩn đánh giá Code LLM sau khi được huấn luyện trên 3,3 đến 4,3 nghìn tỷ token. Kết quả cho thấy rằng StarCoder2-3B hoạt động tốt hơn trên hầu hết các tiêu chuẩn so với các Code LLM cùng kích thước và thậm chí vượt qua StarCoderBase-15B. StarCoder2-15B hoạt động ngang bằng hoặc tốt hơn CodeLlama-34B, một mô hình gấp đôi kích thước của nó, và vượt trội hơn các thiết bị cùng kích thước.
Bài báo: https://arxiv.org/abs/2402.19173
Dự án HF: https://huggingface.co/bigcode
Mixtral
Mistral AI đã phát hành Mixtral 8x7B, một hỗn hợp thưa thớt của các mô hình chuyên gia (SMoE) với trọng số mở và giấy phép Apache 2.0. Mixtral nổi bật bằng cách cung cấp tốc độ suy luận nhanh gấp sáu lần và vượt trội hơn Llama 2 70B trên hầu hết các tiêu chuẩn đánh giá. Nó cung cấp các lựa chọn hiệu suất/chi phí tốt nhất trong ngành và là mô hình trọng số mở hàng đầu với giấy phép linh hoạt. Mixtral vượt trội hơn GPT3.5 trên nhiều tiêu chuẩn đánh giá thông thường, tái khẳng định vị thế hàng đầu của nó trong lĩnh vực.
Mixtral hỗ trợ tiếng Anh, tiếng Pháp, tiếng Ý, tiếng Đức và tiếng Tây Ban Nha, và xử lý các ngữ cảnh lên đến 32k token một cách dễ dàng. Sự hữu ích của nó được tăng cường thêm bởi việc nó thể hiện sự thành thạo xuất sắc trong các nhiệm vụ tạo mã. Mixtral cũng có thể được tối ưu hóa để trở thành một mô hình tuân thủ theo hướng dẫn, như được thể hiện qua điểm đánh giá cao 8.3 MT-Bench của nó.
Dự án HF: https://huggingface.co/mistralai/Mixtral-8x7B-v0.1