Tác giả: Shyam Nandan Upadhyay
Tại sự kiện Inspire của Microsoft, Meta và Microsoft đã ra mắt Llama 2, phiên bản mới nhất của LLM nổi tiếng của họ, LLaMa, mã nguồn mở. Nó được cải tiến với nhiều cải tiến nhằm nâng cao hiệu suất và đảm bảo an toàn. Đáng chú ý, Llama 2 giới thiệu các mô hình có 7B, 13B và 70B tham số đã được tiền huấn luyện và điều chỉnh, cung cấp một lượng dữ liệu tiền huấn luyện đáng kể và tận dụng GQA để nâng cao khả năng suy luận.
Phiên bản Llama 2 được phát hành cho cả nghiên cứu và sử dụng thương mại, có thể truy cập trên các nền tảng như Microsoft Azure và Amazon SageMaker. Nó cũng tương thích với các nền tảng Windows như Subsystem for Linux (WSL), Windows terminal, Microsoft Visual Studio và VS Code.
Mô hình đã trải qua quá trình tối ưu tỉ mỉ cho mục đích giao tiếp, từ đó tạo ra các mô hình Llama 2-Chat được điều chỉnh tinh vi, thiết lập các tiêu chuẩn mới trong lĩnh vực xử lý và hiểu ngôn ngữ. Việc hợp tác giữa Meta và nhiều công ty khác, bao gồm Amazon, HuggingFace, NVIDIA, Qualcomm, IBM, Zoom, Dropbox, cùng các nhà lãnh đạo trong lĩnh vực học thuật, nhấn mạnh tầm quan trọng của phần mềm mã nguồn mở.
Dưới đây là một số mô hình đã được xây dựng dựa trên LLaMa-2 và có thể được sử dụng để truy cập các ưu đãi mới nhất của Meta:
Perplexity
Perplexity.ai là một nền tảng chatbot độc đáo có cách tiếp cận giống như một công cụ tìm kiếm. Nó lùng sục trên internet để tìm câu trả lời cho các truy vấn của người dùng và cung cấp nguồn thông tin cho các câu trả lời mà nó tạo ra. Nền tảng này có một chatbot riêng của họ được gọi là LLaMA, có sẵn tại địa chỉ llama.perplexity.ai, nơi người dùng có thể chuyển đổi giữa mô hình có 13 tỷ tham số và mô hình có 7 tỷ tham số để so sánh kết quả.
Ấn tượng hơn nữa, Perplexity nhanh chóng phát hành một chatbot mới sử dụng mô hình AI Llama 2 của Meta chỉ trong vòng 24 giờ kể từ khi nó được giới thiệu làm mô hình ngôn ngữ mã nguồn mở lớn.
Đây là liên kết đến LLaMa của Perplexity: https://labs.perplexity.ai/
LLaMa Chat, được xây dựng trên Llama 2, hiện đang ở giai đoạn thử nghiệm và chỉ có thể truy cập thông qua http://labs.pplx.ai. Tuy nhiên, tại thời điểm này, nó chưa có sẵn trên các ứng dụng di động của họ.
Một trong những tính năng nổi bật của Perplexity là việc cung cấp độ rộng rãi cho người dùng. Họ cung cấp miễn phí các mô hình Llama 2 với 70 tỷ, 13 tỷ và 7 tỷ tham số, cho phép người dùng thử nghiệm và tận dụng sức mạnh của những mô hình ngôn ngữ lớn này.
Hơn nữa, chatbot có độ dài mã thông báo tối đa là 4096, giúp nó xử lý các đầu vào từ người dùng phức tạp và chi tiết hơn. Điều này đảm bảo chatbot có khả năng cung cấp các câu trả lời chi tiết và thông tin.
Tổng thể, Perplexity.ai trình bày một cách tiếp cận mới mẻ đối với chatbot bằng việc kết hợp khả năng của công cụ tìm kiếm, và việc nhanh chóng chuyển đổi sang mô hình AI Llama 2 của Meta thể hiện cam kết cung cấp công nghệ tiên tiến và truy cập miễn phí cho người dùng để thử nghiệm.
Baby llama
Andrej Karpathy đã đảm nhận nhiệm vụ đầy tham vọng khi thực hiện kiến trúc Llama 2 bằng ngôn ngữ lập trình C, từ bỏ việc sử dụng phổ biến GPT-2. Mục tiêu chính là chứng minh khả năng chạy các mô hình ngôn ngữ phức tạp trên các thiết bị có tài nguyên hạn chế thông qua một cài đặt C tối giản. Đáng ngạc nhiên, mô hình đã đạt được tốc độ suy luận ấn tượng, thậm chí trên các thiết bị có tài nguyên tính toán hạn chế.
Đây là trang Github: https://github.com/karpathy/llama2.c
Để đạt được điều này, Karpathy đã sử dụng mô hình nanoGPT làm điểm khởi đầu và phát triển mô hình Llama 2 với khoảng 15 triệu tham số. Đáng chú ý, cài đặt C của mô hình này đã đạt được tốc độ suy luận khoảng 100 mã thông báo mỗi giây trên M1 MacBook Air, chứng tỏ khả năng chạy các mô hình phức tạp trên các thiết bị mà không cần GPU mạnh.
Phương pháp Baby Llama bao gồm việc huấn luyện kiến trúc Llama 2 LLM từ đầu bằng PyTorch. Sau đó, Karpathy đã viết một mã C ngắn gọn, mang tựa đề “run.c”, chuyên dùng để thực hiện suy luận. Nhấn mạnh vào việc duy trì một lượng bộ nhớ thấp và tránh việc sử dụng các thư viện bên ngoài. Phương pháp hiệu quả này cho phép mô hình được thực thi một cách hiệu quả trên một laptop M1 duy nhất mà không phụ thuộc vào GPU. Karpathy cũng khám phá việc sử dụng nhiều cờ biên dịch để tối ưu hóa mã C để đạt hiệu suất tốt hơn.
Điều này làm nổi bật tiềm năng lớn lao của việc tận dụng mã C để chạy các mô hình ngôn ngữ phức tạp trên các thiết bị có tài nguyên hạn chế, một lĩnh vực không phải truyền thống liên quan đến các ứng dụng học máy.
Poe
Poe, một nền tảng chatbot, gần đây đã thêm hỗ trợ cho một số mô hình Llama 2, bao gồm Llama-2-70b, Llama-2-13b và Llama-2-7b. Trong số này, Poe khuyến nghị sử dụng Llama-2-70b vì nó cung cấp những câu trả lời chất lượng cao nhất.
Nền tảng này có những tính năng độc đáo khiến nó nổi bật so với những nền tảng khác. Poe có thể là sản phẩm dành cho người dùng duy nhất cho phép sử dụng Llama trên các ứng dụng iOS hoặc Android gốc, tải lên và chia sẻ tệp tin và tiếp tục cuộc trò chuyện một cách mượt mà.
Khác với các nền tảng chatbot khác như ChatGPT hoặc Google Bard, Poe không tạo ra các mô hình ngôn ngữ riêng của mình. Thay vào đó, nó cung cấp cho người dùng quyền truy cập vào các mô hình có sẵn khác nhau. Một số bot chính thức của Poe bao gồm Llama 2, Google PaLM 2, GPT-4, GPT-3.5 Turbo, Claude 1.3 và Claude 2.
Ngoài ra, Poe cung cấp một bot Assistant như mặc định, dựa trên GPT-3.5 Turbo. Người dùng cũng có thể tạo các bot bên thứ ba của riêng họ với các đề xuất tích hợp sẵn để thực hiện các nhiệm vụ cụ thể.
Wizard LM
Các mô hình WizardLM được huấn luyện trên Llama-2 bằng các phương pháp Evol+ hoàn toàn mới. WizardLM-13B-V1.2 đạt được kết quả ấn tượng với điểm số 7.06 trên MT-Bench, 89.17% trên Alpaca Eval và 101.4% trên WizardLM Eval. Các mô hình này hỗ trợ cửa sổ ngữ cảnh 4k và được cấp phép theo các điều khoản tương tự như Llama-2.
Các nhà đóng góp chính hiện đang làm việc trên phiên bản 65B và kế hoạch cung cấp khả năng tiến hóa hướng dẫn tự động cho WizardLM, giúp tiết kiệm chi phí cho việc thích ứng với dữ liệu cụ thể.
Ngoài ra, họ đã phát hành WizardCoder-15B-V1.0, vượt trội hơn so với các mô hình khác trên HumanEval Benchmarks. Mô hình WizardLM-13B-V1.0 cũng đạt vị trí hàng đầu trong các mô hình mã nguồn mở trên AlpacaEval Leaderboard.
So sánh hiệu năng cho thấy rằng các mô hình WizardLM liên tục vượt trội hơn so với các mô hình LLaMa cùng kích thước, đặc biệt là trong các nhiệm vụ cơ sở NLP và tạo mã. Mô hình WizardLM-30B cho thấy kết quả tốt hơn so với Guanaco-65B.
Tổng thể, WizardLM đại diện cho một bước tiến quan trọng trong các mô hình ngôn ngữ lớn, đặc biệt là trong việc làm theo các hướng dẫn phức tạp và đạt được hiệu suất ấn tượng trên nhiều nhiệm vụ khác nhau.
Stable Beluga 2
Stable Beluga 2 là một LLM mã nguồn mở dựa trên mô hình LLaMA 2 70B. Nó thể hiện khả năng lập luận đáng kinh ngạc qua các bài kiểm tra khác nhau. Mô hình được điều chỉnh tinh vi bằng cách sử dụng tập dữ liệu được tạo tổng hợp theo định dạng Alpaca tiêu chuẩn, sử dụng phương pháp Supervised Fine-Tune (SFT). Hiệu suất của nó còn so sánh thuận lợi hơn cả với GPT-3.5 trên một số nhiệm vụ. Các nhà nghiên cứu cho rằng hiệu suất cao được ghi nhận là do phương pháp huấn luyện dữ liệu tổng hợp nghiêm ngặt, làm cho Stable Beluga 2 trở thành một cột mốc quan trọng trong lĩnh vực LLM mã nguồn mở.
Stable Beluga 2 dựa trên Llama2 70B và được điều chỉnh tinh vi trên tập dữ liệu kiểu Orca. Việc sử dụng mô hình bao gồm bắt đầu cuộc trò chuyện bằng cách sử dụng các đoạn mã được cung cấp. Tập dữ liệu huấn luyện cho Stable Beluga 2 là một tập dữ liệu kiểu Orca nội bộ.
Stable Beluga 2 được huấn luyện thông qua các tập dữ liệu fine-tuning được giám sát sử dụng định dạng kiểu (BF16) và được tối ưu hóa với AdamW. Các siêu tham số chi tiết được mô tả cho quy trình huấn luyện.
LunaAI
“Luna AI Llama2 Uncensored” là một mô hình trò chuyện tiên tiến dựa trên Llama2, đã trải qua việc điều chỉnh tinh vi bằng cách sử dụng hơn 40.000 cuộc thảo luận chat dài. Tap, người sáng tạo của Luna AI, đã dẫn dắt quá trình điều chỉnh tinh chỉnh, từ đó tạo ra một mô hình Llama2 7b cải tiến, cạnh tranh hiệu quả với ChatGPT trong các nhiệm vụ khác nhau.
Đây là liên kết đến LunAI: https://huggingface.co/TheBloke/Luna-AI-Llama2-Uncensored-GGML
Những điểm nổi bật của mô hình này là khả năng trả lời mở rộng, có nghĩa là nó có thể tạo ra các câu trả lời chi tiết và toàn diện, tỷ lệ mất thị giác thấp, cho thấy nó tạo ra ít thông tin tưởng tượng hoặc sai lệch, và không có cơ chế kiểm duyệt, đảm bảo giao tiếp mở và không bị hạn chế.
Đối với quá trình huấn luyện mô hình, một máy mạnh mẽ với 8x a100 80GB đã được sử dụng để tiến hành quá trình điều chỉnh tinh chỉnh. Mô hình chủ yếu được đào tạo trên các đầu ra tổng hợp, điều này có nghĩa là dữ liệu huấn luyện được tạo ra thay vì chỉ thu thập từ các cuộc trò chuyện của con người hiện có. Tập dữ liệu tùy chỉnh này được chọn lọc tỉ mỉ từ các nguồn đa dạng và bao gồm nhiều vòng thảo luận giữa con người và trí tuệ nhân tạo.
Redmond-Puffin-13B:
Redmond-Puffin-13B là một mô hình ngôn ngữ tiên phong dựa trên Llama-2 và được điều chỉnh tinh vi bởi Nous Research. Quá trình điều chỉnh tinh chỉnh bao gồm một tập dữ liệu được chế tạo tỉ mỉ chứa 3.000 ví dụ chất lượng cao. Nhiều ví dụ trong số này được thiết kế để tận dụng hoàn toàn khả năng chiều dài ngữ cảnh 4096 của Llama-2. LDJ đã lãnh đạo trong việc huấn luyện mô hình và tổ chức tập dữ liệu, trong khi J-Supha đã đóng góp đáng kể vào việc hình thành tập dữ liệu.
Đây là liên kết đến mô hình: https://huggingface.co/TheBloke/Redmond-Puffin-13B-GGML
Các tài nguyên tính toán cho dự án này được Redmond AI hào phóng tài trợ và Emozilla cung cấp sự trợ giúp quý giá trong các thí nghiệm huấn luyện, giúp giải quyết các vấn đề khác nhau gặp phải trong quá trình. Hơn nữa, Caseus và Teknium được công nhận vì đóng góp của họ trong việc giải quyết các vấn đề cụ thể trong quá trình huấn luyện.
Mô hình có tên là Redmond-Puffin-13B-V1.3, được huấn luyện qua nhiều vòng lặp trên tập dữ liệu 3.000 ví dụ GPT-4 được chọn lọc cẩn thận. Những ví dụ này chủ yếu bao gồm các cuộc trò chuyện mở rộng giữa con người thực và GPT-4, cho phép mô hình nắm bắt hiệu quả ngữ cảnh phức tạp. Ngoài ra, dữ liệu huấn luyện đã được làm phong phú hơn bằng các phần liên quan được trích xuất từ các tập dữ liệu như Physics, Chemistry, Biology và Math của CamelAI.
*Đôi nét về tác giả Shyam: là một nhà báo công nghệ có chuyên môn về chính sách và chính trị, và thể hiện sự quan tâm mãnh liệt trong việc xem xét sự hội tụ của trí tuệ nhân tạo và phân tích dữ liệu trong xã hội. Trong thời gian rảnh rỗi, anh ấy thường thưởng thức anime và leo núi.