Tác giả: Alex McFarland và Antoine Tardif
Ngày 23 tháng 1 năm 2024
Trong thế giới ngày càng phát triển của trí tuệ nhân tạo (AI), các Mô hình Ngôn ngữ Lớn (LLMs) đã nổi lên như một nguồn cảm hứng, thúc đẩy sự đổi mới và tái tạo cách chúng ta tương tác với công nghệ.
Khi những mô hình này trở nên ngày càng phức tạp, có một sự tăng cường về việc phổ cập truy cập đến chúng. Các mô hình nguồn mở, đặc biệt là, đang đóng một vai trò then chốt trong quá trình phổ cập hóa này, mang lại cơ hội cho các nhà nghiên cứu, nhà phát triển, và người hâm mộ có cơ hội đào sâu vào sự phức tạp của chúng, điều chỉnh chúng cho các nhiệm vụ cụ thể, hoặc thậm chí xây dựng trên cơ sở của chúng.
Trong bài viết này, chúng ta sẽ khám phá một số LLM nguồn mở hàng đầu đang tạo nên sóng gió trong cộng đồng AI, mỗi mô hình mang đến những ưu điểm và khả năng đặc biệt của mình.
1. Llama 2
Hiểu về Llama 2: Tất cả những gì bạn cần để bắt đầu xây dựng Llama 2 của Meta là một bước tiến đột phá trong danh mục mô hình AI của họ. Đây không chỉ là một mô hình khác; nó được thiết kế để đẩy mạnh một loạt các ứng dụng hiện đại. Dữ liệu đào tạo của Llama 2 rộng lớn và đa dạng, làm cho nó tiến bộ đáng kể so với người tiền nhiệm của nó. Sự đa dạng trong quá trình đào tạo đảm bảo rằng Llama 2 không chỉ là một cải tiến tăng dần mà là một bước đột phá hướng tới tương lai của tương tác do trí tuệ nhân tạo thúc đẩy.
Sự hợp tác giữa Meta và Microsoft đã mở rộng tầm nhìn cho Llama 2. Mô hình nguồn mở hiện được hỗ trợ trên các nền tảng như Azure và Windows, nhằm cung cấp cho nhà phát triển và tổ chức các công cụ để tạo ra trải nghiệm do trí tuệ nhân tạo tạo ra. Đối tác này nhấn mạnh sự cam kết của cả hai công ty trong việc làm cho AI trở nên dễ tiếp cận và mở cửa cho tất cả mọi người.
Llama 2 không chỉ là một phiên bản kế nhiệm của mô hình Llama ban đầu; nó đại diện cho một sự chuyển đổi mô hình trong lĩnh vực chatbot. Trong khi mô hình Llama đầu tiên là một cuộc cách mạng trong việc tạo ra văn bản và mã, sự sẵn có của nó đã bị hạn chế để ngăn chặn việc sử dụng sai lạc. Ngược lại, Llama 2 được thiết kế để đến với một độc giả rộng lớn hơn. Nó được tối ưu hóa cho các nền tảng như AWS, Azure và nền tảng lưu trữ mô hình AI của Hugging Face. Hơn nữa, với sự hợp tác giữa Meta và Microsoft, Llama 2 sẽ ghi dấu ấn của mình không chỉ trên Windows mà còn trên các thiết bị chạy trên hệ thống-on-chip Snapdragon của Qualcomm.
An toàn là tâm điểm trong thiết kế của Llama 2. Nhận ra những thách thức mà các mô hình ngôn ngữ lớn trước đó như GPT đã đối mặt, đôi khi tạo ra nội dung đánh lừa hoặc có hại, Meta đã thực hiện các biện pháp cẩn thận để đảm bảo tính đáng tin cậy của Llama 2. Mô hình đã trải qua quá trình đào tạo nghiêm túc để giảm thiểu ‘ảo tưởng’, thông tin sai lạc và độ chệch.
Các Tính Năng Nổi Bật của LLaMa 2:
- Dữ Liệu Đào Tạo Đa Dạng: Dữ liệu đào tạo của Llama 2 không chỉ rộng lớn mà còn đa dạng, đảm bảo hiểu biết và hiệu suất toàn diện.
- Hợp Tác với Microsoft: Llama 2 được hỗ trợ trên các nền tảng như Azure và Windows, mở rộng phạm vi ứng dụng của nó.
- Sẵn Có Mở Rộng: Khác với người tiền nhiệm, Llama 2 có sẵn cho một độc giả rộng lớn hơn, sẵn sàng được điều chỉnh tinh chỉnh trên nhiều nền tảng.
- Thiết Kế Tập Trung An Toàn: Meta đã nhấn mạnh về an toàn, đảm bảo rằng Llama 2 tạo ra kết quả chính xác và đáng tin cậy đồng thời giảm thiểu các đầu ra có hại.
- Phiên Bản Tối Ưu Hóa: Llama 2 có hai phiên bản chính – Llama 2 và Llama 2-Chat, trong đó phiên bản sau được thiết kế đặc biệt cho các cuộc trò chuyện hai chiều. Các phiên bản này có độ phức tạp từ 7 tỷ đến 70 tỷ tham số.
- Đào Tạo Nâng Cao: Llama 2 đã được đào tạo trên hai triệu token, tăng đáng kể so với 1,4 nghìn tỷ token của Llama gốc.
2. Bloom
Năm 2022, sau một nỗ lực hợp tác toàn cầu với sự tham gia của tình nguyện viên từ hơn 70 quốc gia và các chuyên gia từ Hugging Face, dự án BLOOM đã được tiết lộ. Mô hình ngôn ngữ lớn (LLM) này, được tạo ra thông qua một sáng tạo kéo dài một năm, được thiết kế để tạo văn bản tự động theo dạng chéo, có khả năng mở rộng một đoạn văn bản đã cho. Nó đã được đào tạo trên một nguồn dữ liệu văn bản lớn sử dụng sức mạnh tính toán lớn.
Sự xuất hiện của BLOOM là một bước tiến quan trọng trong việc làm cho công nghệ trí tuệ nhân tạo sinh sáng trở nên dễ tiếp cận hơn. Là một LLM nguồn mở, nó sở hữu 176 tỷ tham số, biến nó thành một trong những mô hình đáng kể nhất trong phân khúc của mình. BLOOM có khả năng tạo ra văn bản mạch lạc và chính xác trên 46 ngôn ngữ và 13 ngôn ngữ lập trình.
Dự án nhấn mạnh tính minh bạch, cho phép người dùng truy cập vào mã nguồn và dữ liệu đào tạo của nó. Sự mở cửa này mời gọi sự kiểm tra, sử dụng và cải tiến liên tục cho mô hình.
Miễn phí thông qua nền tảng Hugging Face, BLOOM đứng là một minh chứng cho sự đổi mới hợp tác trong lĩnh vực trí tuệ nhân tạo.
Các Tính Năng Nổi Bật của Bloom:
- Khả Năng Đa Ngôn Ngữ: BLOOM có khả năng tạo văn bản trên 46 ngôn ngữ và 13 ngôn ngữ lập trình, thể hiện sự đa dạng ngôn ngữ rộng lớn.
- Truy Cập Nguồn Mở: Mã nguồn và dữ liệu đào tạo của mô hình đều công khai, khuyến khích tính minh bạch và sự cải tiến cộng tác.
- Tạo Văn Bản Theo Chiều Chéo Tự Động: Được thiết kế để tiếp tục văn bản từ một đầu vào cho trước, BLOOM xuất sắc trong việc mở rộng và hoàn thiện các chuỗi văn bản.
- Số Lượng Tham Số Khổng Lồ: Với 176 tỷ tham số, BLOOM đứng là một trong những mô hình LLM nguồn mở mạnh mẽ nhất hiện nay.
- Hợp Tác Toàn Cầu: Được phát triển qua dự án kéo dài một năm với sự đóng góp từ tình nguyện viên từ hơn 70 quốc gia và các nghiên cứu viên của Hugging Face.
- Truy Cập Miễn Phí: Người dùng có thể truy cập và sử dụng BLOOM miễn phí qua hệ sinh thái của Hugging Face, nâng cao tính dân chủ trong lĩnh vực trí tuệ nhân tạo.
- Đào Tạo Quy Mô Công Nghiệp: Mô hình được đào tạo trên lượng lớn dữ liệu văn bản bằng cách sử dụng tài nguyên tính toán đáng kể, đảm bảo hiệu suất mạnh mẽ.
3. MPT-7B
MPT-7B – Mô Hình LLaMA Đầu Tiên Có Thể Sử Dụng Thương Mại Hoàn Toàn Được Huấn Luyện MosaicML Foundations đã đóng góp đáng kể vào lĩnh vực này với sự giới thiệu của MPT-7B, mô hình LLM nguồn mở mới nhất của họ. MPT-7B, viết tắt của MosaicML Pretrained Transformer, là một mô hình biến đổi kiểu GPT, chỉ có bộ giải mã. Mô hình này có nhiều cải tiến, bao gồm việc tối ưu hóa hiệu suất các tầng và thay đổi kiến trúc để đảm bảo tính ổn định hơn trong quá trình đào tạo.
Một tính năng nổi bật của MPT-7B là quá trình đào tạo trên một bộ dữ liệu mở rộng gồm 1 nghìn tỷ token văn bản và mã nguồn. Quá trình đào tạo chặt chẽ này đã được thực hiện trên nền tảng MosaicML trong khoảng 9,5 ngày.
Tính nguồn mở của MPT-7B đặt nó làm một công cụ quý giá cho các ứng dụng thương mại. Nó có khả năng ảnh hưởng đáng kể đến phân tích dự đoán và quyết định của doanh nghiệp và tổ chức.
Ngoài mô hình cơ bản, MosaicML Foundations cũng phát hành các mô hình chuyên biệt được tùy chỉnh cho các nhiệm vụ cụ thể, như MPT-7B-Instruct cho theo dõi hướng dẫn ngắn, MPT-7B-Chat cho tạo ra đối thoại, và MPT-7B-StoryWriter-65k+ cho tạo ra câu chuyện dài.
Hành trình phát triển của MPT-7B là toàn diện, với đội ngũ MosaicML quản lý tất cả các giai đoạn từ chuẩn bị dữ liệu đến triển khai trong vài tuần. Dữ liệu được lấy từ các kho dữ liệu đa dạng, và đội ngũ sử dụng các công cụ như GPT-NeoX của EleutherAI và bộ mã hóa 20B để đảm bảo sự đa dạng và toàn diện trong quá trình đào tạo.
Tổng Quan về Các Tính Năng Chính của MPT-7B:
- Bản Quyền Thương Mại: MPT-7B có bản quyền sử dụng cho mục đích thương mại, biến nó thành một tài sản quý giá cho doanh nghiệp.
- Dữ Liệu Đào Tạo Đa Dạng: Mô hình được đào tạo trên một bộ dữ liệu rộng lớn gồm 1 nghìn tỷ token.
- Xử Lý Đầu Vào Dài: MPT-7B được thiết kế để xử lý đầu vào vô cùng dài mà không làm suy giảm chất lượng.
- Tốc Độ và Hiệu Quả: Mô hình được tối ưu hóa cho quá trình đào tạo và suy luận nhanh chóng, đảm bảo kết quả đúng đắn đúng thời điểm.
- Mã Nguồn Mở: MPT-7B đi kèm với mã nguồn đào tạo nguồn mở hiệu quả, khuyến khích tính minh bạch và sự thuận tiện trong việc sử dụng.
- Sự Xuất Sắc So Sánh: MPT-7B đã thể hiện sự ưu việt so với các mô hình nguồn mở khác trong phạm vi 7B-20B, với chất lượng tương đương với LLaMA-7B.
4. Falcon
Triển khai FALCON-180B Ngay Lập Tức! Mô Hình Trí Tuệ Nhân Tạo Mở Nguồn Mới #1 Falcon LLM là một mô hình đã nhanh chóng vươn lên đỉnh của hệ thống các mô hình LLM. Cụ thể, Falcon LLM, đặc biệt là Falcon-40B, là một mô hình LLM cơ bản trang bị 40 tỷ tham số và đã được đào tạo trên một nghìn tỷ token ấn tượng. Nó hoạt động như một mô hình giải mã chỉ có bộ giải mã tự động, điều này đồng nghĩa với việc nó dự đoán token tiếp theo trong một chuỗi dựa trên các token trước đó. Kiến trúc này gợi nhớ đến mô hình GPT. Đáng chú ý, kiến trúc của Falcon đã thể hiện hiệu suất vượt trội so với GPT-3, đạt được điều này chỉ với 75% ngân sách tính toán đào tạo và yêu cầu ít tính toán hơn nhiều trong quá trình suy luận.
Đội ngũ tại Viện Đổi Mới Công Nghệ đã đặc biệt chú trọng đến chất lượng dữ liệu trong quá trình phát triển Falcon. Nhận ra tính nhạy cảm của các LLM đối với chất lượng dữ liệu đào tạo, họ xây dựng một đường ống dữ liệu mà quy mô lên đến hàng ngàn lõi CPU. Điều này cho phép xử lý nhanh chóng và trích xuất nội dung chất lượng cao từ web, đạt được thông qua các quy trình lọc và loại bỏ trùng lặp mở rộng.
Ngoài Falcon-40B, TII cũng giới thiệu các phiên bản khác, bao gồm Falcon-7B, có 7 tỷ tham số và đã được đào tạo trên 1,500 tỷ token. Cũng có các mô hình chuyên biệt như Falcon-40B-Instruct và Falcon-7B-Instruct, được tùy chỉnh cho các nhiệm vụ cụ thể.
Quá trình đào tạo Falcon-40B là một quá trình toàn diện. Mô hình được đào tạo trên tập dữ liệu RefinedWeb, một tập dữ liệu web tiếng Anh lớn được xây dựng bởi TII. Tập dữ liệu này được xây dựng trên nền tảng CommonCrawl và đã trải qua quá trình lọc kỹ lưỡng để đảm bảo chất lượng. Sau khi mô hình được chuẩn bị, nó đã được kiểm tra đối với nhiều bộ kiểm thử nguồn mở, bao gồm EAI Harness, HELM và BigBench.
Tổng Quan về Các Tính Năng Chính của Falcon LLM:
- Tham Số Phong Phú: Falcon-40B được trang bị 40 tỷ tham số, đảm bảo học tập và hiệu suất toàn diện.
- Mô Hình Giải Mã Tự Động Chỉ Có Bộ Giải Mã: Kiến trúc này cho phép Falcon dự đoán các token tiếp theo dựa trên những token trước đó, tương tự như mô hình GPT.
- Hiệu Suất Vượt Trội: Falcon vượt trội so với GPT-3 trong khi chỉ sử dụng 75% ngân sách tính toán đào tạo.
- Đường Ống Dữ Liệu Chất Lượng Cao: Đường ống dữ liệu của TII đảm bảo trích xuất nội dung chất lượng cao từ web, quan trọng cho quá trình đào tạo của mô hình.
- Đa Dạng Các Mô Hình: Ngoài Falcon-40B, TII còn cung cấp Falcon-7B và các mô hình chuyên biệt như Falcon-40B-Instruct và Falcon-7B-Instruct.
- Sẵn Có Nguồn Mở: Falcon LLM đã được mở nguồn, thúc đẩy tính khả dụng và tính bao gồm trong lĩnh vực Trí tuệ Nhân tạo.
5. Vicuna-13B
Chạy Vicuna-13B Trên Máy Tính Cục Bộ Của Bạn 🤯 | Hướng Dẫn (GPU) LMSYS ORG đã tạo nên dấu ấn đáng kể trong lĩnh vực các mô hình LLM nguồn mở với sự giới thiệu của Vicuna-13B. Chatbot nguồn mở này đã được đào tạo một cách tỉ mỉ thông qua việc tinh chỉnh LLaMA trên các cuộc trò chuyện do người dùng chia sẻ từ ShareGPT. Các đánh giá sơ bộ, với GPT-4 làm thẩm định, cho thấy rằng Vicuna-13B đạt hơn 90% chất lượng so với các mô hình nổi tiếng như OpenAI ChatGPT và Google Bard.
Đặc biệt, Vicuna-13B vượt trội hơn so với các mô hình đáng chú ý khác như LLaMA và Stanford Alpaca trong hơn 90% trường hợp. Toàn bộ quá trình đào tạo cho Vicuna-13B đã được thực hiện với chi phí khoảng $300. Đối với những người quan tâm đến khám phá khả năng của nó, mã nguồn, trọng số và một bản demo trực tuyến đã được công bố để sử dụng cho mục đích không thương mại.
Mô hình Vicuna-13B đã được điều chỉnh tốt với 70 nghìn cuộc trò chuyện do người dùng chia sẻ từ ChatGPT, giúp nó tạo ra các phản hồi chi tiết và có cấu trúc tốt hơn. Chất lượng của những phản hồi này có thể so sánh được với ChatGPT. Tuy nhiên, đánh giá chatbot là một công việc phức tạp. Với sự tiến bộ của GPT-4, có sự tò mò ngày càng tăng về khả năng của nó trong việc phục vụ như một hệ thống đánh giá tự động cho việc tạo bảng đánh giá và đánh giá hiệu suất. Các kết quả ban đầu cho thấy rằng GPT-4 có thể tạo ra xếp hạng nhất quán và đánh giá chi tiết khi so sánh các phản hồi của chatbot. Đánh giá sơ bộ dựa trên GPT-4 cho thấy rằng Vicuna đạt được khả năng 90% so với các mô hình như Bard/ChatGPT.
Tổng Quan về Các Tính Năng Chính của Vicuna-13B:
- Tính Nguồn Mở: Vicuna-13B có sẵn cho việc truy cập công khai, khuyến khích tính minh bạch và sự tham gia của cộng đồng.
- Dữ Liệu Đào Tạo Đa Dạng: Mô hình đã được đào tạo trên 70 nghìn cuộc trò chuyện do người dùng chia sẻ, đảm bảo sự hiểu biết toàn diện về các tương tác đa dạng.
- Hiệu Suất Cạnh Tranh: Hiệu suất của Vicuna-13B tương đương với các nhà lãnh đạo ngành như ChatGPT và Google Bard.
- Đào Tạo Hiệu Quả Chi Phí: Toàn bộ quá trình đào tạo cho Vicuna-13B đã được thực hiện với chi phí thấp, khoảng $300.
- Tinh Chỉnh trên LLaMA: Mô hình đã được tinh chỉnh trên LLaMA, đảm bảo hiệu suất và chất lượng phản hồi được cải thiện.
- Sẵn Có Demo Trực Tuyến: Một bản demo trực tuyến tương tác có sẵn để người dùng kiểm thử và trải nghiệm khả năng của Vicuna-13B.
Thế Giới Ngày Càng Mở Rộng của Các Mô Hình Ngôn Ngữ Lớn
Thế giới của Các Mô Hình Ngôn Ngữ Lớn là một lãnh thổ rộng lớn và không ngừng mở rộng, với mỗi mô hình mới đều đẩy ranh giới của những điều có thể thực hiện. Tính nguồn mở của các mô hình LLM được thảo luận trong bài viết này không chỉ thể hiện tinh thần cộng tác của cộng đồng Trí tuệ Nhân tạo mà còn mở đường cho sự đổi mới trong tương lai.
Những mô hình này, từ khả năng ấn tượng của chatbot của Vicuna đến các chỉ số hiệu suất xuất sắc của Falcon, đại diện cho đỉnh cao của công nghệ LLM hiện tại. Khi chúng ta tiếp tục chứng kiến sự tiến bộ nhanh chóng trong lĩnh vực này, rõ ràng các mô hình nguồn mở sẽ đóng một vai trò quan trọng trong việc định hình tương lai của Trí tuệ Nhân tạo.
Dù bạn là một nhà nghiên cứu kỳ cựu, một người đam mê Trí tuệ Nhân tạo mới nổi, hay một người tò mò về tiềm năng của những mô hình này, không có thời điểm nào tốt hơn để bắt đầu và khám phá những khả năng rộng lớn mà chúng mang lại.