Tác giả: Tiến sĩ Tehseen Zia
ngày 21 tháng 4 năm 2024
Trong lĩnh vực trí tuệ nhân tạo tạo ra, Meta tiếp tục dẫn đầu với cam kết về sự sẵn có của mã nguồn mở, phân phối dòng mô hình ngôn ngữ lớn tiên tiến Meta AI (Llama) toàn cầu cho các nhà phát triển và nhà nghiên cứu. Xây dựng trên các sáng kiến tiên tiến của mình, Meta gần đây đã giới thiệu phiên bản thứ ba của dòng này, Llama 3. Phiên bản mới này cải thiện đáng kể so với Llama 2, cung cấp nhiều cải tiến và đặt ra các tiêu chuẩn thách thức các đối thủ trong ngành như Google, Mistral và Anthropic. Bài viết này khám phá các tiến bộ đáng kể của Llama 3 và cách nó so sánh với phiên bản tiền nhiệm của nó, Llama 2.
Dòng Sản Phẩm Llama của Meta: Từ Độc Quyền đến Truy Cập Mở và Hiệu Suất Cải Thiện
Meta bắt đầu dòng sản phẩm Llama của mình vào năm 2022 với việc ra mắt Llama 1, một mô hình được giới hạn trong việc sử dụng phi thương mại và chỉ có sẵn cho các tổ chức nghiên cứu được lựa chọn do yêu cầu tính toán lớn và bản chất sở hữu mà đặc trưng cho các mô hình ngôn ngữ lớn tiên tiến vào thời điểm đó. Vào năm 2023, với việc triển khai của Llama 2, Meta AI chuyển sang một sự mở cửa lớn hơn, cung cấp mô hình một cách miễn phí cho cả mục đích nghiên cứu và thương mại. Bước đi này được thiết kế để làm cho việc tiếp cận công nghệ trí tuệ nhân tạo tạo ra phức tạp trở nên dễ dàng hơn, cho phép một loạt rộng lớn các người dùng, bao gồm các công ty khởi nghiệp và các nhóm nghiên cứu nhỏ hơn, đổi mới và phát triển ứng dụng mà không phải chịu chi phí lớn thường được liên kết với các mô hình quy mô lớn. Tiếp tục xu hướng này về sự mở cửa, Meta đã giới thiệu Llama 3, tập trung vào việc cải thiện hiệu suất của các mô hình nhỏ hơn trên các tiêu chuẩn công nghiệp khác nhau.
Giới Thiệu Llama 3
Llama 3 là thế hệ thứ hai của các mô hình ngôn ngữ lớn (LLM) mã nguồn mở của Meta, có cả các mô hình được huấn luyện trước và được điều chỉnh chỉ dẫn với 8 tỷ và 70 tỷ tham số. Phù hợp với các tiền nhiệm của nó, Llama 3 sử dụng kiến trúc transformer chỉ có bộ giải mã và tiếp tục thực hành huấn luyện tự học, tự chủ để dự đoán các token tiếp theo trong các chuỗi văn bản. Llama 3 được huấn luyện trước trên một bộ dữ liệu lớn gấp bảy lần so với bộ dữ liệu được sử dụng cho Llama 2, bao gồm hơn 15 nghìn tỷ token được lựa chọn từ một mix mới được chọn lọc của dữ liệu trực tuyến có sẵn công khai. Bộ dữ liệu rộng lớn này được xử lý bằng cách sử dụng hai cụm trang bị với 24,000 GPU. Để duy trì chất lượng cao của dữ liệu huấn luyện này, một loạt các kỹ thuật trí tuệ nhân tạo tập trung vào dữ liệu đã được sử dụng, bao gồm bộ lọc heuristics và NSFW, gộp trùng ngữ nghĩa và phân loại chất lượng văn bản. Được tùy chỉnh cho các ứng dụng đối thoại, mô hình Llama 3 Instruct đã được cải thiện đáng kể, tích hợp hơn 10 triệu mẫu dữ liệu được đánh dấu bởi con người và tận dụng một mix phức tạp các phương pháp huấn luyện như điều chỉnh fine-tuning có giám sát (SFT), lấy mẫu từ chối, tối ưu hóa chính sách gần (PPO), và tối ưu hóa chính sách trực tiếp (DPO).
Llama 3 so với Llama 2: Các Cải Tiến Chính
Llama 3 mang đến một số cải tiến so với Llama 2, đẩy mạnh đáng kể tính năng và hiệu suất của nó:
- Mở rộng Từ Vựng: Llama 3 đã tăng từ vựng lên 128,256 token, tăng từ 32,000 token của Llama 2. Cải tiến này hỗ trợ mã hóa văn bản hiệu quả hơn cho cả đầu vào và đầu ra và tăng cường khả năng đa ngôn ngữ của nó.
- Mở Rộng Chiều Dài Bối Cảnh: Các mô hình Llama 3 cung cấp một chiều dài bối cảnh của 8,000 token, gấp đôi 4,090 token được hỗ trợ bởi Llama 2. Sự tăng này cho phép xử lý nội dung mở rộng hơn, bao gồm cả yêu cầu của người dùng và phản hồi của mô hình.
- Nâng Cấp Dữ Liệu Huấn Luyện: Bộ dữ liệu huấn luyện cho Llama 3 lớn gấp bảy lần so với Llama 2, bao gồm bốn lần mã hóa nhiều hơn. Nó chứa hơn 5% dữ liệu chất lượng cao, không phải tiếng Anh, bao gồm hơn 30 ngôn ngữ, điều quan trọng cho việc hỗ trợ ứng dụng đa ngôn ngữ. Dữ liệu này trải qua kiểm soát chất lượng nghiêm ngặt bằng các kỹ thuật tiên tiến như bộ lọc heuristic và NSFW, gộp trùng ngữ nghĩa và bộ phân loại văn bản.
- Tinh Chế Chỉ Dẫn và Đánh Giá: Khác biệt so với Llama 2, Llama 3 sử dụng các kỹ thuật tinh chỉnh chỉ dẫn tiên tiến, bao gồm điều chỉnh fine-tuning có giám sát (SFT), lấy mẫu từ chối, tối ưu hóa chính sách gần (PPO), và tối ưu hóa chính sách trực tiếp (DPO). Để tăng cường quá trình này, một tập dữ liệu đánh giá con người chất lượng cao mới đã được giới thiệu, bao gồm 1,800 yêu cầu bao quát các trường hợp sử dụng đa dạng như tư vấn, ý tưởng, phân loại, lập trình, và nhiều hơn nữa, đảm bảo đánh giá toàn diện và điều chỉnh tinh tế các khả năng của mô hình.
- An Toàn Trí Tuệ Nhân Tạo Tiên Tiến: Llama 3, giống như Llama 2, tích hợp các biện pháp an toàn nghiêm ngặt như điều chỉnh chỉ dẫn và đội ngũ kiểm tra chi tiết để giảm thiểu các rủi ro, đặc biệt là trong các lĩnh vực quan trọng như an ninh mạng và mối đe dọa sinh học. Nhằm hỗ trợ cho những nỗ lực này, Meta cũng đã giới thiệu Llama Guard 2, được điều chỉnh tinh chỉnh trên phiên bản 8B của Llama 3. Mô hình mới này cải thiện dòng sản phẩm Llama Guard bằng cách phân loại đầu vào và phản hồi của LLM để xác định nội dung có thể không an toàn, làm cho nó lý tưởng cho môi trường sản xuất.
Sự Sẵn Có của Llama 3
Các mô hình Llama 3 hiện đã được tích hợp vào hệ sinh thái của Hugging Face, nâng cao tính sẵn có cho các nhà phát triển. Các mô hình cũng có sẵn thông qua các nền tảng model-as-a-service như Perplexity Labs và Fireworks.ai, và trên các nền tảng đám mây như AWS SageMaker, Azure ML, và Vertex AI. Meta có kế hoạch mở rộng sự sẵn có của Llama 3 hơn nữa, bao gồm các nền tảng như Google Cloud, Kaggle, IBM WatsonX, NVIDIA NIM, và Snowflake. Ngoài ra, hỗ trợ phần cứng cho Llama 3 sẽ được mở rộng để bao gồm các nền tảng từ AMD, AWS, Dell, Intel, NVIDIA, và Qualcomm.
Các Cải Tiến Sắp Tới trong Llama 3
Meta đã tiết lộ rằng phiên bản hiện tại của Llama 3 chỉ là giai đoạn ban đầu trong tầm nhìn rộng lớn của họ cho phiên bản đầy đủ của Llama 3. Họ đang phát triển một mô hình tiên tiến với hơn 400 tỷ tham số sẽ giới thiệu các tính năng mới, bao gồm đa dạng hình ảnh và khả năng xử lý nhiều ngôn ngữ. Phiên bản nâng cao này cũng sẽ có một cửa sổ bối cảnh mở rộng đáng kể và khả năng hiệu suất tổng thể được cải thiện.
Kết Luận
Llama 3 của Meta đánh dấu một bước tiến quan trọng trong cảnh quan của các mô hình ngôn ngữ lớn, đẩy dòng sản phẩm không chỉ đến mức độ sẵn có mã nguồn mở rộng hơn mà còn cải thiện đáng kể khả năng hiệu suất của nó. Với một bộ dữ liệu huấn luyện lớn gấp bảy lần so với tiền nhiệm của nó và các tính năng như từ vựng mở rộng và tăng chiều dài bối cảnh, Llama 3 đặt ra các tiêu chuẩn mới thách thức thậm chí cả các đối thủ mạnh nhất trong ngành.
Phiên bản thứ ba này không chỉ tiếp tục làm cho công nghệ trí tuệ nhân tạo dân chủ hóa bằng cách làm cho các khả năng cấp cao có sẵn cho một phổ rộng hơn các nhà phát triển mà còn giới thiệu các tiến bộ đáng kể trong an toàn và độ chính xác huấn luyện. Bằng cách tích hợp các mô hình này vào các nền tảng như Hugging Face và mở rộng sự sẵn có thông qua các dịch vụ đám mây lớn, Meta đang đảm bảo rằng Llama 3 được phổ biến như nó mạnh mẽ.
Nhìn vào tương lai, sự phát triển liên tục của Meta hứa hẹn những khả năng mạnh mẽ hơn, bao gồm đa dạng hình ảnh và hỗ trợ ngôn ngữ mở rộng, mở đường cho Llama 3 không chỉ cạnh tranh mà còn có thể vượt qua các mô hình trí tuệ nhân tạo lớn khác trên thị trường. Llama 3 là minh chứng cho cam kết của Meta trong việc dẫn đầu cách mạng trí tuệ nhân tạo, cung cấp các công cụ không chỉ dễ truy cập hơn mà còn đáng kể tiên tiến và an toàn hơn cho một cơ sở người dùng toàn cầu.