Tác giả: Julian Horsey
Ngày 4 tháng 1 năm 2024
Các mô hình trí tuệ nhân tạo đang là nền tảng cơ bản của sự bùng nổ hiện nay trong lĩnh vực trí tuệ nhân tạo đều đang được phát triển liên tục. Trong thế giới động này, các mô hình trí tuệ nhân tạo nhỏ hơn hoặc Mô hình Ngôn ngữ Lớn (LLM) nhỏ gọn đã nổi lên như một xu hướng đáng chú ý. Các mô hình này, bao gồm Deep Seek Coder, TinyLlama và Phi-2 của Microsoft, được thiết kế để vừa hiệu quả vừa linh hoạt, làm cho chúng phù hợp cho nhiều ứng dụng khác nhau. Chúng đặc biệt hấp dẫn vì khả năng chạy trên phần cứng tiêu dùng tiêu chuẩn, mở ra những khả năng cho người dùng cần khả năng xử lý ngôn ngữ tiên tiến mà không gặp các chi phí cao liên quan đến các mô hình lớn, phức tạp hơn.
Deep Seek Coder, với 1.3 tỷ tham số, và F2 của Microsoft, với 2.7 tỷ tham số, đang ở phía trước của phong trào này. Chúng đại diện cho một điểm đặc biệt quan trọng trong thế giới trí tuệ nhân tạo, nơi chúng đủ nhỏ để có thể quản lý nhưng vẫn mạnh mẽ đủ để xử lý các nhiệm vụ đòi hỏi. Sự cân bằng này quan trọng đối với những người muốn tận dụng công nghệ trí tuệ nhân tạo mà không cần đầu tư vào cơ sở hạ tầng đắt đỏ.
Một trong những lợi ích chính của các LLM nhỏ gọn này là khả năng tùy chỉnh cho các nhiệm vụ cụ thể. Các kỹ thuật như tinh chỉnh thấp hạng, hoặc Lora, đóng vai trò quan trọng trong quá trình này. Chúng cho phép người dùng điều chỉnh mô hình theo yêu cầu đặc biệt của họ trong khi vẫn giữ số lượng tham số có thể đào tạo ở mức tương đối thấp. Điều này có nghĩa là bạn có thể đạt được hiệu suất cao mà không cần đến nguồn lực tính toán mở rộng mà các mô hình lớn đòi hỏi.
Khi đến các nhiệm vụ cụ thể như gọi hàm, các LLM nhỏ gọn có thể rất thành thạo. Tuy nhiên, chúng không thiếu những thách thức của riêng mình. Ví dụ, mô hình tùy chỉnh Tris Tiny, cũng có 1.3 tỷ tham số, cho thấy rằng trong khi những mô hình này có thể xử lý việc gọi hàm, chúng có thể gặp khó khăn khi thực hiện các hoạt động phức tạp hơn như gọi hàm chuỗi. Hơn nữa, những mô hình này thường có xu hướng tạo ra các phản ứng dài dòng, điều này có thể không lý tưởng trong mọi tình huống.
Một yếu tố khác có thể ảnh hưởng đến hiệu suất của các LLM nhỏ gọn là việc định lượng, đặc biệt là trong các nhiệm vụ liên quan đến việc gọi hàm. Khi các mô hình Open Chat chịu ảnh hưởng của các cấp độ định lượng khác nhau, chúng thể hiện các mức độ hiệu quả và độ chính xác khác nhau. Việc tìm ra sự cân bằng phù hợp là quan trọng để đảm bảo rằng mô hình vẫn đồng thời nhạy và chính xác.
Mặc dù có những thách thức này, các LLM nhỏ gọn vẫn là một lựa chọn khả thi cho nhiều ứng dụng. Để tận dụng tối đa từ những mô hình này, việc sử dụng các kỹ thuật tinh chỉnh và suy luận hiệu quả là quan trọng. Điều này bao gồm việc điều chỉnh số lượng tham số có thể đào tạo và sử dụng văn bản hỗ trợ để hướng dẫn các phản ứng của mô hình, giúp đảm bảo rằng kết quả đầu ra là liên quan và ngắn gọn.
Việc chọn lựa LLM nhỏ gọn phù hợp cho dự án của bạn là một quyết định quan trọng. Cho dù bạn chọn Deep Seek Coder, Tiny Llama hay F2 của Microsoft, hiểu rõ về khả năng của chúng và cách điều chỉnh chúng là quan trọng. Với một cách tiếp cận cẩn thận, những LLM nhỏ gọn này có thể cung cấp các công cụ xử lý ngôn ngữ hiệu quả và mạnh mẽ, trở thành các thành phần không thể thiếu trong bộ công cụ trí tuệ nhân tạo của bạn.
1. Microsoft’s Phi-2
Phi-2 là một mô hình Transformer với 2.7 tỷ tham số. Nó được đào tạo bằng cách sử dụng các nguồn dữ liệu giống như Phi-1.5, được bổ sung thêm một nguồn dữ liệu mới bao gồm các văn bản tổng hợp NLP và các trang web được lọc (đảm bảo an toàn và giá trị giáo dục). Khi được đánh giá trên các bài kiểm tra đánh giá khả năng hiểu biết thông thường, hiểu ngôn ngữ và lập luận hợp lý, Phi-2 đã thể hiện hiệu suất gần như tối ưu trong số các mô hình có ít hơn 13 tỷ tham số.
2. Trelis Tiny
Trelis Tiny, một mô hình với 1.3 tỷ tham số, nổi bật với khả năng thực hiện việc gọi hàm, một tính năng quan trọng cho các nhiệm vụ động và tương tác. Nó có tốc độ sinh mã thông báo nhanh chóng, một khía cạnh quan trọng để đảm bảo hiệu suất, không phụ thuộc vào việc nó hoạt động cục bộ hay từ xa.
Người dùng quan tâm có thể có được quyền truy cập vào mô hình này, đồng thời đảm bảo cập nhật về những cải tiến tương lai được thực hiện cho mô hình Tiny trong cùng một kho lưu trữ. Đáng chú ý, định dạng siêu dữ liệu của hàm tương ứng với định dạng được sử dụng bởi OpenAI, đảm bảo tính tương thích và dễ tích hợp. Mô hình được coi là phù hợp cho các ứng dụng thương mại, mở rộng khả năng sử dụng của nó trong nhiều ngữ cảnh kinh doanh khác nhau.
3. DeepSeek Coder 1.3B
DeepSeek Coder được tạo thành từ một loạt các mô hình ngôn ngữ mã nguồn, mỗi mô hình được đào tạo từ đầu trên 2 triệu mã thông báo, với sự kết hợp của 87% mã nguồn và 13% ngôn ngữ tự nhiên cả trong tiếng Anh và tiếng Trung. Các phiên bản của mô hình mã nguồn có kích thước khác nhau, từ 1 tỷ đến 33 tỷ tham số, đã được cung cấp.
Mỗi mô hình được tiền đào tạo trên tập văn bản mã nguồn ở cấp dự án bằng cách sử dụng kích thước cửa sổ là 16K và một nhiệm vụ điền vào chỗ trống bổ sung, nhằm hỗ trợ hoàn thành mã nguồn và điền vào mã nguồn ở cấp dự án. Đối với khả năng lập trình, DeepSeek Coder đạt được hiệu suất tiên tiến nhất giữa các mô hình mã nguồn mã nguồn mở trên nhiều ngôn ngữ lập trình và các tiêu chí đánh giá khác nhau.
4. TinyLlama-1.1B
Dự án TinyLlama nhằm tiền đào tạo một mô hình Llama 1.1 tỷ tham số trên 3 nghìn tỷ mã thông báo. Với một số tối ưu hóa phù hợp, nhóm đã đạt được mục tiêu này chỉ trong “vòng” 90 ngày bằng cách sử dụng 16 GPU A100-40G. Quá trình đào tạo bắt đầu vào ngày 1 tháng 9 năm 2023.
Tiềm năng của các LLM nhỏ gọn là rộng lớn, và khi công nghệ tiếp tục phát triển, chúng ta có thể mong đợi thấy những mô hình tinh tế và dễ tiếp cận hơn. Những tiến bộ này có thể dẫn đến sự áp dụng rộng rãi của trí tuệ nhân tạo trong nhiều ngành, giúp nhiều người sử dụng sức mạnh của học máy cho dự án của họ. Trong khi chúng ta điều hướng trong lĩnh vực hứng thú này, việc cập nhật thông tin về những phát triển mới nhất và hiểu cách triển khai hiệu quả những mô hình này sẽ là chìa khóa cho sự thành công.