Tác giả: Aayush Mittal
ngày 16 tháng 10 năm 2023
Cơ sở của các Mô hình Ngôn ngữ lớn (LLM) như GPT-3 của OpenAI hoặc phiên bản kế nhiệm của nó GPT-4 nằm trong học sâu, một phần con của Trí tuệ Nhân tạo, sử dụng mạng thần kinh với ba hoặc nhiều hơn ba lớp. Các mô hình này được đào tạo trên các tập dữ liệu rộng lớn bao gồm một phạm vi rộng của văn bản trên internet. Qua quá trình đào tạo, LLM học cách dự đoán từ tiếp theo trong một chuỗi, dựa trên các từ đã xuất hiện trước đó. Khả năng này, đơn giản trong bản chất của nó, là nền tảng cho khả năng của LLM để tạo ra văn bản liên kết, có ngữ cảnh và có ý nghĩa trong các chuỗi kéo dài.
Các ứng dụng tiềm năng của LLM không giới hạn – từ việc soạn thảo email, tạo mã, trả lời câu hỏi, thậm chí viết sáng tạo. Tuy nhiên, với quyền lực lớn đến từ trí tuệ nhân tạo này cũng đi kèm với trách nhiệm lớn, và quản lý các mô hình khổng lồ này trong môi trường sản xuất không đơn giản. Đó là nơi LLMOps đến, đại diện cho một tập hợp các thực hành tốt, công cụ và quy trình để đảm bảo hoạt động đáng tin cậy, an toàn và hiệu quả của LLM.
Hướng dẫn tích hợp mô hình ngôn ngữ LLM theo 03 cách:
1. Sử dụng LLMs tổng quát thông qua việc gửi câu hỏi hoặc yêu cầu:
- Các mô hình như ChatGPT và Bard cung cấp một ngưỡng thấp cho việc áp dụng với chi phí ban đầu tối thiểu, mặc dù có thể đi kèm với một thẻ giá tiềm năng trong dài hạn.
- Tuy nhiên, bóng tối của quyền riêng tư dữ liệu và bảo mật luôn tồn tại lớn, đặc biệt đối với các lĩnh vực như Fintech và Chăm sóc sức khỏe với các khuôn khổ quy định nghiêm ngặt.
2. Tinh chỉnh các LLMs tổng quát thông qua việc tinh chỉnh mô hình:
- Với các mô hình mã nguồn mở như Llama, Falcon và Mistral, tổ chức có thể điều chỉnh các LLMs này để phù hợp với trường hợp sử dụng cụ thể của họ chỉ bằng việc tinh chỉnh mô hình với tài nguyên làm tốn.
- Con đường này, trong khi giải quyết các mối lo âu về quyền riêng tư và bảo mật, đòi hỏi một quá trình lựa chọn mô hình sâu hơn, chuẩn bị dữ liệu, tinh chỉnh mô hình, triển khai và theo dõi.
- Tính chất tuần hoàn của con đường này đòi hỏi một sự tham gia liên tục, nhưng các đổi mới gần đây như LoRA (Low-Rank Adaptation) và Q(Quantized)-LoRa đã tối ưu hóa quá trình tinh chỉnh mô hình, khiến nó trở thành một sự lựa chọn ngày càng phổ biến.
3. Đào tạo LLM Tùy chỉnh:
Phát triển một LLM từ đầu đưa ra một độ chính xác không giống ai được tùy chỉnh cho nhiệm vụ cụ thể. Tuy nhiên, các yêu cầu cao cấp về chuyên môn trong lĩnh vực Trí tuệ nhân tạo, tài nguyên tính toán, dữ liệu phong phú và đầu tư thời gian đặt ra các rào cản đáng kể.
Trong ba tùy chọn này, tinh chỉnh các LLMs tổng quát là tùy chọn được ưa chuộng nhất cho các công ty. Việc tạo ra một mô hình cơ sở mới có thể tốn lên đến 100 triệu đô la, trong khi tinh chỉnh các mô hình hiện có có giá từ 100 nghìn đến 1 triệu đô la. Các con số này xuất phát từ các chi phí tính toán, thu thập và gán nhãn dữ liệu, cùng với các chi phí kỹ thuật và nghiên cứu phát triển.
LLMOps so với MLOps
Quá trình vận hành Trí tuệ nhân tạo (MLOps) đã được nắm rõ, cung cấp một lộ trình có cấu trúc để chuyển đổi các mô hình học máy (ML) từ quá trình phát triển đến sản xuất. Tuy nhiên, với sự tăng trưởng của các Mô hình Ngôn ngữ lớn (LLMs), một mô hình hoạt động mới, được gọi là LLMOps, đã xuất hiện để giải quyết các thách thức độc đáo liên quan đến triển khai và quản lý LLMs. Sự khác biệt giữa LLMOps và MLOps dựa trên một số yếu tố:
1. Tài nguyên tính toán:
- LLMs đòi hỏi một khả năng tính toán đáng kể cho quá trình đào tạo và tinh chỉnh, thường đòi hỏi phần cứng chuyên dụng như GPU để tăng tốc các hoạt động song song trên dữ liệu.
- Chi phí dự đoán (inference) càng làm nổi bật tầm quan trọng của các kỹ thuật nén và trích xuất mô hình để kiềm chế các chi phí tính toán.
2. Chuyển giao học hỏi:
- Khác với các mô hình học máy truyền thống thường được đào tạo từ đầu, các LLMs dựa nhiều vào học chuyển giao, bắt đầu từ một mô hình được đào tạo trước và tinh chỉnh nó cho các nhiệm vụ cụ thể trong lĩnh vực.
- Cách tiếp cận này tiết kiệm dữ liệu và tài nguyên tính toán trong khi đạt được hiệu suất đỉnh cao.
3. Vòng phản hồi từ con người:
- Sự tối ưu hoá lặp đi lặp lại của LLMs được thúc đẩy đáng kể bằng việc học tăng cường từ phản hồi của con người (RLHF).
- Việc tích hợp một vòng phản hồi trong các quy trình LLMOps không chỉ đơn giản hóa việc đánh giá mà còn thúc đẩy quá trình tinh chỉnh.
4. Tinh chỉnh Siêu tham số:
- Trong khi ML cổ điển tập trung vào việc nâng cao độ chính xác thông qua tinh chỉnh siêu tham số, trong lĩnh vực LLM, tập trung cũng bao gồm việc giảm yêu cầu tính toán.
- Điều chỉnh các tham số như kích thước lô (batch sizes) và tỷ lệ học (learning rates) có thể thay đổi đáng kể tốc độ đào tạo và chi phí.
5. Các Thước Đo Hiệu Suất:
- Các mô hình ML cổ điển tuân theo các thước đo hiệu suất được định rõ như độ chính xác, AUC hoặc điểm F1, trong khi LLMs có tập thước đo khác như BLEU và ROUGE.
- BLEU và ROUGE là các thước đo được sử dụng để đánh giá chất lượng của các bản dịch và bản tóm tắt do máy tạo ra. BLEU chủ yếu được sử dụng cho các nhiệm vụ dịch máy, trong khi ROUGE được sử dụng cho các nhiệm vụ tóm tắt văn bản.
- BLEU đo lường sự chính xác, tức là bao nhiêu từ trong các bản tóm tắt do máy tạo ra xuất hiện trong các bản tóm tắt tham khảo do con người tạo ra. ROUGE đo lường khả năng gợi nhớ, tức là bao nhiêu từ trong các bản tóm tắt tham khảo do con người tạo ra xuất hiện trong các bản tóm tắt do máy tạo ra.
6. Kỹ thuật Định dạng Yêu cầu:
- Kỹ thuật định dạng yêu cầu chính là việc quan trọng để gây ra những phản ứng chính xác và đáng tin cậy từ LLMs, giảm thiểu các rủi ro như hiện tượng tưởng tượng của mô hình và can thiệp vào yêu cầu.
7. Xây dựng Đường ống LLM:
- Các công cụ như LangChain hoặc LlamaIndex cho phép việc xây dựng các đường ống LLM, kết hợp nhiều lệnh LLM hoặc tương tác với hệ thống bên ngoài cho các nhiệm vụ phức tạp như hỏi đáp dựa trên cơ sở dữ liệu kiến thức.
“Nội soi” quy trình LLMOps
Hoạt động Quản lý Mô hình Ngôn ngữ, hoặc LLMOps, tương tự như bộ xương hoạt động của các mô hình ngôn ngữ lớn, đảm bảo hoạt động mượt mà và tích hợp trên nhiều ứng dụng khác nhau. Mặc dù có vẻ giống với MLOps hoặc DevOps, LLMOps có những khía cạnh độc đáo phục vụ cho các yêu cầu của các mô hình ngôn ngữ lớn. Hãy khám phá quy trình LLMOps được miêu tả trong hình minh họa, đi sâu vào từng giai đoạn một một cách chi tiết.
- Dữ liệu Đào tạo:
- Bản chất của một mô hình ngôn ngữ nằm trong dữ liệu đào tạo của nó. Bước này bao gồm việc thu thập các tập dữ liệu, đảm bảo chúng được làm sạch, cân bằng và được ghi chú một cách thích hợp. Chất lượng và đa dạng của dữ liệu có tác động đáng kể đến độ chính xác và tính linh hoạt của mô hình. Trong LLMOps, sự tập trung không chỉ vào lượng mà còn vào sự phù hợp với trường hợp sử dụng dự kiến của mô hình.
- Mô hình Nền tảng Mã nguồn Mở:
- Hình minh họa đề cập đến một “Mô hình Nền tảng Mã nguồn Mở,” một mô hình được đào tạo sẵn thường được công bố bởi các đơn vị trích dẫn hàng đầu trong lĩnh vực Trí tuệ Nhân tạo. Những mô hình này, được đào tạo trên các tập dữ liệu lớn, phục vụ như một điểm khởi đầu xuất sắc, giúp tiết kiệm thời gian và tài nguyên, cho phép việc tinh chỉnh cho các nhiệm vụ cụ thể thay vì đào tạo lại từ đầu.
- Đào tạo / Tinh chỉnh:
- Với một mô hình nền tảng và dữ liệu đào tạo cụ thể, quá trình tinh chỉnh được tiến hành. Bước này làm tinh chỉnh mô hình cho mục đích cụ thể, chẳng hạn như tinh chỉnh một mô hình văn bản tổng quát với tài liệu y học cho các ứng dụng chăm sóc sức khỏe. Trong LLMOps, việc tinh chỉnh cẩn thận với các kiểm tra liên tục rất quan trọng để ngăn chặn việc vượt quá mức tương quan và đảm bảo khả năng tổng quát tốt đối với dữ liệu chưa từng thấy trước.
- Mô hình đã Đào tạo:
- Sau quá trình tinh chỉnh, một mô hình đã đào tạo sẵn sàng cho việc triển khai xuất hiện. Mô hình này, phiên bản được cải thiện so với mô hình nền tảng, đã được tùy chỉnh cho một ứng dụng cụ thể. Nó có thể là mã nguồn mở, với trọng lượng và kiến trúc có sẵn công khai, hoặc độc quyền, được bảo quản riêng bởi tổ chức.
- Triển khai:
- Quá trình triển khai liên quan đến việc tích hợp mô hình vào môi trường thực tế để xử lý các truy vấn thực tế. Nó liên quan đến quyết định về việc lưu trữ, có thể trên nơi làm việc hoặc trên các nền tảng điện toán đám mây. Trong LLMOps, các xem xét về độ trễ, chi phí tính toán và tính khả dụng rất quan trọng, cùng với việc đảm bảo mô hình mở rộng tốt cho nhiều yêu cầu đồng thời.
- Yêu cầu (Prompt):
- Trong các mô hình ngôn ngữ, một yêu cầu là một truy vấn hoặc tuyên bố đầu vào. Việc tạo ra yêu cầu hiệu quả, thường đòi hỏi hiểu hành vi của mô hình, rất quan trọng để gây ra các kết quả mong muốn khi mô hình xử lý những yêu cầu này.
- Lưu trữ nhúng hoặc Cơ sở dữ liệu vector:
- Sau quá trình xử lý, các mô hình có thể trả về nhiều hơn là phản hồi văn bản đơn giản. Các ứng dụng tiên tiến có thể yêu cầu các nhúng – các vectơ có chiều cao đại diện cho nội dung ngữ nghĩa. Những nhúng này có thể được lưu trữ hoặc cung cấp dưới dạng dịch vụ, giúp việc truy xuất hoặc so sánh thông tin ngữ nghĩa nhanh chóng, làm phong phú cách mà khả năng của mô hình được tận dụng ngoài việc tạo ra văn bản đơn thuần.
- Mô hình Triển khai (Tự lưu trữ hoặc API):
- Sau khi xử lý, kết quả của mô hình đã sẵn sàng. Tùy thuộc vào chiến lược, các kết quả có thể truy cập thông qua giao diện tự lưu trữ hoặc một API, với lựa chọn đầu tiên mang lại sự kiểm soát hơn cho tổ chức chủ quản và lựa chọn thứ hai cung cấp tính mở rộng và tích hợp dễ dàng cho các nhà phát triển bên thứ ba.
- Kết quả:
- Giai đoạn này cho ra kết quả cụ thể của quy trình làm việc. Mô hình nhận một yêu cầu, xử lý nó và trả về một kết quả, tùy thuộc vào ứng dụng, có thể là các đoạn văn bản, câu trả lời, câu chuyện được tạo ra hoặc thậm chí là nhúng như đã thảo luận.
Những nền tảng triển khai và vận hành mô hình ngôn ngữ hàng đầu hiện nay
Cảnh quan về hoạt động của các Mô hình Ngôn ngữ Lớn (LLMs) đã chứng kiến sự xuất hiện của các nền tảng và các công ty khởi nghiệp chuyên sâu. Dưới đây là hai công ty khởi nghiệp/nền tảng và mô tả của họ liên quan đến không gian hoạt động LLMOps:
Comet
Comet là một nền tảng dành riêng cho quản lý và theo dõi các mô hình ngôn ngữ lớn. Nó cung cấp các công cụ để giúp các tổ chức tạo, tinh chỉnh và triển khai các mô hình ngôn ngữ lớn một cách hiệu quả. Comet giúp theo dõi hiệu suất của các mô hình và quản lý việc triển khai chúng trong môi trường sản xuất. Công cụ của Comet hỗ trợ việc đo lường chất lượng mô hình, theo dõi các thay đổi trong dữ liệu đào tạo và cung cấp các công cụ tối ưu hóa.
Dify
Dify là một nền tảng mã nguồn mở LLMOps giúp trong việc phát triển ứng dụng Trí tuệ Nhân tạo sử dụng các mô hình ngôn ngữ lớn như GPT-4. Nó có giao diện thân thiện với người dùng và cung cấp khả năng truy cập mô hình một cách mượt mà, nhúng ngữ cảnh, kiểm soát chi phí và khả năng đánh dấu dữ liệu. Người dùng có thể dễ dàng quản lý các mô hình của họ một cách trực quan và sử dụng tài liệu, nội dung web hoặc ghi chú Notion như ngữ cảnh Trí tuệ Nhân tạo, mà Dify xử lý cho quá trình tiền xử lý và các hoạt động khác.
Portkey.ai
Portkey.ai là một công ty khởi nghiệp Ấn Độ chuyên sâu trong hoạt động mô hình ngôn ngữ (LLMOps). Với khoản đầu tư hạt giống gần đây trị giá 3 triệu đô la dẫn đầu bởi Lightspeed Venture Partners, Portkey.ai cung cấp tích hợp với các mô hình ngôn ngữ lớn quan trọng như của OpenAI và Anthropic. Dịch vụ của họ phục vụ các công ty Trí tuệ Nhân tạo sáng tạo, tập trung vào việc nâng cao bộ công cụ hoạt động LLM của họ, bao gồm kiểm tra canary thời gian thực và khả năng tinh chỉnh mô hình.