Tác giả: Zian (Andy) Wang
ngày 18/05/23
Trong thế giới Trí tuệ nhân tạo (AI), thường thấy rằng cỡ lớn thường được xem là tốt hơn. Sự xuất hiện của các mô hình ngôn ngữ lớn (LLMs) như GPT-4 đã gây ra cả sự kinh ngạc và lo ngại, vì những mô hình AI khổng lồ này đã thể hiện khả năng hiểu và tạo ra ngôn ngữ tự nhiên đáng kinh ngạc.
Tuy nhiên, trong bóng tối của những kẻ khổng lồ này, một cuộc cách mạng yên lặng đang diễn ra. Nghiên cứu gần đây cho thấy rằng các mô hình ngôn ngữ nhỏ hơn, từng được coi là bước đệm đơn thuần cho các đàn anh lớn hơn của họ, đang bắt đầu vượt trội hoặc ít nhất là tương xứng với hiệu suất của LLMs trong các ứng dụng khác nhau. Trong bài viết toàn diện này, chúng ta sẽ khám phá sự phát triển thú vị này, thảo luận về tính liên quan của nó và xem xét những tác động tiềm năng của nó đối với các ngành công nghiệp. Chúng ta sẽ lục soát vào thế giới của các mô hình ngôn ngữ nhỏ hơn, so sánh chúng với các công nghệ và khái niệm liên quan và cung cấp ví dụ cụ thể về tác động của chúng trong thế giới thực. Cuối cùng, chúng ta sẽ kết luận với một cái nhìn thú vị về tương lai của các mô hình ngôn ngữ nhỏ hơn và tác động tiềm năng của chúng đối với xã hội.
Sự theo đuổi của các hệ thống trí tuệ nhân tạo có khả năng hiểu và tạo ra ngôn ngữ giống con người đã thúc đẩy sự phát triển của các mô hình ngôn ngữ lớn (LLMs). LLMs đã được chứng minh thực hiện công việc một cách ấn tượng trong các nhiệm vụ như dịch, tóm tắt và trả lời câu hỏi, thường vượt xa khả năng của các mô hình nhỏ hơn trước đó. Tuy nhiên, những thành tựu này đi kèm với nhược điểm đáng kể, bao gồm tiêu thụ năng lượng cao, yêu cầu bộ nhớ lớn, chi phí tính toán đắt đỏ và dấu chân nước lớn. Một lo ngại lớn khác là tốc độ đổi mới của GPU đang đứng sau sự tăng trưởng của kích thước mô hình, có thể dẫn đến một điểm mà việc mở rộng không còn khả thi. Những yếu tố này đã thúc đẩy các nhà nghiên cứu khám phá tiềm năng của các mô hình ngôn ngữ nhỏ hơn, có thể hiệu quả và linh hoạt hơn trong một số ứng dụng cụ thể.
Các Kỹ thuật và Nghiên cứu Mới Nổi
Những nghiên cứu gần đây đã chứng minh rằng các mô hình ngôn ngữ nhỏ hơn có thể được tinh chỉnh để đạt được hiệu suất cạnh tranh hoặc thậm chí vượt trội so với các đàn anh lớn hơn của họ trong các nhiệm vụ cụ thể. Ví dụ, nghiên cứu của Turc và đồng nghiệp (2019) đã phát hiện rằng việc trích suất kiến thức từ các LLMs vào các mô hình nhỏ hơn dẫn đến việc các mô hình này thực hiện tương tự nhưng chỉ với một phần nhỏ tài nguyên tính toán được yêu cầu.
Ngoài ra, sự gia tăng của các kỹ thuật như học chuyển giao đã cho phép các mô hình nhỏ hơn tận dụng kiến thức có sẵn và thích nghi hiệu quả hơn với các nhiệm vụ cụ thể (Nguồn). Điều này đã dẫn đến những đột phá trong các ứng dụng như phân tích tâm trạng, dịch thuật và tóm tắt, nơi các mô hình nhỏ hơn đã thể hiện hiệu suất tương tự hoặc vượt trội so với các LLMs.
Trong các sự phát triển gần đây, các mô hình ngôn ngữ nhỏ hơn đã thể hiện hiệu suất đáng kinh ngạc, cạnh tranh với các đàn anh lớn hơn của họ. Ví dụ, mô hình Chinchilla của DeepMind, ví dụ, vượt trội hơn GPT-3 bằng cách được đào tạo trên một tập dữ liệu lớn hơn nhưng chỉ với ít tham số hơn. Tương tự, các mô hình LLaMa của Meta đã đạt được kết quả ấn tượng, trong khi các nhà nghiên cứu tại Stanford đã phát triển mô hình Alpaca, mà khi được điều chỉnh tại các phản hồi truy vấn của GPT-3.5, thì đạt hiệu suất tương đương. Ngoài ra, dòng sản phẩm StableLM của Stability AI có mô hình nhỏ nhất chỉ với 3 tỷ tham số. Tồn tại nhiều mô hình khác dựa trên GPT/LLaMa có số lượng tham số đáng kể ít hơn và kết quả tương tự với GPT-3.5. Danh sách toàn diện có thể được tìm thấy trong bài viết trên Medium này.
Bài báo nghiên cứu của Stanford về Alpaca 7B giải thích cách, với một chi phí giảm đáng kể, hiệu suất của Alpaca tương tự như ChatGPT. Hai yếu tố quan trọng đã được xác định, đó là một mô hình ngôn ngữ tiền đà đã được đào tạo mạnh mẽ và dữ liệu theo hướng dẫn chất lượng cao. Để có được dữ liệu hướng dẫn chất lượng cao, Stanford đã áp dụng các đề xuất từ một bài báo giới thiệu các quy trình đào tạo cho các mô hình theo dõi hướng dẫn, sử dụng các mô hình ngôn ngữ lớn (LLMs) để tạo ra dữ liệu tự động. Điều này cho thấy quá trình điều chỉnh theo hướng dẫn có thể đóng một vai trò quan trọng trong việc đào tạo các LLM trò chuyện nhỏ hơn, có thể thậm chí quan trọng hơn cả kiến trúc của mô hình chính nó.
Mặc dù những tiến bộ này làm cho việc sử dụng LLMs trở nên dễ dàng hơn, mối quan hệ giữa kích thước và hiệu suất vẫn chưa rõ ràng. Đạo luật tỷ lệ mở rộng của LLMs mà OpenAI đề xuất cho thấy sự tăng hiệu suất theo kích thước mô hình, tuy nhiên, chúng ta đang chứng kiến các trường hợp trái lại được đạt được thông qua các kỹ thuật đào tạo cải tiến hoặc kiến trúc thay thế. Các chiến lược triển vọng, như phương pháp “sự kết hợp của các chuyên gia” và việc tận dụng tính thưa thớt trong các LLMs, có thể nâng cao hiệu quả. Tuy nhiên, giới hạn phần cứng hiện tại và những thách thức trong việc áp dụng các kỹ thuật như “quantization” và trích xuất kiến thức cho các mô hình lớn hơn đặt ra những trở ngại.
Mặc dù có những khó khăn này, việc theo đuổi các mô hình nhỏ hơn và hiệu quả hơn là cần thiết, bởi vì cả việc mở rộng và tăng cường hiệu quả cho các kích thước nhỏ hơn có thể đóng vai trò quan trọng trong tương lai của phát triển trí tuệ nhân tạo.
Hai kỹ thuật gần đây được đề xuất bởi Google, UL2R và Flan, đã thể hiện khả năng đáng kể trong việc cải thiện hiệu suất của các mô hình ngôn ngữ nhỏ mà không cần sử dụng tài nguyên tính toán lớn. UL2R, hoặc “Ultra Lightweight 2 Repair,” là một giai đoạn bổ sung của quá trình tiền đà tiếp tục giúp cải thiện hiệu suất trên nhiều nhiệm vụ khác nhau bằng cách giới thiệu mục tiêu kết hợp của các “denoisers” (là các mô hình hoặc phần mềm dùng để loại bỏ nhiễu trong tín hiệu). Điều này đã dẫn đến việc tạo ra các mô hình có khả năng thực hiện nhiệm vụ như Navigate và Snarks từ BIG-Bench mà không làm tăng cỡ mô hình (Nguồn).
Flan, ngược lại, là một phương pháp liên quan đến việc điều chỉnh mô hình ngôn ngữ trên hơn 1.8K nhiệm vụ được diễn đạt dưới dạng hướng dẫn. Phương pháp này không chỉ cải thiện hiệu suất mà còn nâng cao tính khả dụng của mô hình đối với đầu vào từ người dùng mà không cần thiết phải định kịch bản cụ thể. Khi kết hợp, UL2R và Flan có thể tạo ra một mô hình như Flan-U-PaLM 540B, mà vượt trội đáng kể so với các mô hình PaLM 540B chưa điều chỉnh (Nguồn). Những kỹ thuật này thể hiện tiềm năng cho việc các mô hình nhỏ hơn có thể đạt được sự gia tăng hiệu suất đáng kể mà không cần đầu tư quy mô lớn thường liên quan đến LLMs.
Tại sao điều này quan trọng?
Các mô hình ngôn ngữ nhỏ hơn có nhiều ưu điểm, bắt đầu từ tốc độ đào tạo và suy luận nhanh hơn. Những ưu điểm về hiệu quả này mở rộng đến các khía cạnh phụ khác trong việc sử dụng chúng, chẳng hạn như dấu chân carbon và lượng nước tương đối nhỏ của các mô hình này. Trong ngành công nghiệp Trí tuệ nhân tạo hiện nay, sự tập trung đang dịch chuyển về việc làm cho AI trở nên dễ truy cập hơn và đảm bảo rằng nó hoạt động tốt trên nhiều thiết bị khác nhau, bao gồm cả các thiết bị nhỏ và hạn chế tài nguyên như điện thoại di động. Xu hướng này làm nổi bật tầm quan trọng ngày càng tăng của việc khám phá tiềm năng của các mô hình ngôn ngữ nhỏ hơn để thiết lập sự cân bằng giữa hiệu suất và sử dụng tài nguyên.
Các mô hình nhỏ hơn đáp ứng nhu cầu của ngành công nghiệp về các giải pháp AI hiệu quả, linh hoạt và tương thích với một loạt các thiết bị. Bằng cách đạt được hiệu suất cao mà không phụ thuộc vào cơ sở hạ tầng tài nguyên đầu tư tốn kém, các mô hình nhỏ hơn mở đường cho AI để được tích hợp sâu hơn vào hoạt động sản xuất kinh doanh hàng ngày của tổ chức.
Một sự phát triển quan trọng trong lĩnh vực này là học tập phân tán (federated learning), một phương pháp phi tập trung trong việc đào tạo mô hình trí tuệ nhân tạo, đặt sự bảo mật và riêng tư dữ liệu lên hàng đầu. Bằng cách cho phép dữ liệu ở lại trên các thiết bị cục bộ trong quá trình học từ nó, học tập phân tán giảm thiểu sự cần thiết về tập trung dữ liệu quy mô lớn và cho phép các ứng dụng trí tuệ nhân tạo trở nên nhanh nhẹn, linh hoạt và dễ truy cập hơn trong nhiều ngành công nghiệp khác nhau. Khả năng tương thích của các mô hình ngôn ngữ nhỏ hơn với môi trường học tập phân tán càng làm nổi bật tầm quan trọng của chúng trong việc định hình tương lai của trí tuệ nhân tạo.
Nhưng ai biết được? Có thể rằng các thiết bị phần cứng hiệu quả hơn sẽ được phát triển trước khi các mô hình ngôn ngữ nhỏ hơn có thể vượt trội về hiệu suất và cân nhắc những lợi ích của LLMs.
Tại sao điều này quan trọng?
Các mô hình ngôn ngữ nhỏ hơn có nhiều ưu điểm, bắt đầu từ tốc độ đào tạo và suy luận nhanh hơn. Những ưu điểm về hiệu quả này mở rộng đến các khía cạnh phụ khác trong việc sử dụng chúng, chẳng hạn như dấu chân carbon và lượng nước tương đối nhỏ của các mô hình này. Trong ngành công nghiệp Trí tuệ nhân tạo hiện nay, sự tập trung đang dịch chuyển về việc làm cho AI trở nên dễ truy cập hơn và đảm bảo rằng nó hoạt động tốt trên nhiều thiết bị khác nhau, bao gồm cả các thiết bị nhỏ và hạn chế tài nguyên như điện thoại di động. Xu hướng này làm nổi bật tầm quan trọng ngày càng tăng của việc khám phá tiềm năng của các mô hình ngôn ngữ nhỏ hơn để thiết lập sự cân bằng giữa hiệu suất và sử dụng tài nguyên.
Các mô hình nhỏ hơn đáp ứng nhu cầu của ngành công nghiệp về các giải pháp AI hiệu quả, linh hoạt và tương thích với một loạt các thiết bị. Bằng cách đạt được hiệu suất cao mà không phụ thuộc vào cơ sở hạ tầng nặng tài nguyên, các mô hình nhỏ hơn mở đường cho AI để được tích hợp sâu hơn vào công nghệ hàng ngày, mở rộng phạm vi và tác động của nó.
Một sự phát triển quan trọng trong lĩnh vực này là học tập phân tán (federated learning), một phương pháp phi tập trung trong việc đào tạo mô hình trí tuệ nhân tạo, đặt sự bảo mật và riêng tư dữ liệu lên hàng đầu. Bằng cách cho phép dữ liệu ở lại trên các thiết bị cục bộ trong quá trình học từ nó, học tập phân tán giảm thiểu sự cần thiết về tập trung dữ liệu quy mô lớn và cho phép các ứng dụng trí tuệ nhân tạo trở nên nhanh nhẹn, linh hoạt và dễ truy cập hơn trong nhiều ngành công nghiệp khác nhau. Khả năng tương thích của các mô hình ngôn ngữ nhỏ hơn với môi trường học tập phân tán càng làm nổi bật tầm quan trọng của chúng trong việc định hình tương lai của trí tuệ nhân tạo.
Nhưng ai biết được? Có thể rằng các thiết bị phần cứng hiệu quả hơn sẽ được phát triển trước khi các mô hình ngôn ngữ nhỏ hơn có thể vượt trội về hiệu suất và cân nhắc những lợi ích của LLMs.