Tác giả: Alex McFarland
ngày 6 tháng 1 năm 2025
Việc huấn luyện các mô hình ngôn ngữ lớn (LLMs) đã trở nên quá sức với hầu hết các tổ chức. Với chi phí lên tới hàng triệu đô la và yêu cầu tính toán đến mức ngay cả siêu máy tính cũng phải vã mồ hôi, phát triển AI vẫn bị khóa sau cánh cửa của các ông lớn công nghệ. Tuy nhiên, Google vừa làm thay đổi hoàn toàn câu chuyện này với một phương pháp đơn giản đến mức khiến người ta tự hỏi tại sao không ai nghĩ ra sớm hơn: sử dụng các mô hình AI nhỏ hơn làm người hướng dẫn.
# Cách SALT hoạt động: Một phương pháp mới để huấn luyện các mô hình AI
Trong một bài nghiên cứu gần đây có tiêu đề “Một chút giúp đỡ có thể đi xa: Huấn luyện LLM hiệu quả bằng cách tận dụng mô hình nhỏ,” Google Research và DeepMind đã giới thiệu SALT (Huấn luyện mô hình lớn nhờ mô hình nhỏ). Đây là phương pháp mới thách thức cách tiếp cận truyền thống của chúng ta trong việc huấn luyện các mô hình LLM.
Tại sao nghiên cứu này lại quan trọng? Hiện tại, việc huấn luyện các mô hình AI lớn giống như việc cố gắng dạy một ai đó tất cả những gì họ cần biết về một chủ đề ngay lập tức – điều này không hiệu quả, tốn kém và thường chỉ có thể thực hiện bởi các tổ chức sở hữu tài nguyên tính toán khổng lồ. SALT đi một con đường khác, giới thiệu một quy trình huấn luyện hai giai đoạn vừa đổi mới vừa thực tiễn.
## Phân tích cách SALT hoạt động thực sự:
Giai đoạn 1: Chưng cất Kiến thức
- Một mô hình ngôn ngữ nhỏ (SLM) đóng vai trò là người hướng dẫn, chia sẻ hiểu biết của mình với mô hình lớn hơn.
- Mô hình nhỏ tập trung vào việc chuyển giao “kiến thức đã học” thông qua những gì các nhà nghiên cứu gọi là “nhãn mềm” (soft labels).
- Hãy tưởng tượng điều này giống như một trợ giảng hướng dẫn các khái niệm cơ bản trước khi sinh viên chuyển sang các chủ đề nâng cao.
- Giai đoạn này đặc biệt hiệu quả trong các “vùng dễ học” – các khu vực mà mô hình nhỏ có độ tự tin dự đoán cao.
Giai đoạn 2: Học có giám sát độc lập
- Mô hình lớn chuyển sang việc học độc lập.
- Nó tập trung vào việc nắm vững các mẫu phức tạp và các nhiệm vụ khó khăn.
- Đây là nơi mô hình phát triển các khả năng vượt ra ngoài những gì mà người “giáo viên” nhỏ hơn có thể cung cấp.
- Quá trình chuyển giao giữa các giai đoạn sử dụng các chiến lược được thiết kế cẩn thận, bao gồm sự giảm dần tuyến tính và tỉ lệ giảm dần tuyến tính của trọng số tổn thất chưng cất.
Nói một cách đơn giản, hãy tưởng tượng mô hình AI nhỏ hơn giống như một gia sư hữu ích, hướng dẫn mô hình lớn hơn trong những giai đoạn đầu của việc huấn luyện. Gia sư này cung cấp thêm thông tin cùng với câu trả lời của mình, cho thấy mức độ tự tin của họ về mỗi câu trả lời. Thông tin bổ sung này, được gọi là “nhãn mềm,” giúp mô hình lớn học nhanh hơn và hiệu quả hơn.
Khi mô hình AI lớn hơn trở nên mạnh mẽ hơn, nó cần chuyển từ việc phụ thuộc vào gia sư sang học độc lập. Đây là lúc “sự giảm dần tuyến tính” và “giảm dần tỷ lệ tuyến tính” có tác dụng.
Hãy nghĩ về các kỹ thuật này như việc giảm dần ảnh hưởng của gia sư theo thời gian:
Giảm dần tuyến tính (Linear Decay):
Điều này giống như việc giảm âm lượng giọng nói của gia sư. Hướng dẫn của gia sư trở nên ít nổi bật hơn qua từng bước, cho phép mô hình lớn tập trung nhiều hơn vào việc học từ dữ liệu thô.
Giảm dần tỷ lệ tuyến tính (Linear Ratio Decay):
Điều này giống như việc điều chỉnh sự cân bằng giữa lời khuyên của gia sư và nhiệm vụ thực tế đang đối mặt. Khi việc huấn luyện tiến triển, trọng tâm dần chuyển sang nhiệm vụ gốc, trong khi đầu vào của gia sư trở nên ít ảnh hưởng hơn.
Mục tiêu của cả hai kỹ thuật là đảm bảo một sự chuyển tiếp mượt mà cho mô hình AI lớn, tránh bất kỳ sự thay đổi đột ngột nào trong hành vi học hỏi của nó.
Kết quả rất ấn tượng. Khi các nhà nghiên cứu Google thử nghiệm SALT bằng cách sử dụng một mô hình SLM với 1,5 tỷ tham số để huấn luyện một mô hình LLM với 2,8 tỷ tham số trên bộ dữ liệu Pile, họ đã thấy:
- Thời gian huấn luyện giảm 28% so với phương pháp truyền thống.
- Cải thiện hiệu suất đáng kể sau khi tinh chỉnh:
- Độ chính xác trong giải toán tăng lên 34,87% (so với 31,84% điểm chuẩn).
- Độ chính xác trong bài đọc hiểu đạt 67% (tăng từ 63,7%).
Nhưng điều thực sự làm cho SALT trở nên sáng tạo là khung lý thuyết của nó. Các nhà nghiên cứu đã phát hiện rằng ngay cả một mô hình giáo viên “yếu hơn” cũng có thể cải thiện hiệu suất của học sinh bằng cách đạt được những gì họ gọi là “thỏa hiệp thiên lệch – phương sai có lợi”. Nói một cách đơn giản, mô hình nhỏ giúp mô hình lớn học các mẫu cơ bản hiệu quả hơn, tạo nền tảng vững chắc cho việc học nâng cao.
# Tại sao SALT có thể làm thay đổi lĩnh vực phát triển AI
Nhớ khi điện toán đám mây đã thay đổi cách mà những ai có thể khởi động một công ty công nghệ? SALT có thể sẽ làm điều tương tự đối với phát triển AI.
Tôi đã theo dõi các sáng tạo trong huấn luyện AI suốt nhiều năm, và hầu hết các đột phá trước đây chủ yếu mang lại lợi ích cho các ông lớn công nghệ. Nhưng SALT lại là một câu chuyện khác.
## Đây là những gì SALT có thể mang lại cho tương lai:
Đối với các tổ chức với nguồn lực hạn chế:
- Bạn có thể không còn cần cơ sở hạ tầng tính toán khổng lồ để phát triển các mô hình AI mạnh mẽ.
- Các phòng thí nghiệm nghiên cứu nhỏ hơn và các công ty có thể thử nghiệm phát triển mô hình tùy chỉnh.
- Việc giảm 28% thời gian huấn luyện trực tiếp đồng nghĩa với việc giảm chi phí tính toán.
- Quan trọng hơn, bạn có thể bắt đầu với nguồn lực tính toán khiêm tốn và vẫn đạt được kết quả chuyên nghiệp.
Đối với viễn cảnh phát triển AI:
- Nhiều người tham gia hơn vào lĩnh vực này, dẫn đến các giải pháp AI đa dạng và chuyên biệt hơn.
- Các trường đại học và viện nghiên cứu có thể thực hiện nhiều thí nghiệm hơn với các nguồn lực hiện có.
- Rào cản gia nhập nghiên cứu AI giảm đáng kể.
- Chúng ta có thể chứng kiến những ứng dụng mới trong các lĩnh vực mà trước đây không thể chi trả cho việc phát triển AI.
## Điều này có ý nghĩa gì cho tương lai
Bằng cách sử dụng các mô hình nhỏ hơn làm người hướng dẫn, chúng ta không chỉ làm cho việc huấn luyện AI hiệu quả hơn – mà còn thay đổi căn bản những ai có thể tham gia vào phát triển AI. Các tác động vượt xa những cải tiến kỹ thuật thuần túy.
Điều cần lưu ý:
- Việc giảm thời gian huấn luyện 28% chính là sự khác biệt giữa việc bắt đầu một dự án AI hay nghĩ rằng nó nằm ngoài tầm với.
- Các cải tiến về hiệu suất (34,87% trong toán học, 67% trong các nhiệm vụ đọc hiểu) cho thấy rằng khả năng tiếp cận không nhất thiết phải đánh đổi chất lượng.
- Phương pháp của SALT chứng minh rằng đôi khi những giải pháp tốt nhất đến từ việc suy nghĩ lại những nguyên tắc cơ bản thay vì chỉ thêm sức mạnh tính toán.
Những gì cần theo dõi:
- Quan sát các tổ chức nhỏ bắt đầu phát triển mô hình AI tùy chỉnh.
- Chú ý đến các ứng dụng mới trong các lĩnh vực trước đây không thể chi trả cho việc phát triển AI.
- Xem xét các đổi mới trong cách sử dụng các mô hình nhỏ cho các nhiệm vụ chuyên biệt.
Lưu ý rằng: Giá trị thực sự của SALT nằm ở cách nó có thể thay đổi ai sẽ tham gia vào việc đổi mới trong AI. Dù bạn đang điều hành một phòng thí nghiệm nghiên cứu, quản lý một nhóm công nghệ hay chỉ đơn giản quan tâm đến phát triển AI, đây là loại đột phá có thể giúp biến ý tưởng lớn tiếp theo của bạn thành hiện thực.
Có thể bạn nên bắt đầu suy nghĩ về dự án AI mà bạn từng nghĩ là ngoài tầm với. Nó có thể khả thi hơn bạn tưởng đấy.