Tác giả: Aayush Mittal
ngày 3 tháng 11 năm 2023
Giới thiệu
Kỹ thuật tạo lời gợi ý tập trung vào việc tạo ra lời gợi ý hiệu quả để hướng dẫn các Mô hình Ngôn ngữ Lớn (LLMs) như GPT-4 trong việc tạo ra các phản ứng mong muốn. Một lời gợi ý được thiết kế tốt có thể là sự khác biệt giữa một câu trả lời mập mờ hoặc không chính xác và một câu trả lời chính xác, sâu sắc.
Trong hệ sinh thái rộng lớn của Trí tuệ Nhân tạo, kỹ thuật tạo lời gợi ý là một trong số các phương pháp được sử dụng để trích xuất thông tin chính xác hơn và liên quan đến ngữ cảnh từ các mô hình ngôn ngữ. Các phương pháp khác bao gồm kỹ thuật học trong vài lần thử nghiệm, trong đó mô hình được cung cấp một vài ví dụ để giúp nó hiểu nhiệm vụ, và kỹ thuật điều chỉnh fine-tuning, trong đó mô hình được đào tạo thêm trên một tập dữ liệu nhỏ hơn để làm cho các phản ứng của nó trở nên chuyên sâu hơn.
Google DeepMind vừa mới đăng tải hai bài báo nghiên cứu nghiên cứu tạo lời gợi ý và tiềm năng của nó trong việc cải thiện các phản ứng trong nhiều tình huống khác nhau.
Những bài báo này là một phần của sự thám hiểm liên tục trong cộng đồng Trí tuệ Nhân tạo để làm cho cách chúng ta giao tiếp với các mô hình ngôn ngữ trở nên tinh chỉnh và tối ưu hơn, và chúng mang đến cái nhìn mới mẻ về cách cấu trúc lời gợi ý để xử lý truy vấn và tương tác với cơ sở dữ liệu tốt hơn.
Bài viết này đi sâu vào chi tiết của những bài báo nghiên cứu này, làm rõ các khái niệm, phương pháp, và tác động của các kỹ thuật được đề xuất, giúp cho ngay cả độc giả có kiến thức hạn chế về Trí tuệ Nhân tạo và Xử lý ngôn ngữ tự nhiên có thể hiểu.
Bài báo 1: Mô hình Ngôn ngữ Lớn như Các Nhà Tư duy Liên Hồi
Bài báo đầu tiên, mang tiêu đề “Mô hình Ngôn ngữ Lớn như Các Nhà Tư duy Liên Hồi,” giới thiệu một phương pháp gợi ý mới được đặt tên là Gợi ý Liên Hồi. Các tác giả, Michihiro Yasunaga, Xinyun Chen và những người khác, lấy cảm hứng từ tư duy liên hồi – một quá trình nhận thức mà con người sử dụng kinh nghiệm quá khứ để giải quyết các vấn đề mới.
Các Khái Niệm Quan Trọng và Phương Pháp
Gợi ý Liên Hồi khuyến khích các Mô hình Ngôn ngữ Lớn tự tạo ra các ví dụ hoặc kiến thức liên quan trong ngữ cảnh trước khi tiến hành giải quyết một vấn đề cụ thể. Phương pháp này loại bỏ nhu cầu có các ví dụ được gán nhãn, cung cấp tính tổng quát và tiện lợi, và điều chỉnh các ví dụ được tạo ra cho từng vấn đề cụ thể, đảm bảo tính linh hoạt.
Ví dụ Tự tạo
Kỹ thuật đầu tiên được giới thiệu trong bài báo là ví dụ tự tạo. Ý tưởng là sử dụng kiến thức rộng lớn mà các Mô hình Ngôn ngữ Lớn đã tích lũy trong quá trình đào tạo để giúp họ giải quyết các vấn đề mới. Quá trình này bao gồm việc bổ sung một vấn đề mục tiêu bằng hướng dẫn để khuyến khích mô hình nhớ lại hoặc tạo ra các vấn đề và giải pháp có liên quan.
Ví dụ, khi được đưa ra một vấn đề, mô hình được hướng dẫn để nhớ lại ba vấn đề và giải pháp có liên quan và mô tả chúng, sau đó giải thích chúng. Quá trình này được thiết kế để thực hiện trong một lần đi qua duy nhất, cho phép Mô hình Ngôn ngữ Lớn tạo ra các ví dụ có liên quan và giải quyết vấn đề ban đầu một cách trơn tru. Việc sử dụng các biểu tượng ‘#’ trong các lời gợi ý giúp cấu trúc câu trả lời, làm cho nó trở nên có tổ chức hơn và dễ dàng cho mô hình theo dõi.
Các quyết định kỹ thuật quan trọng được nhấn mạnh trong bài báo bao gồm việc tập trung vào việc tạo ra các ví dụ có liên quan và đa dạng, sử dụng phương pháp chỉ cần đi qua một lần để đảm bảo tính tiện lợi hơn, và phát hiện rằng việc tạo ra từ ba đến năm ví dụ mang lại kết quả tốt nhất.
Kiến Thức Tự tạo + Ví dụ
Kỹ thuật thứ hai, tự tạo kiến thức + ví dụ, được giới thiệu để đối phó với các thách thức trong các nhiệm vụ phức tạp hơn, như tạo mã. Trong những tình huống như vậy, các Mô hình Ngôn ngữ Lớn có thể overly phụ thuộc vào các ví dụ cấp thấp và gặp khó khăn trong việc tổng quát hóa khi giải quyết các vấn đề mục tiêu. Để giảm thiểu điều này, các tác giả đề xuất cải thiện lời gợi ý bằng một hướng dẫn bổ sung khuyến khích mô hình xác định các khái niệm cốt lõi trong vấn đề và cung cấp một hướng dẫn hoặc kết quả cao cấp.
Một yếu tố quan trọng là thứ tự mà kiến thức và ví dụ được tạo ra. Các tác giả đã phát hiện rằng việc tạo ra kiến thức trước ví dụ dẫn đến kết quả tốt hơn, vì nó giúp Mô hình Ngôn ngữ Lớn tập trung vào các phương pháp giải quyết vấn đề cơ bản hơn là chỉ tập trung vào sự tương tự ở mức bề mặt.
Lợi ích và Ứng dụng
Phương pháp gợi ý Liên Hồi mang lại nhiều lợi ích. Nó cung cấp các ví dụ chi tiết về quyết định mà không cần phải đánh dấu thủ công, giải quyết các thách thức liên quan đến các phương pháp không cần ghi chú 0-shot và few-shot chain-of-thought (CoT). Hơn nữa, các ví dụ được tạo ra được tùy chỉnh cho từng vấn đề cụ thể, cung cấp hướng dẫn có liên quan hơn so với phương pháp few-shot CoT truyền thống, mà sử dụng các ví dụ cố định.
Bài báo chứng minh tính hiệu quả của phương pháp này trong nhiều nhiệm vụ tư duy khác nhau, bao gồm giải quyết vấn đề toán học, tạo mã và các nhiệm vụ tư duy khác trong BIG-Bench.
Các bảng dưới đây trình bày các chỉ số hiệu suất của các phương pháp gợi ý khác nhau trên các kiến trúc mô hình khác nhau. Đáng chú ý, phương pháp “Ví dụ Tự tạo” liên tục vượt trội hơn so với các phương pháp khác về độ chính xác. Trong độ chính xác GSM8K, phương pháp này đạt hiệu suất tốt nhất trên mô hình PaLM2 với 81.7%. Tương tự, đối với độ chính xác MATH, nó dẫn đầu bảng xếp hạng trên GPT3.5-turbo với 37.3%.
Trong bảng thứ hai, đối với các mô hình GPT3.5-turbo-16k và GPT4, phương pháp “Kiến Thức Tự tạo + Ví dụ” cho thấy hiệu suất tốt nhất.
Bài báo 2: Tiến Một Bước Lại: Kích thích Tư duy thông qua Khái quát trong Mô hình Ngôn ngữ Lớn
Tổng quan
Bài báo thứ hai, “Tiến Một Bước Lại: Kích thích Tư duy thông qua Khái quát trong Mô hình Ngôn ngữ Lớn,” giới thiệu Step-Back Prompting, một kỹ thuật khuyến khích các Mô hình Ngôn ngữ Lớn trừu tượng hóa các khái niệm cấp cao và nguyên tắc cơ bản từ các ví dụ chi tiết. Các tác giả, Huaixiu Steven Zheng, Swaroop Mishra và những người khác nhằm cải thiện khả năng tư duy của các Mô hình Ngôn ngữ Lớn bằng cách hướng dẫn chúng theo một lối tư duy chính xác đến lời giải.
Hãy tạo một ví dụ đơn giản hơn bằng cách sử dụng một câu hỏi toán học cơ bản để minh họa kỹ thuật “Câu hỏi Bước Lại”:
Câu Hỏi Gốc: Nếu một chuyến tàu di chuyển với vận tốc 60 km/h và đi qua một khoảng cách 120 km, thì nó sẽ mất bao lâu?
Lựa Chọn:
3 giờ 2 giờ 1 giờ 4 giờ Câu Trả Lời Gốc [Không Chính Xác]: Câu trả lời chính xác là 1).
Câu Hỏi Bước Lại: Công thức cơ bản để tính thời gian dựa trên vận tốc và khoảng cách là gì?
Nguyên Tắc: Để tính thời gian, chúng ta sử dụng công thức: Thời gian = Khoảng cách / Vận tốc
Câu Trả Lời Cuối Cùng: Sử dụng công thức, Thời gian = 120 km / 60 km/h = 2 giờ. Câu trả lời chính xác là 2) 2 giờ.
Câu Hỏi Gốc: Nếu một chuyến tàu di chuyển với vận tốc 60 km/h và đi qua một khoảng cách 120 km, thì nó sẽ mất bao lâu?
Lựa Chọn:
3 giờ 2 giờ 1 giờ 4 giờ Câu Trả Lời Gốc [Không Chính Xác]: Câu trả lời chính xác là 1).
Câu Hỏi Bước Lại: Công thức cơ bản để tính thời gian dựa trên vận tốc và khoảng cách là gì?
Nguyên Tắc: Để tính thời gian, chúng ta sử dụng công thức: Thời gian = Khoảng cách / Vận tốc
Câu Trả Lời Cuối Cùng: Sử dụng công thức, Thời gian = 120 km / 60 km/h = 2 giờ. Câu trả lời chính xác là 2) 2 giờ.
Dù cho hiện nay các Mô hình Ngôn ngữ Lớn có thể dễ dàng trả lời câu hỏi ở trên, ví dụ này chỉ để minh họa cách kỹ thuật “Bước Lại” hoạt động. Đối với các tình huống phức tạp hơn, cùng kỹ thuật có thể được áp dụng để phân tích và giải quyết vấn đề một cách có hệ thống. Dưới đây là một trường hợp phức tạp hơn được thể hiện trong bài báo:
Các khái niệm & phương pháp luận
Bản chất của Kỹ thuật “Bước Lại” nằm trong khả năng khiến các Mô hình Ngôn ngữ Lớn thực hiện một bước lùi ẩn dụ, khuyến khích chúng nhìn vào bức tranh lớn hơn thay vì bị mất trong chi tiết. Điều này được đạt được thông qua một loạt các lời gợi ý được thiết kế cẩn thận, hướn dẫn các Mô hình Ngôn ngữ Lớn trừu tượng hóa thông tin, rút ra các khái niệm cấp cao và áp dụng các khái niệm này để giải quyết vấn đề cụ thể.
Quá trình bắt đầu khi Mô hình Ngôn ngữ Lớn được khuyến khích trừu tượng hóa chi tiết từ các trường hợp cụ thể được cung cấp, khuyến khích nó tập trung vào các khái niệm và nguyên tắc cơ bản. Bước này quan trọng vì nó thiết lập cơ sở cho Mô hình Ngôn ngữ Lớn tiếp cận vấn đề từ một góc độ có kiến thức hơn và nguyên tắc hơn.
Khi các khái niệm cấp cao được rút ra, chúng được sử dụng để hướn dẫn Mô hình Ngôn ngữ Lớn qua các bước tư duy để tìm lời giải. Hướng dẫn này đảm bảo rằng Mô hình Ngôn ngữ Lớn duy trì trên đường đúng, tuân theo một lộ trình hợp lý và có cơ sở trên các khái niệm và nguyên tắc trừu tượng.
Các tác giả tiến hành một loạt các thí nghiệm để xác minh tính hiệu quả của Kỹ thuật “Bước Lại,” sử dụng các mô hình PaLM-2L trong nhiều nhiệm vụ tư duy phức tạp đòi hỏi tư duy. Các nhiệm vụ này bao gồm các vấn đề STEM, Knowledge QA và Multi-Hop Reasoning, tạo nên một bộ thử nghiệm toàn diện để đánh giá kỹ thuật này.
Kết quả ấn tượng khi thực hiện nhiệm vụ
Kết quả là ấn tượng, khi Kỹ thuật “Bước Lại” dẫn đến sự cải thiện đáng kể về hiệu suất trên tất cả các nhiệm vụ. Ví dụ, kỹ thuật này tăng cường hiệu suất của PaLM-2L trên MMLU Physics và Chemistry lần lượt lên đến 7% và 11%. Tương tự, nó cải thiện hiệu suất trên TimeQA lên 27% và trên MuSiQue lên 7%.
Các kết quả này làm nổi bật tiềm năng của Kỹ thuật “Bước Lại” để cải thiện đáng kể khả năng tư duy của các Mô hình Ngôn ngữ Lớn.
Kết Luận
Cả hai bài báo từ Google DeepMind giới thiệu các phương pháp sáng tạo trong việc tạo lời gợi ý, nhằm mục tiêu cải thiện khả năng tư duy của các mô hình ngôn ngữ lớn. Gợi ý Liên Hồi tận dụng khái niệm tư duy liên hồi, khuyến khích các mô hình tạo ra các ví dụ và kiến thức của riêng họ, dẫn đến khả năng giải quyết vấn đề linh hoạt và hiệu quả hơn. Ngược lại, Kỹ thuật “Bước Lại” tập trung vào khái quát, hướng dẫn các mô hình rút ra các khái niệm và nguyên tắc cấp cao, từ đó cải thiện khả năng tư duy của chúng.
Những bài báo nghiên cứu này cung cấp cái nhìn và phương pháp quý báu có thể áp dụng trong nhiều lĩnh vực khác nhau, giúp tạo ra các mô hình ngôn ngữ thông minh và có khả năng hơn. Khi chúng ta tiếp tục khám phá và hiểu sâu hơn về những phức tạp trong kỹ thuật tạo lời gợi ý, các phương pháp này đóng vai trò như những bước tiến quan trọng để đạt được các hệ thống Trí tuệ Nhân tạo tiên tiến và phức tạp hơn.