Các phương pháp chuỗi suy nghĩ (CoT) dựa trên một tập hợp các mẫu cố định do con người chú thích. Vấn đề ở đây là các ví dụ mẫu có thể không phải là ví dụ hiệu quả nhất cho các nhiệm vụ khác nhau. Để giải quyết vấn đề này, Diao và cộng sự, (2023) gần đây đã đề xuất một phương pháp nhắc nhở mới có tên Active-Prompt để điều chỉnh LLM cho phù hợp với các lời nhắc mẫu dành riêng cho nhiệm vụ khác nhau (được chú thích bằng lý luận CoT do con người thiết kế).
Dưới đây là một minh họa của cách tiếp cận.
Bước đầu tiên là truy vấn LLM có hoặc không có một vài ví dụ CoT. k câu trả lời có thể được tạo ra cho một tập hợp các câu hỏi huấn luyện. Một thước đo độ không chắc chắn được tính toán dựa trên k câu trả lời (sử dụng sự không đồng ý). Những câu hỏi không chắc chắn nhất sẽ được con người lựa chọn để chú thích. Sau đó, các mẫu chú thích mới sẽ được sử dụng để suy ra từng câu hỏi.
Giải thích sơ đồ
1. Uncertainty Estimation (Ước lượng Độ Không Chắc Chắn)
Input:
- Các câu hỏi chưa có nhãn (Unlabeled Questions): Đây là các câu hỏi mà mô hình chưa có câu trả lời chính xác.
Process:
- Few-shot CoT (Chain of Thought) hoặc Zero-shot CoT:
- Few-shot CoT: Mô hình được cung cấp một vài ví dụ có giải thích chi tiết trước khi xử lý câu hỏi chưa có nhãn. Ví dụ:
- Q: There are 15 trees in the grove. Grove workers will…
- A: There are 15 trees originally… The answer is 6.
- Zero-shot CoT: Mô hình không được cung cấp ví dụ trước đó và phải tự suy nghĩ từng bước. Ví dụ:
- Q: <UNLABELED_QUESTION>
- A: Let’s think step by step.
- Few-shot CoT: Mô hình được cung cấp một vài ví dụ có giải thích chi tiết trước khi xử lý câu hỏi chưa có nhãn. Ví dụ:
- Ước lượng độ không chắc chắn: Mô hình dự đoán câu trả lời cho câu hỏi chưa có nhãn và ước lượng độ không chắc chắn của dự đoán đó.
- Ví dụ:
- Q_72: A robe takes 2 bolts of blue fiber and half that much white fiber. How many bolts in total does it take?
- Mô hình đưa ra 5 dự đoán khác nhau (ví dụ: 3, 3, 3, 3, 3), độ không chắc chắn 𝑢=1/5=0.2u=1/5=0.2.
- Ví dụ khác:
- Q_101: Ralph is going to practice playing tennis with a tennis ball machine that shoots…
- Mô hình đưa ra 5 dự đoán khác nhau (ví dụ: 1, 2, 3, 4, 5), độ không chắc chắn 𝑢=5/5=1.0u=5/5=1.0.
- Ví dụ:
2. Selection (Lựa chọn)
- Xếp hạng độ không chắc chắn: Dựa trên ước lượng độ không chắc chắn, các câu hỏi được xếp hạng theo mức độ không chắc chắn.
- Ví dụ: Các câu hỏi với 𝑢=1.0u=1.0 sẽ được xếp hạng cao nhất vì có độ không chắc chắn lớn nhất.
- Lựa chọn các câu hỏi không chắc chắn nhất: Các câu hỏi với độ không chắc chắn cao nhất được chọn để gán nhãn mới.
- Ví dụ: Q_101, Q_42, Q_62, Q_345, Q_66, Q_301, Q_87, Q_69
3. Annotation (Gán Nhãn)
- Tạo các ví dụ mới (New Exemplars 𝐸): Các câu hỏi không chắc chắn nhất được gán nhãn bởi con người hoặc một mô hình khác để tạo ra các câu trả lời chính xác và chi tiết.
- Ví dụ:
- Q_101: Ralph is going to practice playing tennis with a tennis ball machine…
- A: Ralph started with 175 tennis balls… The answer is 110.
- Q_87: Hans booked a room in a hotel… The answer is 90.
- Q_101: Ralph is going to practice playing tennis with a tennis ball machine…
- Ví dụ:
4. Inference (Suy Luận)
- Câu hỏi thử nghiệm (Test Question): Mô hình sử dụng các ví dụ đã được gán nhãn mới để cải thiện khả năng trả lời các câu hỏi thử nghiệm mới.
- Ví dụ:
- Q: Janet’s ducks lay 16 eggs per day. She eats three for breakfast…
- Ví dụ:
Tổng Kết
Kỹ thuật Active-prompt cải thiện hiệu suất của mô hình bằng cách:
- Xác định các câu hỏi mà mô hình không chắc chắn nhất.
- Gán nhãn các câu hỏi này để cung cấp thêm dữ liệu huấn luyện chính xác.
- Sử dụng dữ liệu mới này để cải thiện khả năng suy luận và trả lời của mô hình.