Nhắc có gợi ý định hướng (DSP)

Li và cộng sự, (2023) đã đề xuất một kỹ thuật nhắc mới để hướng dẫn LLM tốt hơn trong việc tạo bản tóm tắt mong muốn dựa trên một điều chỉnh đến LM có thể điều chỉnh để tạo ra kích thích/gợi ý. Xem thêm các nội dung về học tăng cường để tối ưu hóa LLM.

Hình dưới đây cho thấy cách nhắc nhở có gợi ý định hướng so với nhắc nhở tiêu chuẩn

Giải thích:

  1. Input text (Văn bản gốc):
    • Bài viết từ CNN về việc Bob Barker, một huyền thoại truyền hình, quay trở lại dẫn chương trình “The Price Is Right” sau tám năm. Bob Barker, người từng dẫn chương trình trong 35 năm trước khi nghỉ hưu năm 2007, đã trở lại vào ngày 1 tháng 4 ở tuổi 91. Ông đảm nhận trò chơi đoán giá đầu tiên trước khi chuyển giao cho Drew Carey.
  2. Reference (Tham khảo):
    • Câu tóm tắt tham khảo: “Bob Barker returned to host ‘The Price Is Right’ on Wednesday. Barker, 91, had retired as host in 2007.”
  3. Directional Stimulus Prompting (DSP):
    • Câu hỏi: Summarize the above article briefly in 2-3 sentences based on the hint.
    • Gợi ý (Hint): Bob Barker; TV; April 1; “The Price Is Right”; 2007; 91.
    • Model output (Kết quả mô hình): “On April 1, Bob Barker returned to the TV show ‘The Price Is Right’ after eight years. Looking spry at 91, Barker handled the first price-guessing game. Barker stepped down as host in 2007, but didn’t seem to miss a beat.”
    • ROUGE-1 Score: 48.39 (biểu thị bằng biểu tượng 👍).
  4. Standard Prompting (SP):
    • Câu hỏi: Summarize the above article briefly in 2-3 sentences.
    • Model output (Kết quả mô hình): “Bob Barker, the former host of ‘The Price Is Right’, returned to the show for the first time in 8 years. He hosted the first game of the show, and then handed the hosting duties over to Drew Carey.”
    • ROUGE-1 Score: 34.48 (biểu thị bằng biểu tượng 👎).
  • Directional Stimulus Prompting (DSP): Là phương pháp cung cấp thêm gợi ý cụ thể (hint) giúp mô hình tập trung vào các chi tiết quan trọng cần được tóm tắt. Kết quả mô hình cho thấy hiệu quả cao hơn (ROUGE-1: 48.39) so với phương pháp chuẩn.
  • Standard Prompting (SP): Là phương pháp thông thường, chỉ đưa ra yêu cầu tóm tắt mà không cung cấp gợi ý. Kết quả mô hình cho thấy hiệu quả thấp hơn (ROUGE-1: 34.48).

Phương pháp DSP đã cải thiện đáng kể độ chính xác và chất lượng của tóm tắt, điều này được thể hiện qua điểm số ROUGE-1 cao hơn và biểu tượng 👍 biểu thị sự hiệu quả.