Lời nhắc Zero-Shot

Các mô hình ngôn ngữ lớn (LLM) ngày nay, chẳng hạn như GPT-3.5 Turbo, GPT-4 và Claude 3, được điều chỉnh để tuân theo hướng dẫn và được đào tạo trên lượng lớn dữ liệu. Việc đào tạo quy mô lớn làm cho những mô hình này có khả năng thực hiện một số nhiệm vụ theo cách “zero-shot”. Lời nhắc zero-shot có nghĩa là lời nhắc được sử dụng để tương tác với mô hình sẽ không chứa các ví dụ hoặc minh họa. Lời nhắc zero-shot trực tiếp hướng dẫn mô hình thực hiện một nhiệm vụ mà không cần bất kỳ ví dụ bổ sung nào để điều khiển nó.

Chúng tôi đã thử một số ví dụ về zero-shot trong phần trước. Đây là một trong những ví dụ (tức là phân loại văn bản) mà chúng tôi đã sử dụng:

Lời nhắc:

Classify the text into neutral, negative or positive. 
Text: I think the vacation is okay.
Sentiment:

Đầu ra:

Neutral

Lưu ý rằng trong lời nhắc ở trên, chúng tôi không cung cấp cho mô hình bất kỳ ví dụ nào về văn bản cùng với các phân loại của chúng, LLM đã hiểu “Sentiment” — đó là khả năng áp dụng zero-shot vào công việc.

Điều chỉnh hướng dẫn đã được chứng minh là cải thiện việc học zero-shot. Điều chỉnh lệnh về cơ bản là khái niệm về tinh chỉnh mô hình trên các tập dữ liệu được mô tả thông qua hướng dẫn. Hơn nữa, RLHF (học tăng cường từ phản hồi của con người) đã được áp dụng để điều chỉnh quy mô hướng dẫn trong đó mô hình được căn chỉnh để phù hợp hơn với sở thích của con người. Sự phát triển gần đây này hỗ trợ các mô hình như ChatGPT. Chúng ta sẽ thảo luận về tất cả các cách tiếp cận và phương pháp này trong các phần sắp tới.

Khi tính năng nhắc zero-shot không hiệu quả, bạn nên cung cấp minh họa hoặc ví dụ trong lời nhắc để dẫn đến nhắc nhở ít lần bắn. Trong phần tiếp theo, chúng tôi trình bày cách nhắc nhở few-shot.