Thiết lập LLM

Khi thiết kế và thử nghiệm lời nhắc, bạn thường tương tác với mô hình ngôn ngữ lớn (LLM) thông qua API. Bạn có thể định cấu hình một số tham số để nhận được các kết quả khác nhau cho lời nhắc của mình. Việc tinh chỉnh các cài đặt này rất quan trọng để cải thiện độ tin cậy và mức độ mong muốn của phản hồi và cần một chút thử nghiệm để tìm ra cài đặt phù hợp cho trường hợp sử dụng của bạn. Dưới đây là các cài đặt phổ biến bạn sẽ gặp khi sử dụng các LLM khác nhau:

Temperature – Ngắn gọn, temperature càng thấp thì mô hình sẽ cho ra kết quả càng sát với những gì mà nó được huấn luyện. Nhiệt độ càng tăng thì sẽ cho kết quả càng mang tính ngẫu nhiên hơn, và điều này sẽ khuyến khích các kết quả đầu ra đa dạng hoặc sáng tạo, mèm dẻo hơn. Về cơ bản, bạn tăng trọng số của nó các token sản sinh ra có thể khác. Về mặt ứng dụng, bạn có thể muốn sử dụng giá trị nhiệt độ thấp hơn cho các nhiệm vụ như Đảm bảo chất lượng dựa trên thực tế để khuyến khích các phản hồi thực tế và ngắn gọn. Còn đối với việc tạo thơ hoặc các nhiệm vụ sáng tạo khác, việc tăng giá trị nhiệt độ có thể có ích hơn.

Top P – Một kỹ thuật lấy mẫu bằng nhiệt độ, được gọi là lấy mẫu hạt nhân, trong đó bạn có thể kiểm soát mức độ xác định của mô hình. Nếu bạn đang tìm kiếm câu trả lời chính xác và thực tế, hãy giữ mức này ở mức thấp. Nếu bạn đang tìm kiếm những phản hồi đa dạng hơn, hãy tăng lên giá trị cao hơn. Nếu bạn sử dụng Top P, điều đó có nghĩa là chỉ các mã thông báo có top_p khối lượng xác suất mới được xem xét cho các phản hồi, do đó top_p giá trị thấp sẽ chọn các phản hồi đáng tin cậy nhất. Điều này có nghĩa là top_p giá trị cao sẽ cho phép mô hình xem xét nhiều từ khả thi hơn, bao gồm cả những từ ít có khả năng xảy ra hơn, dẫn đến kết quả đầu ra đa dạng hơn.

Khuyến cáo chung là thay đổi hoặc là temprature hoặc Top P nhưng không thay đổi cả hai.

Max Length – Bạn có thể quản lý số lượng token mà mô hình tạo ra bằng cách điều chỉnh giá trị max length. Việc chỉ định độ dài tối đa giúp bạn ngăn chặn các phản quá hồi dài hoặc không liên quan và từ đó kiểm soát được chi phí sử dụng LLM.

Stop Sequences – stop sequence là chuỗi ngăn mô hình tạo token. Nó chỉ định trình tự dừng là một cách khác để kiểm soát độ dài và cấu trúc phản hồi của mô hình. Ví dụ: bạn có thể yêu cầu mô hình tạo danh sách có không quá 10 mục bằng cách thêm “11” làm chuỗi dừng.

Frequency Penalty – Áp frequency penalty dụng hình phạt cho token tiếp theo tỷ lệ thuận với số lần token đó đã xuất hiện trong phản hồi và lời nhắc. Hình phạt tần suất càng cao thì khả năng một từ xuất hiện lại sẽ càng ít. Cài đặt này làm giảm sự lặp lại của các từ trong phản hồi của mô hình bằng cách đưa ra các token xuất hiện mức phạt cao hơn.

Presence Penalty – presence penalty phạt cũng áp dụng cho các token lặp lại, nhưng không giống như hình phạt tần suất, hình phạt giống nhau đối với tất cả các token lặp lại. Với token xuất hiện hai lần và token xuất hiện 10 lần đều bị phạt như nhau. Cài đặt này ngăn chặn mô hình lặp lại các cụm từ quá thường xuyên trong phản hồi của nó. Nếu bạn muốn mô hình tạo ra văn bản đa dạng hoặc sáng tạo, bạn có thể muốn sử dụng hình phạt hiện diện cao hơn. Hoặc, nếu bạn cần mô hình tập trung hơn, hãy thử sử dụng hình phạt hiện diện thấp hơn.

Tương tự như temperature và top_p, khuyến nghị chung là chỉ thay đổi một trong 2 tần suất hoặc hình phạt hiện diện và không nên thay đổi cả hai.

Trước khi bắt đầu với một số ví dụ cơ bản, hãy nhớ rằng kết quả đầu ra của bạn có thể khác nhau tùy thuộc vào phiên bản LLM bạn sử dụng.

* Token: Đây là một dạng biễu diễn số của một đơn vị dữ liệu trong không gian của mạng Neuron. Trong trường hợp là chữ thì nó có thể tương đương với một từ nào đó tuy nhiên với dữ liệu hình ảnh hay video thì có thể tương đương với những đơn vị khác.