Chúng ta tiếp xúc với ChatGPT hay Bard và thấy rằng khi chúng ta hỏi thì nó nhả lại từng chữ hoặc câu nào đó một cách liên tục và có ý nghĩa trong khi các chuyên gia công nghệ nói rằng những câu chữ được sắp xếp có vẻ liền lạc kia lại không phải thứ được chuẩn bị sẵn hoặc đã được lên kịch bản trả lời. Vậy những từ và chữ nó nhả lại là như thế nào và dựa vào đâu? Hãy cùng myGPT tìm hiểu các bạn nhé:
Cơ sở lý thuyết
Dự đoán từ tiếp theo, hay Autoregression là một khái niệm trong lĩnh vực thống kê và học máy được sử dụng để mô tả một loại mô hình dự đoán dựa trên quan hệ giữa một quan sát và một số quan sát trước đó của chính nó. Đây là một phương pháp phổ biến trong dự báo chuỗi thời gian.
Mô hình autoregressive (AR) có dạng sau:
Y_t = c + φ1*Y_t-1 + φ2*Y_t-2 + ... + φp*Y_t-p + ε_t
trong đó:
- Y_t là giá trị cần dự đoán tại thời điểm t.
- c là hằng số (hoặc offset).
- φ1, φ2, …, φp là các hệ số autoregressive.
- Y_t-1, Y_t-2, …, Y_t-p là các giá trị quan sát trước đó.
- ε_t là lỗi dự đoán tại thời điểm t.
- p là độ trễ (lag order) mô tả số lượng các bước thời gian trong quá khứ mà mô hình sẽ “nhìn lại” để dự đoán giá trị hiện tại.
Phương pháp này giả định rằng giá trị hiện tại của chuỗi thời gian có thể được dự đoán từ các giá trị trong quá khứ của chính nó. Điều này có nghĩa là, nó sử dụng “tự hồi quy” (đó là ý nghĩa của từ “auto” trong “autoregression”) để dự đoán giá trị trong tương lai.
Để ước lượng các hệ số của mô hình AR, chúng ta thường sử dụng phương pháp hồi quy tối thiểu bình phương thông thường (Ordinary Least Squares – OLS).
Một trong những giả định chính của mô hình autoregressive là chuỗi thời gian đang được mô phỏng phải là chuỗi thời gian dừng (stationary), tức là các thuộc tính thống kê cơ bản của chuỗi (như trung bình và phương sai) không thay đổi theo thời gian.
Những ứng dụng của dự đoán điển hình được ứng dụng ở đâu?
- Dự đoán giá cổ phiếu: Mô hình AR có thể được sử dụng để dự đoán giá cổ phiếu trong tương lai dựa trên các giá trị quan sát trước đó. Ví dụ, giả sử bạn có dữ liệu giá cổ phiếu hàng ngày trong vòng 1 năm và bạn muốn dự đoán giá trong ngày tiếp theo. Mô hình AR có thể được huấn luyện trên dữ liệu quá khứ để dự đoán giá cổ phiếu trong ngày tiếp theo.
- Dự báo nhiệt độ: Mô hình AR có thể được sử dụng để dự đoán nhiệt độ trong tương lai dựa trên các quan sát quá khứ. Ví dụ, nếu bạn có dữ liệu nhiệt độ hàng ngày trong vòng một năm và muốn dự đoán nhiệt độ trong ngày tiếp theo, mô hình AR có thể được sử dụng.
- Dự báo nhu cầu sản phẩm: Trong quản lý chuỗi cung ứng, mô hình AR có thể được sử dụng để dự đoán nhu cầu sản phẩm dựa trên lịch sử bán hàng quá khứ. Điều này giúp các doanh nghiệp quản lý kho hàng và lên kế hoạch sản xuất một cách hiệu quả.
Chú ý rằng trong thực tế, AR thường được kết hợp với các mô hình khác như MA (Moving Average) để tạo thành mô hình ARMA hoặc ARIMA, những mô hình này có khả năng xử lý một loạt các vấn đề phức tạp hơn và cung cấp kết quả dự đoán chính xác hơn.
Vậy còn dự đoán trong mô hình ngôn ngữ với dữ liệu đào tạo là text thế nào?
Các mô hình học máy như BERT, GPT-3 hoặc GPT-4 của OpenAI được huấn luyện để hiểu và tạo ra ngôn ngữ tự nhiên, và họ có thể được sử dụng để dự đoán văn bản mà người dùng có thể hỏi. Những mô hình này có thể học được các mô hình ngôn ngữ tổng quát từ dữ liệu huấn luyện và sau đó áp dụng những mô hình này để dự đoán văn bản trong tình huống cụ thể.
Trong mô hình dịch vụ hỏi đáp, mô hình học máy thường được sử dụng để hiểu câu hỏi từ người dùng, sau đó tìm kiếm câu trả lời phù hợp từ một tập dữ liệu hoặc tạo ra câu trả lời dựa trên những gì nó đã học.
Tuy nhiên, cần lưu ý rằng trong khi những mô hình này có thể tạo ra dự đoán văn bản một cách khá chính xác, chúng vẫn không thể hiểu ngôn ngữ và thế giới xung quanh như con người. Mô hình học máy không có khả năng suy nghĩ, cảm nhận hoặc sáng tạo như con người, và các dự đoán của chúng dựa hoàn toàn trên dữ liệu huấn luyện mà chúng đã nhìn thấy.
Ngoài ra, chúng tôi cũng cần chú ý về vấn đề bảo mật và quyền riêng tư khi sử dụng các mô hình học máy để dự đoán văn bản từ người dùng. Các mô hình này nên được thiết kế để tuân thủ tất cả các quy định về bảo mật và quyền riêng tư, và người dùng nên được thông báo rõ ràng về cách dữ liệu của họ được sử dụng và bảo vệ.
Ví dụ cụ thể về dự đoán từ tiếp theo sẽ xuất hiện đối với hỏi đáp
Dự đoán “next token” (hay từ tiếp theo) là một phần quan trọng của việc huấn luyện một mô hình ngôn ngữ như GPT-3 hoặc GPT-4. Mô hình này nhìn vào chuỗi các từ đã xuất hiện trước đó và dự đoán từ nào sẽ xuất hiện tiếp theo.
Ví dụ, giả sử rằng một hệ thống hỏi đáp được đưa câu hỏi: “Thủ đô của Việt Nam là gì?” Mô hình đã được huấn luyện trên một lượng lớn dữ liệu văn bản, bao gồm cả thông tin về các thủ đô của các quốc gia. Vì vậy, nó có thể dự đoán token tiếp theo (hay từ tiếp theo) là “Hà Nội”.
Quy trình hoạt động cụ thể như sau:
- Mô hình nhận input là chuỗi các token: [“Thủ”, “đô”, “của”, “Việt”, “Nam”, “là”, “gì”, “?”]
- Sau đó, mô hình sẽ dự đoán token tiếp theo. Trong trường hợp này, token tiếp theo mà nó dự đoán có thể là “Hà Nội”.
- Mô hình sau đó thêm token mới này vào chuỗi đầu vào: [“Thủ”, “đô”, “của”, “Việt”, “Nam”, “là”, “gì”, “?”, “Hà”, “Nội”]
- Quy trình này lặp lại cho đến khi mô hình quyết định dừng, thường là khi nó dự đoán ra token đại diện cho kết thúc câu hoặc đạt đến một giới hạn độ dài nhất định cho câu trả lời.
Nhưng cần lưu ý rằng, dù mô hình có thể dự đoán chính xác từ tiếp theo trong câu, nhưng vẫn có thể có sai sót hoặc không chính xác hoàn toàn do giới hạn của mô hình và dữ liệu huấn luyện.
Kết luận
Bài viết này không hướng tới việc đi quá sâu vào tìm hiểu bản chất thực sự của việc dự đoán chữ của ChatGPT hay Google Bard tuy nhiên nó sẽ giúp bạn có một góc nhìn khác khi chuẩn bị dữ liệu training riêng đối với dữ liệu của tổ chức rằng khi tương tác với người dùng thì thuật toán sẽ được hạn chế dựa trên những gì mà chúng ta chuẩn bị sao cho phù hợp với thứ mình mong muốn.
Việc chuẩn bị này sẽ không thể hướng tới cung cấp dữ liệu cho mọi vấn đề có liên quan để cả chúng ta và người sử dụng hiểu rằng nó sẽ bó hẹp trong thứ mà chúng ta chuẩn bị khi đưa vào các vector lưu trữ hoặc khi làm dữ liệu chúng ta cũng cần phải kiểm soát chặt các từ hoặc cấu trúc từ ngữ phân bổ chính xác trong tập dữ liệu lưu trữ và giảm thiểu nhiễu ngữ nghĩa của mô hình.