Mình vừa đọc một bài nghiên cứu rất sâu sắc từ OpenAI và Georgia Tech với tựa đề “Why Language Models Hallucinate” (Tại sao các mô hình ngôn ngữ lại ảo giác). Bài báo không chỉ mô tả hiện tượng mà còn phân tích nó từ góc độ toán học và kinh tế-xã hội. Dưới đây là những điểm chính mình đã rút ra, hy vọng giúp mọi người hiểu rõ hơn về cách mà AI gen ra câu trả lời.
1. Nguồn gốc của ảo giác bắt đầu ngay từ lúc AI được huấn luyện
Nhiều người nghĩ ảo giác là lỗi phát sinh ngoài ý muốn, nhưng thực tế đây là hệ quả tất yếu khi AI học từ hàng tấn dữ liệu trên Internet (giai đoạn pretraining).
- Các nhà khoa học dùng một phương pháp gọi là quy giảm bài toán để chứng minh rằng:
Tạo ra câu trả lời đúng khó hơn phân biệt một câu cho trước là đúng hay sai rất nhiều. - Họ biến bài toán sáng tạo thành bài toán phân loại đơn giản “Có hợp lệ hay không” (Is-It-Valid), rồi chứng minh rằng:
Tỷ lệ lỗi ảo giác ≥ 2×Tỷ lệ lỗi phân loại sai
Nói dễ hiểu hơn, nếu AI còn không phân biệt đúng sai tốt thì việc nó tạo ra nhiều lỗi là điều hiển nhiên. - Nguyên nhân sâu xa gồm:
- Sự thật cô đơn (Singleton): Rất nhiều thông tin trong dữ liệu chỉ xuất hiện đúng một lần duy nhất.Đây là những thông tin không có quy luật, ví dụ như ngày sinh của một người không nổi tiếng. Mô hình không thể “suy luận” ra được mà chỉ có thể “nhớ” nên AI rất dễ nhớ sai hoặc tự “bịa” chi tiết khi gặp những dữ liệu hiếm này. Nếu 20% dữ liệu về chủ đề nào đó là singleton, AI sẽ ảo giác ít nhất 20% khi gặp chủ đề đó.
- Mô hình còn yếu: Kiến trúc AI có giới hạn, ví dụ các mô hình cũ như n-gram không hiểu được ngữ pháp phức tạp nên thường tạo câu vô nghĩa. Khi được hỏi “Có bao nhiêu chữ D trong từ DEEPSEEK?”, nhiều mô hình trả lời sai (2 hoặc 3) dù đây là câu hỏi đơn giản. Mô hình không có cơ chế đếm ký tự từng cái một.Nó phải suy luận dựa trên token đã được tách, rồi nội suy từ xác suất huấn luyện.
- GIGO – Rác vào rác ra: AI học từ Internet, nơi chứa rất nhiều thông tin sai, tin đồn, luận điệu không chính xác. Tất nhiên nó cũng sẽ tái tạo lại những nội dung “rác” đó.
- Distribution Shift (Lệch Phân Phối): Mô hình hoạt động tốt nhất khi dữ liệu đầu vào (prompt của bạn) tương tự như dữ liệu nó đã học (văn bản trên Internet). Khi bạn hỏi một câu hỏi có cấu trúc lạ hoặc “lắt léo” mà nó ít gặp, khả năng nó trả lời sai sẽ cao hơn.
- Ví dụ trong bài báo: Câu hỏi “Một cân lông và một cân chì, cái nào nặng hơn?” có thể không phổ biến trong dữ liệu huấn luyện và có thể khiến mô hình trả lời sai.
2. Vòng luẩn quẩn: Tại sao sửa càng nhiều càng sai?
Sau giai đoạn huấn luyện, người ta sẽ tinh chỉnh AI để nó an toàn và hữu ích hơn. Nhưng kỳ lạ là giai đoạn này lại khiến AI ảo giác nhiều hơn. Tại sao?
- Bài báo gọi đó là vấn đề “Kinh tế – Xã hội – Kỹ thuật”. Nghĩa là:
- Vấn đề kỹ thuật: Thuật toán, mô hình AI
- Vấn đề xã hội: Cách con người đánh giá và khuyến khích AI
- Cụ thể, AI đang bị ảnh hưởng bởi văn hóa “chạy đua leaderboard” – nói vui là train AI để đi thi, tức là đoán bừa thay vì thừa nhận không biết, thường theo kiểu:
Đúng được 1 điểm, sai hoặc nói ‘Tôi không biết’ (IDK) được 0 điểm. - Hãy tưởng tượng hai AI:
- Model A: Trung thực, không biết thì nói “Tôi không biết”
- Model B: Ranh mãnh, không biết thì đoán bừa
Model B sẽ luôn được điểm cao hơn vì đoán bừa có khi đúng. Kết quả là nhà phát triển có xu hướng ưu tiên AI đoán bừa, nghĩa là thưởng cho những câu trả lời sai mà trông tự tin, và phạt AI trung thực.
Bài báo kiểm tra rất nhiều bảng đánh giá hàng đầu đều rơi vào cái bẫy này.
3. Giải pháp: Thay đổi “luật chơi”
Vì vấn đề không chỉ từ thuật toán, nên cách sửa cũng không thể chỉ là nâng cấp mô hình. Cần thay đổi cách đánh giá AI:
- Đề xuất áp dụng hệ thống trừ điểm câu trả lời sai và đồng thời cho AI biết rõ luật chơi ngay trong prompt.
- Ví dụ:
“Hãy trả lời câu hỏi sau. Chỉ trả lời nếu bạn chắc chắn trên 90%, vì câu trả lời sai sẽ bị trừ 9 điểm, đúng được 1 điểm, còn ‘Tôi không biết’ được 0 điểm.” - Mục tiêu là đạt được Hiệu chuẩn hành vi (Behavioral Calibration). Hiệu chuẩn đo lường xem mức độ tự tin của mô hình có tương xứng với độ chính xác thực tế của nó không.
- Ví dụ: Một người dự báo thời tiết được gọi là “hiệu chuẩn tốt” nếu trong tất cả những ngày anh ta dự báo “70% khả năng mưa”, thì trời mưa thật khoảng 70% số ngày đó.
- Phát hiện thú vị: Bài báo chỉ ra rằng các mô hình gốc (pre-trained) thường được hiệu chuẩn khá tốt! Điều này là do mục tiêu tối ưu hóa của chúng (cross-entropy loss) tự nhiên dẫn đến sự hiệu chuẩn.
Vấn đề: Quá trình tinh chỉnh (post-training), đặc biệt là học tăng cường từ phản hồi con người (RLHF), có thể làm hỏng sự hiệu chuẩn này. Mô hình trở nên “tự tin thái quá”, giống như một học sinh luôn tỏ ra chắc chắn ngay cả khi đang đoán bừa để làm hài lòng người chấm.
4. Những vấn đề còn tồn tại
Dù rất sâu sắc, bài báo cũng thừa nhận một số hạn chế:
- AI có tìm kiếm (RAG) vẫn khó tránh lỗi nếu không tìm được thông tin đúng, vẫn bị khuyến khích đoán bừa.
- Phân tích khảo sát chính phù hợp với các câu hỏi ngắn, chưa áp dụng tốt cho các tác vụ sáng tạo dài như thơ văn.
- Việc phân loại thành Đúng/Sai/IDK vẫn còn đơn giản, chưa thể mô hình hóa đủ các cách con người thể hiện sự không chắc chắn trong ngôn ngữ. Trong thực tế, có rất nhiều cách để thể hiện sự không chắc chắn (ví dụ: “Tôi nghĩ rằng…”, “Thông tin phổ biến cho rằng…”, hoặc đưa ra một câu trả lời ít chi tiết hơn).
Kết luận
Ảo giác của AI không phải điều bí ẩn hay lỗi ngẫu nhiên mà là hệ quả hiển nhiên từ cách chúng ta huấn luyện và đánh giá AI ngày nay. Để xây dựng AI đáng tin cậy hơn, không chỉ cần mô hình lớn hơn hay thuật toán tốt hơn, mà còn cần một hệ thống đánh giá thông minh, minh bạch và tinh tế hơn. Vấn đề không chỉ ở máy mà còn ở cách con người ta làm việc với máy.
Hy vọng các bạn thấy bài viết này hữu ích để hiểu hơn về hiện tượng AI ảo giác nhé!