GenAI là một dạng mới của trí tuệ nhân tạo, nơi mà thay vì biến các sáng tạo hỗn độn thành quyết định theo công thức, nó biến các quyết định theo công thức thành sáng tạo hỗn độn. Các bài viết này thảo luận về cách biến mớ hỗn độn đó thành giá trị thông qua việc giải thích các thực tiễn tốt nhất, mẹo, thủ thuật, công cụ và bài học.
Tóm tắt: Cho đến thời điểm này, nếu bạn không muốn trả tiền, bạn nên sử dụng Bing Chat, và nếu có, bạn nên dùng GPT-4!
Đấu trường Trí tuệ Nhân tạo
Kể từ khi ChatGPT ra mắt, chúng ta đã thấy nhiều mô hình trí tuệ nhân tạo khác nhau, bao gồm các mô hình độc quyền (thuộc sở hữu của các công ty), mô hình có sẵn miễn phí (cho mọi người sử dụng), và mô hình mã nguồn mở (có mã nguồn công khai cho cộng đồng).
Sẽ thật tuyệt nếu có một chỉ số ‘tốt’ cho các chatbot trí tuệ nhân tạo giúp chúng ta tìm hiểu các lựa chọn. Sự cạnh tranh tạo ra sự đổi mới, vì vậy chúng ta không muốn theo đuổi một trí tuệ nhân tạo mù quáng. Chỉ cần làm cho các thuật toán cạnh tranh với nhau để xem ai là tốt nhất…
Một trong những bài học rút ra từ “Simply Evil Number & How to Use Them” là khi chúng ta thường cố gắng biến cuộc sống trở nên có thể giải mã bằng cách chuyển đổi mong muốn chủ quan của chúng ta thành các chỉ số khách quan, điều này có thể gây ra những vấn đề.
Trí tuệ nhân tạo ‘tốt’ cho ai? Điều gì xác định sự tốt đẹp đối với bạn? Việc xác định sự ‘tốt’ chủ quan của chúng ta thành các chỉ số khách quan có thể khiến các công ty thay đổi thuật toán của họ chỉ để đạt được nhiều ‘điểm tốt’ hơn?
Những thách thức này rất khó khăn, nhưng một trong những nhóm đang làm rất tốt trong việc này là lmsys.org.
Thường, các mô hình trí tuệ nhân tạo được thử nghiệm bằng các đo lường tiêu chuẩn, thường là đánh giá chúng trên các bài kiểm tra công khai. Vấn đề là những bài kiểm tra công khai này thường chỉ xuất hiện trong dữ liệu huấn luyện của các mô hình LLMs, điều này có nghĩa là mô hình đoán đáp bài kiểm tra bằng cách ghi nhớ và không thật sự hiểu bài kiểm tra.
Nhóm tại LMSYS đề xuất hai phương pháp sáng tạo để kiểm thử các mô hình trí tuệ nhân tạo:
Một bộ câu hỏi khó ẩn từ nhiều chủ đề khác nhau, nơi các câu trả lời được đánh điểm bởi con người và các mô hình LLMs khác.
So sánh dựa vào cộng đồng của các cuộc đấu 1v1 giữa các chatbot, nơi người dùng thách thức hai bot một cách ẩn danh và lựa chọn giải pháp nào tốt hơn.
Thử thách đầu tiên, kết quả câu hỏi đa lượt trước định nghĩa, như “Viết cho tôi một blog du lịch về Hamunaptra” và sau đó “Viết lại blog đó nhưng làm cho nó có vần”, cung cấp một số nhận thức độc đáo:
- GPT-4 có khả năng ghi nhớ giống nhưng có vẻ như có khả năng lập luận vượt trội
- GPT-4 là mô hình LLM duy nhất có chất lượng đầu ra cải thiện sau khi nhận yêu cầu thứ hai
- Hầu hết các mô hình khác nhau chỉ một chút đôi chút, nhưng GPT-3/Claude chênh lệch một chữ số + GPT-4 chênh lệch khác
Từ những kết quả này, rõ ràng GPT-4 và các mô hình độc quyền khác (do các công ty sở hữu) nổi bật. Chúng vẫn hoạt động tốt hơn một số mô hình mới, đáng khâm phục như Llama-2, do Meta (trước đây là Facebook) phát triển, với chênh lệch 1.3 điểm so với GPT-3.5-turbo một mình.
Mặc dù bài kiểm tra đa lượt có thú vị, việc cho các bot cạnh tranh với nhau còn thú vị hơn nhiều.
Sử dụng dữ liệu được cung cấp bởi LMSYS ở đây, chúng tôi đã lấy phiếu bầu của mọi người về hai câu trả lời của AI Chatbot ẩn danh và sử dụng một số số liệu thống kê để mô phỏng 10.000 trận đấu hàng tuần trong 8 tuần qua. Điều này dẫn đến một bảng xếp hạng elo có thể so sánh, giống như cách các kỳ thủ cờ vua được so sánh sau các trận đấu của họ. Sau đó, chúng tôi tự tạo ra một biểu đồ về thứ tự xếp hạng ELO:
Phương pháp này đi kèm với một số lưu ý. Ví dụ, khi bạn để người dùng chọn các nhiệm vụ cho trí tuệ nhân tạo, chúng ta có thể không thử nghiệm AI đến mức tối đa khả năng của nó. Người dùng thông thường có thể không hỏi về sinh hóa học, điều mà Palm-2 có thể vượt trội so với một mô hình xếp hạng cao hơn tập trung vào việc tạo lời thoại con người. Chúng ta cũng đang chờ đợi Llama 2 mới của Meta (Facebook) và Claude 2 có đủ trận chiến để có thể so sánh. Tuy nhiên, bảng xếp hạng này vẫn là một chỉ số tốt về kỳ vọng trong cuộc trò chuyện của người dùng bình thường.
Biểu đồ cho thấy một số đặc điểm thú vị, như vị trí của ChatGLM, được tạo bởi ZhipuAI, “OpenAI của Trung Quốc”, hoặc tỷ lệ kích thước tham số so với hiệu suất của các mô hình. Nó cũng nhấn mạnh rằng Meta (Facebook) đã đóng vai trò quan trọng trong việc giúp nhiều mô hình không thương mại, có sẵn miễn phí và mã nguồn mở tiếp cận hơn. Mặc dù họ có thể không được xem là nhà tài trợ trực tiếp vì đã được điều chỉnh hoặc tăng cường bởi người khác, tác động của họ đã rất lớn.
GPT-4 là mô hình có vẻ như có 1.8 ngàn tỷ tham số, nhưng kiến trúc được đồn đại là thực tế là tám mô hình nhỏ hơn, mỗi mô hình có 220 tỷ tham số, và một trong số đó được chọn để trả lời câu hỏi của bạn tốt nhất.
Có những giả thuyết ngày càng tăng về việc giảm hiệu suất của GPT-4, được đồn đại là một việc tái kiến trúc và tối ưu hóa để tiết kiệm chi phí. Peter Welinder cho rằng điều này không phải là sự thật, và rằng người ta chỉ đang sử dụng nó nhiều hơn và nhận thấy nhược điểm khi kỳ vọng về khả năng thay đổi. Tuy nhiên, biểu đồ từ liên kết trên từ Stanford/Berkley chắc chắn cho thấy thuật toán không cố định và đang thay đổi, bao gồm cả hiệu suất.
Mô hình LLM đằng sau Bing Chat đã được xác nhận là GPT-4, và điều này đặc biệt rõ ràng khi được cung cấp nhiều tự do trong Chế độ Sáng tạo. Bing đã có một lần ra mắt gập ghềnh và bắt đầu tưởng tượng ra một số điều đáng ngờ, nhưng nhiều lỗi đó đã được khắc phục, khiến Bing Chat trở nên đáng khen ngợi hơn. Microsoft có thể đang bỏ tiền để hỗ trợ Bing Chat cạnh tranh với Google hoặc họ đã tối ưu hóa hiệu quả để giảm thiểu chi phí, hoặc cả hai, nhưng đó là một lựa chọn miễn phí tuyệt vời.
Thường xuyên, việc AI dựa vào kết quả có thể tìm kiếm, khi bạn đang cụ thể yêu cầu một cuộc điều tra/truy vấn, có thể mang lại lợi ích. Một kỹ thuật tuyệt vời để tận dụng Bing tốt hơn là yêu cầu nó trước tiên nghiên cứu về các phương pháp tốt nhất và sau đó thực hiện theo phương pháp tốt nhất đó. Ví dụ, bạn có thể muốn nó giúp bạn viết một bài diễn thuyết, vì vậy bạn đầu tiên yêu cầu nó chi tiết về những cách viết bài diễn thuyết hiệu quả được dựa trên nghiên cứu, sau đó yêu cầu nó đưa ra một danh sách ý tưởng về những điều để thảo luận và cuối cùng kết hợp phương pháp tốt nhất và các ý tưởng để tạo ra một bài diễn thuyết. Mẹo là khiến Bing cảm giác như nó đã thực hiện một cuộc tìm kiếm trên internet, để sau đó nó được phép giúp bạn.
Vào thời điểm 25/07/2023, đề xuất của chúng tôi về trí tuệ nhân tạo nào nên sử dụng là:
- Nếu bạn trả tiền cho GPT-4, hãy sử dụng nó, đặc biệt là cho việc lập luận.
- Hãy xem xét sử dụng Bing Chat, đặc biệt là khi yêu cầu của bạn liên quan đến điều tra/truy vấn.
- Nếu bạn không trả tiền, hãy xem xét việc sử dụng Claude 2 thông qua VPN, đặc biệt là cho tài liệu.
- Nếu không, vẫn có thể sử dụng ChatGPT miễn phí cơ bản, vì nó vẫn hoạt động và vẫn chưa có nhiều đối thủ cạnh tranh.
- Cuối cùng, nếu đó là vấn đề liên quan đến lập trình hoặc ngôn ngữ và các trí tuệ nhân tạo khác không thể giúp đỡ, hãy thử Google Bard.