Google có rất nhiều điều cần chứng minh?
Google đã chính thức giới thiệu mô hình trí tuệ nhân tạo được đông đảo mong đợi của họ, có tên là Gemini – mà họ tuyên bố mạnh mẽ hơn mô hình ngôn ngữ lớn (LLM) GPT-4 của OpenAI, và nói rằng nó có thể cạnh tranh với con người ở mức độ “chuyên gia” trong một bài kiểm tra trí tuệ.
Mô hình này, mà CEO Sundar Pichai đã giới thiệu lần đầu tiên trong hội nghị I/O của công ty vào tháng 5, sẽ xuất hiện dưới ba dạng: Nano, Pro và Ultra, trong đó Ultra là mạnh mẽ nhất và được cho là có thể vượt qua GPT-4.
Theo một bài đăng trên blog chính thức, “phiên bản được điều chỉnh tinh tế của Gemini Pro” đã được tích hợp vào chatbot Bard của Google. Ultra đang trải qua “kiểm tra an toàn và độ tin cậy mở rộng” và “điều chỉnh tinh tế,” nhưng cuối cùng sẽ được tích hợp vào Bard “đầu năm sau.”
Tuy nhiên, ngoài một số đoạn video minh họa đơn giản mà công ty chia sẻ hôm nay, đó là hầu hết những gì chúng ta biết về trí tuệ nhân tạo mới nhất của Google. Chúng ta không biết, ví dụ, nó có bao nhiêu tham số hoặc dữ liệu nó được huấn luyện, làm cho so sánh chính xác giữa các mô hình trí tuệ nhân tạo cạnh tranh trở nên không thể.
Điều này chưa kể đến sự thiếu hụt rõ ràng của một tiêu chuẩn ngành công nghiệp được đồng thuận, được chấp nhận chung để đo lường trí tuệ của bất kỳ mô hình trí tuệ nhân tạo nào.
Đơn giản là, chúng ta chỉ nghe thấy một số lời quảng cáo — và bây giờ công ty có rất nhiều điều cần chứng minh.
Theo bài đăng trên blog, Gemini là “đa chế độ ngôn ngữ tự nhiên” tức là nó có thể “kết hợp các loại thông tin khác nhau bao gồm văn bản, mã, âm thanh, hình ảnh và video.”
Trong một loạt video, Google đã trình diễn khả năng của Gemini. Một video cho thấy một chương trình đang nhận diện chính xác một bức tranh của một con vịt màu xanh. Một video khác cho thấy trí tuệ nhân tạo đang đọc câu trả lời của một sinh viên đối với các câu hỏi toán học và giải thích vì sao sinh viên đó đúng hoặc sai.
Nhưng nó thực sự so sánh ra sao so với GPT-4 của OpenAI?
Trong thông báo của họ hôm nay, công ty tuyên bố rằng mô hình Gemini Ultra của họ đạt điểm 90% trên bài kiểm tra MMLU (hiểu ngôn ngữ đa nhiệm lớn) sử dụng “sự kết hợp của 57 chủ đề như toán, vật lý, lịch sử, luật, y học và đạo đức để kiểm tra cả kiến thức thế giới và khả năng giải quyết vấn đề.”
Điều này khiến nó trở thành “mô hình đầu tiên vượt qua các chuyên gia con người” trong bài kiểm tra này. Con người ở mức “chuyên gia” chỉ đạt được 89.8%.
Theo Google, GPT-4 chỉ đạt 86.4% trên bài kiểm tra này. Tuy nhiên, mô hình Gemini Pro ở mức trung bình, đã được tích hợp vào chatbot Bard của Google, đáng chú ý chỉ có thể vượt qua GPT-3.5 trong cùng bài kiểm tra.
Nói cách khác, theo dữ liệu được Google công bố hôm nay, cuộc đua vẫn diễn ra vô cùng gay gắt.
Trong một buổi họp báo, Eli Collins, Phó Chủ tịch Sản phẩm tại Google DeepMind, nói “Tôi nghi ngờ là có,” khi được hỏi liệu Gemini có bất kỳ khả năng mới nào so với các mô hình ngôn ngữ lớn thế hệ hiện tại – một câu trả lời mơ hồ nhất có thể.
Collins cũng nói rằng Gemini đã trải qua “đánh giá an toàn chi tiết nhất” so với bất kỳ mô hình trí tuệ nhân tạo nào mà công ty đã xây dựng cho đến nay, điều này có thể giải thích tại sao Google phải hoãn việc ra mắt theo thông tin đã đưa.
Công ty cũng cho biết họ sẽ không công bố số lượng tham số, điều này cũng có thể làm khó khăn trong việc so sánh.
Ngoài Gemini, Google cũng đã giới thiệu “trải nghiệm tạo ra tìm kiếm” thử nghiệm của họ vào đầu năm nay, nhằm cải thiện kết quả của công cụ tìm kiếm của công ty. Nhưng dựa vào những gì chúng ta đã thấy cho đến nay, công cụ này để lại nhiều điều muốn bàn.
Tóm lại, vẫn còn rất nhiều điều chưa rõ về vị thế của Gemini so với đối thủ mạnh mẽ.
Và điều này có vẻ không thay đổi trong thời gian ngắn. Theo Collins, từ ngày hôm nay, người dùng Bard chỉ có thể sử dụng các yêu cầu văn bản, với khả năng tương tác qua hình ảnh và âm thanh chỉ sẽ được phát hành “trong những tháng sắp tới.” Ngay cả Gemini Ultra, mà Google tuyên bố có thể vượt qua GPT-4, vẫn chưa sẵn sàng cho thời điểm chính, điều này có nghĩa là chúng ta sẽ phải đợi để đưa ra bất kỳ kết luận xác định nào.