GPT-4o của OpenAI: Trí tuệ nhân tạo với các cuộc trò chuyện âm thanh-hình ảnh theo thời gian thực có cảm xúc

Tháng Năm 14, 2024

Vào ngày 13 tháng 5 năm 2024, OpenAI đã ra mắt mẫu hàng đầu mới nhất của mình, GPT-4o, giới thiệu những tính năng đột phá đặt ra tiêu chuẩn mới trong các tương tác trí tuệ nhân tạo. Bản cập nhật này đánh dấu một bước nhảy vọt đáng kể so với các phiên bản trước, khi GPT-4o hiện hỗ trợ các cuộc trò chuyện âm thanh và video theo thời gian thực, nâng cao khả năng tương tác với người dùng một cách tự nhiên và giàu cảm xúc hơn.

Một trong những tiến bộ đáng chú ý nhất là khả năng mô phỏng sự biểu đạt cảm xúc của mô hình này. Trong buổi phát sóng trực tiếp ‘OpenAI Spring Update’, CTO của OpenAI, Mira Murati, đã trình diễn cách GPT-4o có thể điều chỉnh giọng nói để truyền tải các cảm xúc như kịch tính, mang lại tương tác giống con người hơn. Tính năng này mở ra những khả năng hấp dẫn cho việc phát triển các gắn kết cảm xúc giữa người dùng và AI, một hiện tượng đã được quan sát với các mô hình AI trước đó.

Ngoài trí tuệ cảm xúc, GPT-4o còn được nâng cấp về tốc độ và chất lượng trong xử lý các ngôn ngữ quốc tế. Mô hình hiện có khả năng phân tích và diễn giải một phạm vi rộng hơn của các đầu vào, bao gồm văn bản, hình ảnh và âm thanh, biến nó thành một công cụ linh hoạt cho các ứng dụng khác nhau. Ví dụ, người dùng có thể tải lên hình ảnh hoặc video, và GPT-4o sẽ phân tích nội dung và cung cấp câu trả lời chi tiết, có cơ sở về ngữ cảnh.

Các khả năng mới cũng mở ra cho việc giải quyết vấn đề thực tế. Các biểu diễn đã cho thấy GPT-4o giúp người dùng giải các phương trình toán học bằng cách diễn giải hình ảnh được chụp bằng camera điện thoại và giải thích các bước trong thời gian thực. Tính năng tương tác này đặt ra một tiêu chuẩn mới cho các công cụ giáo dục và trợ lý cá nhân, nhấn mạnh vào tiềm năng của mô hình để nâng cao sự học tập và năng suất.

OpenAI đã làm cho GPT-4o trở nên dễ tiếp cận với một đại chúng rộng lớn bằng cách cung cấp nó cho tất cả người dùng, bao gồm cả những người ở trong tầng lớp miễn phí. Việc này là một bước đi chiến lược của OpenAI để giữ vững vị thế dẫn đầu trước các đối thủ. Tuy nhiên, với việc giới thiệu các chức năng âm thanh và video theo thời gian thực, công ty đã nhận ra những thách thức gia tăng trong việc đảm bảo an toàn và quyền riêng tư cho người dùng, cam kết tiếp tục nghiên cứu và cải tiến dựa trên phản hồi.

GPT-4o của OpenAI: Trí tuệ nhân tạo với các cuộc trò chuyện âm thanh-hình ảnh theo thời gian thực có cảm xúc - MyGPT