Tác giả: Jim Clyde Monge
23 tháng 3 năm 2024
Trong vài năm qua, tôi đã theo dõi sự tiến bộ nhanh chóng trong lĩnh vực Trí tuệ nhân tạo tạo ra. Trong khi các công ty công nghệ lớn như Google, Meta, Microsoft và Amazon đã chiếm ưu thế trong các tiêu đề với các mô hình ngôn ngữ Trí tuệ nhân tạo của họ, một công ty đã rõ ràng vắng mặt: Apple.
Tại sao Apple lại không tham gia trò chơi LLM?
Hôm nay, mọi thứ thay đổi. Apple cuối cùng đã phá vỡ sự im lặng và công bố mô hình ngôn ngữ đa phương tiện đầu tiên của mình, MM1. Điều này có thể là một con quái vật đang ngủ dậy và sẽ làm rung chuyển ngành công nghiệp Trí tuệ nhân tạo.
MM1 là gì?
MM1 là một mô hình ngôn ngữ lớn đa phương tiện hiện đại (MLLM) có khả năng hiểu và tạo ra cả văn bản và hình ảnh.
Các khả năng của Apple MM1:
Nó có thể thực hiện dự đoán trong bối cảnh nhờ vào quá trình tiền huấn luyện đa phương tiện quy mô lớn của mình. Điều này cho phép MM1 có các khả năng sau:
- Đếm các đối tượng và tuân theo định dạng tùy chỉnh.
- Tham khảo các phần của hình ảnh và thực hiện OCR.
- Chứng minh sự hiểu biết thông thường và kiến thức về từ vựng về các đối tượng hàng ngày.
- Thực hiện các chức năng toán cơ bản.
Cách MM1 hoạt động
Mô hình này dựa trên kiến trúc transformer, tương tự như các mô hình ngôn ngữ tiên tiến khác như GPT-4 và Gemini. MM1 là sự kết hợp giữa bộ mã hóa hình ảnh transformer (ViT) và một mô hình ngôn ngữ transformer chỉ có bộ giải mã.
Kiến trúc của Apple MM1
ViT được tiền huấn luyện trên một tập dữ liệu lớn các cặp hình ảnh-văn bản bằng cách sử dụng mất mát trái chiều, cho phép nó học các biểu diễn hình ảnh phong phú. Trong khi đó, mô hình ngôn ngữ được tiền huấn luyện trên một nguồn dữ liệu văn bản đa dạng để có được sự hiểu biết sâu sắc về ngôn ngữ của con người.
Để kết nối các lĩnh vực hình ảnh và văn bản, MM1 sử dụng một mô-đun kết nối ngôn ngữ-hình ảnh chuyển đổi đầu ra của ViT thành một chuỗi các token hình ảnh mà mô hình ngôn ngữ có thể xử lý.
Một trong những kết quả quan trọng từ nghiên cứu MM1 là sự quan trọng của việc sắp xếp dữ liệu tiền huấn luyện.
Một trong những phát hiện chính từ nghiên cứu về MM1 là sự quan trọng của việc sắp xếp dữ liệu tiền huấn luyện. Nhóm nghiên cứu đã phát hiện ra rằng việc sử dụng một sự kết hợp cân đối cẩn thận giữa các cặp hình ảnh-chú thích, các tài liệu hình ảnh-văn bản xen kẽ và dữ liệu chỉ văn bản là quan trọng để đạt được hiệu suất tiên tiến nhất.
Họ cũng đã phát triển một họ mô hình từ 3 tỷ đến 30 tỷ tham số, bao gồm cả các biến thể dày đặc và hỗn hợp của chuyên gia (MoE), cho phép mở rộng hiệu suất mô hình một cách hiệu quả.
Nếu bạn muốn đào sâu vào chi tiết của MM1, hãy kiểm tra bản whitepaper này.
Tại sao Apple mất thời gian?
Không có bí mật gì khi nói rằng Apple thích dành thời gian của mình trước khi nhảy vào các xu hướng công nghệ mới. Họ đã làm điều này với điện thoại thông minh, máy tính bảng và đồng hồ thông minh – để người khác thử nghiệm trước khi đưa ra sản phẩm của họ. Nhưng với trí tuệ nhân tạo, chiến lược này có thể đang gặp phải trở ngại.
Vậy, tại sao Apple lại chậm chạp trong lĩnh vực trí tuệ nhân tạo? Một số người cho rằng điều này là do mô hình ngôn ngữ lớn của họ, được mã hóa với tên mã Ajax, đang gặp khó khăn để đuổi kịp với GPT-4 và Gemini. Người khác trỏ vào việc Apple chi tiêu nghiên cứu và phát triển (R&D) tương đối khiêm tốn so với các đối thủ của mình, gợi ý rằng công ty chưa đầu tư đủ vào nghiên cứu trí tuệ nhân tạo tiên tiến.
Apple đã chuyển nguồn lực từ các dự án khác, như dự án ô tô điện đã bị ngừng lại, sang lĩnh vực trí tuệ nhân tạo và vẫn chưa tích hợp các công nghệ trí tuệ nhân tạo tiên tiến vào các sản phẩm như Siri, được xem là đang bị tụt lại so với các trợ lý giọng nói khác.
Có thể Apple đang có một chiến lược bí mật mà chúng ta chưa biết. Với sự kiện WWDC sắp tới, có khả năng Tim Cook sẽ tiết lộ một số tiến bộ trí tuệ nhân tạo đáng kinh ngạc.
Tại sao bạn nên quan tâm?
Một trong những khía cạnh thú vị nhất của MM1 là khả năng hiểu hình ảnh của nó. Hãy tưởng tượng bạn có thể chụp ảnh của menu nhà hàng và hỏi điện thoại của mình,
“Chi phí để đặt tất cả món khai vị là bao nhiêu?”
MM1 có thể phân tích menu, xác định giá cả và cung cấp cho bạn tổng số tiền chính xác.
Hoặc, bạn có thể cho MM1 xem một bức ảnh của phòng khách của bạn và hỏi
“Những chiếc gối nằm phù hợp với ghế sofa của tôi màu gì?”
Mô hình có thể cung cấp các gợi ý cá nhân dựa trên sự hiểu biết của nó về lý thuyết màu sắc và nguyên tắc thiết kế nội thất.
Dưới đây là một ví dụ khác thú vị khi người dùng hỏi MM1 rằng anh ấy sẽ trả bao nhiêu tiền cho tất cả bia trên bàn theo giá trên menu.
Hình ảnh ở trên thể hiện một so sánh giữa các phản hồi giữa MM1 và các đối thủ cạnh tranh gần của nó, Emu và LLaVA. MM1 là người đúng để đoán giá.
Thay lời kết
Là một người dùng sản phẩm của Apple từ lâu và một người đam mê trí tuệ nhân tạo, tôi không thể không cảm thấy một sự kích động và sự mong đợi về tương lai của MM1 và hành trình trí tuệ nhân tạo của Apple. Nghiên cứu đằng sau MM1 thật sự hứa hẹn, và tôi rất phấn khích khi thấy Apple cuối cùng đã nâng cao trình độ của mình trong không gian trí tuệ nhân tạo tạo ra.
Cần lưu ý rằng Apple thực sự chưa ra mắt MM1; công ty chỉ đơn giản là đã công bố bài báo nghiên cứu của mình với kết quả từ việc thử nghiệm nó. Tuy nhiên, bây giờ mà Apple đã ngừng dự án ô tô đắt tiền của mình, tôi lạc quan rằng họ sẽ dành nhiều nguồn lực hơn cho phát triển trí tuệ nhân tạo và hy vọng rằng họ sẽ bắt kịp với các đối thủ của họ trong tương lai gần.
Cuộc đua giành ưu thế trong lĩnh vực trí tuệ nhân tạo đang ngày càng nóng hơn, và tôi rất phấn khích khi thấy Apple cuối cùng đã tham gia vào cuộc chơi.