Tác giả: Tiến sĩ Tehseen Zia
Ngày 8 tháng 1 năm 2024
Khi chúng ta trải qua thế giới, các giác quan của chúng ta (tầm nhìn, âm thanh, mùi) cung cấp một loạt thông tin đa dạng, và chúng ta thể hiện bản thân bằng cách sử dụng các phương pháp giao tiếp khác nhau, như biểu cảm khuôn mặt và cử chỉ. Những giác quan và phương pháp giao tiếp này được gọi chung là các modalities, đại diện cho các cách khác nhau mà chúng ta nhận thức và giao tiếp. Lấy cảm hứng từ khả năng con người này, mô hình đa phương tiện lớn (LMM), một kết hợp của trí tuệ nhân tạo sáng tạo và đa phương tiện, đang được phát triển để hiểu và tạo nội dung sử dụng các loại khác nhau như văn bản, hình ảnh và âm thanh. Trong bài viết này, chúng ta sẽ đào sâu vào lĩnh vực mới nổi này, khám phá LMMs (Mô hình Đa phương tiện Lớn) là gì, cách chúng được xây dựng, các ví dụ hiện có, những thách thức mà chúng đối mặt, và ứng dụng tiềm năng của chúng.
Tiến hóa của Trí tuệ Nhân tạo Tạo ra vào năm 2024: Từ Mô hình Ngôn ngữ Lớn đến Mô hình Đa phương tiện Lớn
Trong báo cáo mới nhất của mình, McKinsey đã chỉ định năm 2023 là một năm bứt phá cho trí tuệ nhân tạo tạo ra, dẫn đến nhiều tiến bộ trong lĩnh vực này. Chúng ta đã chứng kiến sự tăng đáng kể về sự phổ biến của các mô hình ngôn ngữ lớn (LLMs) có khả năng hiểu và tạo ra ngôn ngữ giống như con người. Hơn nữa, các mô hình tạo hình ảnh đã tiến triển đáng kể, chứng minh khả năng tạo ra hình ảnh từ các đề xuất văn bản. Tuy nhiên, mặc dù có tiến triển đáng kể trong từng modalities như văn bản, hình ảnh hoặc âm thanh, trí tuệ nhân tạo tạo ra đã gặp khó khăn khi kết hợp mượt mà những modalities này trong quá trình tạo ra. Vì thế giới vốn là đa phương tiện theo bản chất, điều quan trọng là AI phải đối mặt với thông tin đa phương tiện. Điều này quan trọng để tương tác ý nghĩa với con người và hoạt động thành công trong các tình huống thực tế.
Do đó, nhiều nhà nghiên cứu AI dự đoán sự nổi lên của LMMs như là biên giới tiếp theo trong nghiên cứu và phát triển AI vào năm 2024. Biên giới phát triển này tập trung vào việc cải thiện khả năng của trí tuệ nhân tạo tạo ra để xử lý và tạo ra đầu ra đa dạng, bao gồm văn bản, hình ảnh, âm thanh, video và các modalities khác. Quan trọng là phải nhấn mạnh rằng không phải tất cả các hệ thống đa phương tiện đều đủ điều kiện là LMMs. Các mô hình như Midjourney và Stable Diffusion, mặc dù đa phương tiện, nhưng không thuộc danh mục LMMs chủ yếu vì thiếu sự hiện diện của LLMs, một thành phần cơ bản của LMMs. Nói cách khác, chúng ta có thể mô tả LMMs như là một phần mở rộng của LLMs, cung cấp cho chúng khả năng xử lý thành thạo các modalities khác nhau.
LMMs hoạt động như thế nào?
Trong khi các nhà nghiên cứu đã khám phá nhiều phương pháp để xây dựng LMMs, chúng thường bao gồm ba thành phần và hoạt động cơ bản. Trước hết, các bộ mã hóa được sử dụng cho mỗi modalities dữ liệu để tạo ra các biểu diễn dữ liệu (được gọi là embeddings) cụ thể cho modalities đó. Thứ hai, các cơ chế khác nhau được sử dụng để làm cho embeddings từ các modalities khác nhau được căn chỉnh vào một không gian embedding đa phương tiện thống nhất. Thứ ba, đối với các mô hình tạo ra, một LLM được sử dụng để tạo ra các phản hồi văn bản. Vì đầu vào có thể bao gồm văn bản, hình ảnh, video và âm thanh, các nhà nghiên cứu đang nghiên cứu cách làm cho các mô hình ngôn ngữ xem xét các modalities khác nhau khi đưa ra phản hồi.
Phát triển của LMMs trong năm 2023
Dưới đây, tôi đã tóm tắt ngắn gọn một số LMMs đáng chú ý được phát triển trong năm 2023.
- LLaVA: Là một LMM mã nguồn mở, được phát triển chung bởi Đại học Wisconsin-Madison, Microsoft Research và Đại học Columbia. Mô hình này nhằm cung cấp một phiên bản mã nguồn mở của multimodal GPT4. Sử dụng Llama LLM của Meta, nó tích hợp bộ mã hóa hình ảnh CLIP để có khả năng hiểu hình ảnh mạnh mẽ. Biến thể tập trung vào y tế của LLaVA, được gọi là LLaVA-Med, có thể trả lời các câu hỏi liên quan đến hình ảnh sinh học.
- ImageBind: Là một mô hình mã nguồn mở được tạo ra bởi Meta, mô phỏng khả năng của nhận thức con người để liên kết dữ liệu đa phương tiện. Mô hình tích hợp sáu modalities – văn bản, hình ảnh / video, âm thanh, đo lường 3D, dữ liệu nhiệt độ và dữ liệu chuyển động – học một biểu diễn thống nhất qua các loại dữ liệu đa dạng này. ImageBind có thể kết nối các đối tượng trong ảnh với các thuộc tính như âm thanh, hình dạng 3D, nhiệt độ và chuyển động. Mô hình có thể được sử dụng, ví dụ như để tạo ra cảnh từ văn bản hoặc âm thanh.
- SeamlessM4T: Là một mô hình đa phương tiện được thiết kế bởi Meta để tăng cường giao tiếp giữa cộng đồng đa ngôn ngữ. SeamlessM4T xuất sắc trong các nhiệm vụ dịch và ghi âm, hỗ trợ các nhiệm vụ chuyển đổi từ ngôn ngữ này sang ngôn ngữ khác, từ giọng nói sang văn bản, từ văn bản sang giọng nói và từ văn bản sang văn bản. Mô hình sử dụng bộ giải mã văn bản không tự động để thực hiện các chuyển đổi này. Phiên bản cải tiến, SeamlessM4T v2, là cơ sở cho các mô hình như SeamlessExpressive và SeamlessStreaming, nhấn mạnh việc bảo tồn biểu hiện qua các ngôn ngữ và cung cấp các bản dịch với độ trễ tối thiểu.
- GPT4: Được OpenAI ra mắt, là một sự tiến bộ so với người tiền nhiệm của nó, GPT3.5. Mặc dù các chi tiết kiến trúc chi tiết không được tiết lộ hoàn toàn, GPT4 được đánh giá cao vì khả năng tích hợp mượt mà giữa các mô hình chỉ văn bản, chỉ hình ảnh và chỉ âm thanh. Mô hình có thể tạo văn bản từ cả đầu vào viết và đồ họa. Nó xuất sắc trong nhiều nhiệm vụ, bao gồm mô tả hài hước trong hình ảnh, tóm tắt văn bản từ ảnh chụp màn hình và phản ứng linh hoạt đối với câu hỏi kỳ thi có chứa biểu đồ. GPT4 cũng được công nhận về khả năng thích nghi của nó trong việc xử lý hiệu suất của một loạt định dạng dữ liệu đầu vào.
- Gemini: Được tạo ra bởi Google DeepMind, nổi bật với việc inherently đa phương tiện, cho phép tương tác mượt mà qua nhiều nhiệm vụ mà không phụ thuộc vào việc nối kết các thành phần đơn modalities lại với nhau. Mô hình này dễ dàng quản lý cả đầu vào văn bản và đầu vào âm thanh – hình ảnh đa dạng, thể hiện khả năng tạo ra đầu ra ở cả định dạng văn bản và hình ảnh.
Thách thức của Mô hình Đa phương tiện Lớn
Tích hợp Thêm Modalities Dữ liệu: Hầu hết các LMM hiện tại hoạt động với văn bản và hình ảnh. Tuy nhiên, LMM cần phải phát triển ra khỏi văn bản và hình ảnh, thích ứng với các modalities như video, nhạc và 3D.
Sẵn có Bộ dữ liệu Đa dạng: Một trong những thách thức chính trong việc phát triển và đào tạo các mô hình trí tuệ nhân tạo tạo ra đa phương tiện là cần phải có bộ dữ liệu lớn và đa dạng bao gồm nhiều loại dữ liệu. Ví dụ, để huấn luyện một mô hình tạo ra văn bản và hình ảnh cùng nhau, bộ dữ liệu cần phải bao gồm cả đầu vào văn bản và hình ảnh có liên quan đến nhau.
Tạo Ra Đầu Ra Đa phương tiện: Mặc dù LMM có thể xử lý đầu vào đa phương tiện, nhưng việc tạo ra đầu ra đa dạng, như kết hợp văn bản với đồ họa hoặc hoạt hình, vẫn là một thách thức.
Theo Dõi Hướng Dẫn: LMM đối mặt với thách thức trong việc nắm bắt nhiệm vụ trò chuyện và tuân theo hướng dẫn, vượt ra khỏi việc chỉ hoàn thành nhiệm vụ một cách đơn thuần.
Lý luận Đa phương tiện: Trong khi các LMM hiện tại xuất sắc trong việc chuyển đổi một modalities thành modalities khác, việc tích hợp dữ liệu đa phương tiện mượt mà cho các nhiệm vụ lý luận phức tạp, như giải quyết vấn đề dựa trên hướng dẫn âm thanh, vẫn là một công việc khó khăn.
Nén LMMs: Tính chất tốn tài nguyên của LMMs tạo ra một rào cản lớn, khiến chúng trở nên không thực tế cho các thiết bị biên như có tài nguyên tính toán hạn chế. Việc nén LMM để tăng hiệu suất và làm cho chúng phù hợp để triển khai trên các thiết bị có tài nguyên hạn chế là một lĩnh vực nghiên cứu quan trọng hiện nay.
Tiềm năng ứng dụng
- Giáo dục: LMMs có khả năng biến đổi giáo dục bằng cách tạo ra các tài liệu học đa dạng và hấp dẫn kết hợp văn bản, hình ảnh và âm thanh. LMMs cung cấp phản hồi toàn diện về bài tập, thúc đẩy các nền tảng học tập cộng tác và nâng cao phát triển kỹ năng thông qua các mô phỏng tương tác và ví dụ thực tế.
- Chăm sóc sức khỏe: Khác biệt so với các hệ thống chẩn đoán trí tuệ nhân tạo truyền thống chỉ nhắm đến một modalities, LMMs cải thiện chẩn đoán y tế bằng cách tích hợp nhiều modalities. Chúng cũng hỗ trợ giao tiếp vượt qua rào cản ngôn ngữ giữa nhà cung cấp dịch vụ y tế và bệnh nhân, đóng vai trò như một kho trung tâm cho nhiều ứng dụng trí tuệ nhân tạo trong các bệnh viện.
- Nghệ thuật và Tạo nhạc: LMMs có thể xuất sắc trong việc tạo nghệ thuật và âm nhạc bằng cách kết hợp các modalities khác nhau để tạo ra đầu ra độc đáo và biểu cảm. Ví dụ, một LMM nghệ thuật có thể kết hợp các yếu tố hình ảnh và âm thanh, tạo ra một trải nghiệm sống động. Tương tự, một LMM âm nhạc có thể tích hợp các yếu tố nhạc cụ và giọng hát, tạo ra những tác phẩm động và biểu cảm.
- Gợi ý cá nhân: LMMs có thể phân tích sở thích của người dùng qua nhiều modalities để cung cấp các gợi ý cá nhân cho việc tiêu thụ nội dung, như phim, nhạc, bài viết hoặc sản phẩm.
- Dự báo thời tiết và Giám sát môi trường: LMMs có thể phân tích nhiều modalities dữ liệu, như hình ảnh vệ tinh, điều kiện khí quyển và mô hình lịch sử, để cải thiện độ chính xác trong dự báo thời tiết và giám sát môi trường.
Kết luận
Bức tranh của Mô hình Đa phương tiện Lớn (LMMs) đánh dấu một bước đột phá quan trọng trong trí tuệ nhân tạo tạo ra, hứa hẹn những tiến bộ trong nhiều lĩnh vực khác nhau. Khi những mô hình này tích hợp mượt mà các modalities khác nhau như văn bản, hình ảnh và âm thanh, sự phát triển của chúng mở ra những cánh cửa cho các ứng dụng chuyển đổi trong y tế, giáo dục, nghệ thuật và gợi ý cá nhân. Tuy nhiên, những thách thức, bao gồm việc tích hợp thêm modalities dữ liệu và nén các mô hình tốn tài nguyên, làm nổi bật sự cần thiết của những nỗ lực nghiên cứu liên tục để thực hiện đầy đủ tiềm năng của LMMs.