Không thể phủ nhận rằng Trí tuệ Nhân tạo đã tạo ra làn sóng trong năm 2023, và ở đây chúng tôi sẽ đặt nổi bật những câu chuyện quan trọng nhất của năm này, có tiềm năng hình thành tương lai của ngành công nghiệp đột phá này:
Sửa lỗi: Trong bài đăng blog gốc được xuất bản vào ngày 22 tháng 12 năm 2023, tiêu đề “Các Phiên bản AI” đã gây hiểu lầm khi nội dung bao gồm thông báo và cập nhật cùng với việc phát hành. Chúng tôi đã làm rõ lại tiêu đề của văn bản và biểu đồ minh họa. Việc đề cập đến việc Stability AI công bố mã nguồn mở của LLM của mình đã được loại bỏ khỏi biểu đồ minh họa nhưng vẫn còn trong bài viết, nhấn mạnh sự quan trọng của nó trong việc thúc đẩy tính khả dụng thay vì tập trung vào cải tiến công nghệ. Biểu đồ minh họa ban đầu đề cập đến việc thành lập start-up xAI, nhưng đã bị loại bỏ vì không liên quan. Ngoài ra, đề cập đến Apple Vision Pro cũng đã bị loại bỏ vì bài viết tập trung vào phần mềm. Chúng tôi cũng đã bao gồm Midjourney V.6 trong danh sách vì đây là một phiên bản mới rất gần đây. Những điều chỉnh này nhằm mục đích cải thiện độ chính xác và tính nhất quán. Chúng tôi xin lỗi vì mọi sự nhầm lẫn và đánh giá cao sự hiểu biết của bạn!
Tiến bộ trong lĩnh vực Trí tuệ Nhân tạo
Trên bức tranh tiến bộ của Trí tuệ Nhân tạo trong năm nay, đã có sự tiến triển đáng kể, điều chỉnh và hoàn thiện các công nghệ hiện tại thay vì giới thiệu những đổi mới đột phá tương tự như ChatGPT hoặc các công cụ tạo ảnh của năm trước. Mặc dù không có ảnh hưởng “wow” và Trí tuệ Nhân tạo tổng quát (AGI) thực sự vẫn còn xa, năm nay đã đánh dấu một giai đoạn trung gian giữa những đột phá trước đó và điều gì đó mạnh mẽ hơn sắp tới. Để trình bày sự tiến hóa này, chúng tôi đã tạo ra một biểu đồ thời gian hình ảnh, làm nổi bật những tiến bộ Trí tuệ Nhân tạo đáng chú ý nhất đã định hình năm nay của Trí tuệ Nhân tạo:
Tạo Ảnh
- Adobe Firefly: Adobe Firefly và Generative Fill của Adobe đã đẩy mạnh sự sáng tạo nội dung hình ảnh đa dạng, bao gồm minh họa, khái niệm nghệ thuật và chỉnh sửa ảnh. Được tích hợp vào Photoshop, Adobe Firefly đã đưa Trí tuệ Nhân tạo vào tay một số lượng người dùng rộng lớn cùng một lúc. Việc phát hành tính năng Text Effect cũng đánh dấu một bước tiến quan trọng, cho phép người dùng áp dụng kiểu dáng hoặc kết cấu cho từ và cụm từ.
- Midjourney: Mô hình V.5 của Midjourney đánh dấu một bước quan trọng trong việc tạo ảnh, thể hiện sự hiệu quả, nhất quán và độ phân giải cao hơn. Phiên bản alpha mới nhất, Midjourney V.6, mang đến những cải tiến bổ sung như theo dõi lời gợi ý chính xác hơn, kiến thức mô hình tăng cao và khả năng vẽ văn bản nhỏ.
- DALL·E 3: Dựa trên ChatGPT, DALL·E 3 đơn giản hóa quá trình tạo ảnh, loại bỏ nhu cầu về kỹ thuật phức tạp của lời gợi ý. Ngoài ra, ChatGPT giới thiệu một tính năng giúp người dùng làm sáng tạo lời gợi ý và điều chỉnh ảnh dựa trên phản hồi.
- Shutterstock.AI: Ông lớn ảnh chứng khoán tích hợp khả năng Trí tuệ Nhân tạo, cho phép người dùng biến lời gợi ý thành hình ảnh có sẵn để cấp phép. Nhận ra và đền bù nghệ sĩ đóng góp, Shutterstock đã đưa ra bước đầu tiên trong lĩnh vực Trí tuệ Nhân tạo đạo đức.
Tạo Video
- Stability AI: Stability AI giới thiệu Stable Video Diffusion, một mô hình đột phá cho việc tạo video sinh học, với quyền truy cập mã nguồn mở trên GitHub. Tương tự như xu hướng tạo ảnh của Trí tuệ Nhân tạo, rất có thể mô hình Stable Video Diffusion sẽ đóng một vai trò quan trọng trong việc tạo ra một phần đáng kể của các video do Trí tuệ Nhân tạo tạo ra.
- HeyGen: Công ty khởi nghiệp AI giới thiệu một công cụ cho việc nhân bản giọng nói, điều chỉnh chuyển động môi, và dịch ngôn ngữ trong video.
- Runway Gen-2: Runway ra mắt mô hình Gen-2, cho phép người dùng tạo ra video đầy đủ từ chỉ cần lời gợi ý văn bản, hình ảnh, hoặc video khác một cách dễ dàng. Chỉ cần nhìn vào ví dụ dưới đây.
- Pika và Pika 1.0: Sau khi phát hành ban đầu, Pika thu hút nửa triệu người dùng, tạo ra hàng triệu video hàng tuần. Sau đó, mô hình Trí tuệ Nhân tạo nâng cấp trong Pika 1.0 giúp người dùng tạo và chỉnh sửa video theo nhiều phong cách khác nhau, bao gồm hoạt hình 3D, anime, hoạt họa và điện ảnh.
- Codec avatars của Meta: Mô hình Pixel Codec Avatars (PiCA) của Meta cho khuôn mặt con người 3D trong video đưa chúng ta gần hơn với khả năng xuất hiện telepresence giống như ảnh chân dung.
Tạo Văn Bản
- Bard và Gemini: Bard của Google thêm cảm xúc và tâm trạng giống con người vào bối cảnh chatbot. Giới thiệu vào chatbot Bard và được đào tạo trên bộ dữ liệu đa dạng, Gemini của Google xuất hiện như “mô hình AI có khả năng nhất” và đối thủ gần nhất với ChatGPT của OpenAI.
- Grok: Công ty khởi nghiệp xAI của Elon Musk tuyên bố cam kết với sự phát triển của Trí tuệ Nhân tạo, có thể cạnh tranh với OpenAI, thông qua việc giới thiệu “Grok” – một chatbot với tính hài hước, sự phản kháng, và kiến thức thời gian thực thông qua nền tảng 𝕏. xAI hứa rằng Grok được thiết kế để trả lời những câu hỏi gây sốc mà các hệ thống Trí tuệ Nhân tạo khác từ chối.
- OverflowAI: OverflowAI của Stack Overflow tăng cường việc quản lý kiến thức, cho phép tìm kiếm AI để tìm kiếm câu trả lời phù hợp trong Visual Studio Code và Slack.
- Llama 2: Meta phát hành Llama 2, thế hệ tiếp theo của mô hình ngôn ngữ lớn nguồn mở của họ, thể hiện sự hiệu quả được tăng cường. LLM được điều chỉnh tinh tế của Meta cũng được tối ưu hóa cho các trường hợp sử dụng trong cuộc trò chuyện và vượt qua các mô hình nguồn mở khác trên hầu hết các bảng đánh giá.
- GPT-4: GPT-4 của OpenAI hiện có khả năng xử lý đầu vào hình ảnh, tạo chú thích, phân loại, nghe và phản hồi trong cuộc trò chuyện hai chiều, và hỗ trợ duyệt web thời gian thực. OpenAI cũng mở rộng hỗ trợ cho các plugin, tạo nên một cảnh quan phong phú với các đối thủ nguồn mở. GPT-4 là bước tiến tiếp theo trong hành trình của OpenAI để phát triển AGI.
- Mistral 7B: Mistral AI, định giá khoảng 2 tỷ USD trong năm nay, phát hành Mistral 7B, một mô hình ngôn ngữ lớn thách thức GPT-4 và Claude 2. Đặc trưng là một cách tiếp cận công nghệ mở, Mistral AI cung cấp mô hình của mình để tải về miễn phí.
- Mixtral 8x7B: Mistral AI cũng giới thiệu Mixtral 8x7B, một mô hình chất lượng cao sparse mixture of expert (SMoE) với trọng số mở, có tổng cộng 46,7 tỷ tham số, mở đầu cho tính minh bạch trong các mô hình với tính chân thực tăng cường và giảm thiểu độ chệch.
- Yi-34B llm: Được định giá 1 tỷ USD trong năm nay, công ty khởi nghiệp 01.AI của Kai-Fu Lee phát hành Yi-34B – một mạng nơ-ron nguồn mở vượt trội các mô hình cạnh tranh với số lượng tham số đáng kể cao, nhấn mạnh sự hiệu quả chi phí của nó.
Những Tiến Bộ Khác
- Segment Anything Model (SAM): Meta AI giới thiệu SAM, một mô hình phân đoạn có khả năng “cắt ra” các đối tượng trong ảnh mà không cần đào tạo bổ sung, nhấn mạnh tính linh hoạt của nó. SAM được đào tạo trên một bộ dữ liệu lớn, thể hiện hiệu suất mạnh mẽ trong việc phân đoạn đối tượng.
- Direct Preference Optimization (DPO): DPO trở thành một phương pháp ổn định và hiệu quả cho việc điều chỉnh mô hình ngôn ngữ không giám sát quy mô lớn và giảng dạy mô hình văn bản-ảnh. Nó đạt được sự kiểm soát chính xác mà không cần học tăng cường phức tạp từ phản hồi của con người (RLHF).
- Zephyr Direct Distillation of LM Alignment: Zephyr-7B, kết quả của quá trình chưng cất tối ưu hóa ưu tiên trực tiếp (dDPO), đặt ra tiêu chuẩn cho các mô hình trò chuyện với 7 tỷ tham số, tăng cường sự liên kết ý định mà không cần đào tạo một cách chi tiết.
- Autonomous AI Agents: Các tác nhân AI tự động nổi lên như một xu hướng đáng chú ý, thể hiện sự chuyển đổi đột phá đến hệ thống AI tiên tiến và tự động. Các tác nhân AI được coi là cái nhìn đầu tiên về AGI vì chúng có thể tạo ra các nhiệm vụ và chỉ dẫn tự động dựa trên mục tiêu của người dùng và làm việc tự động cho đến khi mục tiêu được đạt được.
- EvoDiff: EvoDiff của Microsoft, một framework AI nguồn mở để tạo protein nhanh chóng và tiết kiệm chi phí, hứa hẹn những tiến bộ trong lĩnh vực dược và ứng dụng công nghiệp.
- Stable Audio: Stability AI ra mắt một công cụ để tạo ra các đoạn âm thanh ngắn chất lượng cao từ lời gợi ý văn bản đơn giản.
- GPT Store, Copyright Shield, ChatGPT Bot Constructor: OpenAI giới thiệu GPT Store để bán các bot GPT tùy chỉnh, Copyright Shield để bảo vệ chi phí pháp lý liên quan đến các yêu cầu vi phạm bản quyền, và một nền tảng no-code cho các phiên bản ChatGPT tùy chỉnh.
- Stability AI Mã nguồn mở LLM của mình: Stability AI đã mã nguồn mở các mô hình của mình, StableLM-Alpha và Stable Vicuna, nổi tiếng với hiệu suất ấn tượng trong việc tạo ra văn bản và mã. Stable Vicuna là chatbot mã nguồn mở đầu tiên được đào tạo bằng cách sử dụng học tăng cường từ phản hồi của con người (RLHF). Hơn nữa, Stability AI giới thiệu SDXL Turbo, một mô hình tạo văn bản thành ảnh thời gian thực.
Đối Tác
Trong thế giới động động của năm 2023, các sự hợp tác quan trọng đã nổi lên giữa các nhà lãnh đạo ngành công nghiệp, hình thành quỹ đạo của tương lai. Dưới đây là những sáp nhập và đối tác hàng đầu đang định hình cảnh quan Trí tuệ Nhân tạo trong năm 2023:
Stability AI và Init ML
Stability AI đã thực hiện một động thái quan trọng bằng cách mua lại Init ML, đội ngũ tạo ra ứng dụng chỉnh sửa phổ biến ClipDrop. Mục tiêu rõ ràng: tích hợp các công nghệ tiên tiến của Stability AI vào hệ sinh thái ClipDrop. Sự hợp tác đã dẫn đến việc phát triển mô hình SDXL Turbo.
Runway và Getty Images
Runway đã hợp tác với Getty Images trong một đối tác chiến lược để giới thiệu một mô hình tạo video mới RGM (The Runway và Getty Images Model). Mô hình kết hợp khả năng Trí tuệ Nhân tạo của Runway với thư viện nội dung sáng tạo được cấp phép của Getty Images. Sự hợp tác nhằm mục tiêu cách mạng hóa quy trình tạo nội dung, cho phép các công ty tạo ra video chất lượng cao, tùy chỉnh phù hợp với danh tiếng thương hiệu của họ.
Snowflake và Neeva
Snowflake, một đại diện lớn trong nền tảng kho dữ liệu, đã mua lại Neeva, một công ty khởi nghiệp nổi tiếng sử dụng Trí tuệ Nhân tạo tạo trải nghiệm tìm kiếm. Neeva gần đây đã đóng cửa công cụ tìm kiếm không quảng cáo của mình dựa trên đăng ký. Các nhà sáng lập của Neeva cũng công nhận thách thức của việc thuyết phục người dùng thử nghiệm một công cụ tìm kiếm mới.
Shutterstock và OpenAI
Shutterstock và OpenAI cam kết đối tác kéo dài trong 6 năm. OpenAI có quyền truy cập vào dữ liệu chất lượng cao từ Shutterstock, làm phong phú bộ dữ liệu đào tạo mô hình của mình với một loạt ảnh, video và thư viện âm nhạc đa dạng. Shutterstock tiếp tục tận dụng các công nghệ của OpenAI, dẫn đến việc ra mắt công cụ tạo hình ảnh AI của Shutterstock.
Pháp Lý
Trong thế giới pháp lý ngày càng biến động của Trí tuệ Nhân tạo, năm 2023 đang tồn tại trong một bối cảnh đầy không chắc chắn và cuộc tranh luận liên tục. Khi những thách thức mới xuất hiện, các cuộc thảo luận xoay quanh bản quyền, chính sách doanh nghiệp và khuôn khổ quy định rộng lớn tiếp tục, hình thành đường viền của pháp lý của Trí tuệ Nhân tạo. Dưới đây là những vấn đề pháp lý quan trọng nhất của năm 2023:
Đạo Luật Trí tuệ Nhân tạo của Châu Âu
Liên minh châu Âu giới thiệu Đạo luật Trí tuệ Nhân tạo, luật lệ toàn diện đầu tiên trên thế giới để quy định việc sử dụng Trí tuệ Nhân tạo. Đạo luật phân loại các hệ thống Trí tuệ Nhân tạo dựa trên rủi ro mà chúng mang lại và đề xuất các quy định tương ứng. Mặc dù Đạo luật Trí tuệ Nhân tạo đã được thỏa thuận tạm thời, việc triển khai của nó đang phải đối mặt với sự trì hoãn, và việc thực thi sẽ không bắt đầu cho đến năm 2025.
Quan điểm của Văn phòng Bản quyền Hoa Kỳ về Việc Đăng Ký Nội Dung Do Trí tuệ Nhân tạo Tạo Ra
Văn phòng Bản quyền Hoa Kỳ đã đưa ra quan điểm quyết định, từ chối việc đăng ký bản quyền cho những hình ảnh được tạo ra bởi thuật toán Trí tuệ Nhân tạo Midjourney. Sự từ chối này đặt một tiền lệ, khẳng định rằng những tác phẩm nghệ thuật của Trí tuệ Nhân tạo được tạo ra hoàn toàn bởi Trí tuệ Nhân tạo, mà không có sự tham gia của con người, không đủ điều kiện được bảo vệ bản quyền. Theo cùng một hướng, Văn phòng Bản quyền Hoa Kỳ cung cấp hướng dẫn về các công trình được hỗ trợ bởi Trí tuệ Nhân tạo, làm rõ rằng các công trình được tạo ra bởi con người bằng cách sử dụng công cụ Trí tuệ Nhân tạo có thể đủ điều kiện được bảo vệ bản quyền. Hướng dẫn xác nhận rằng các công trình được tạo ra bởi con người bằng cách sử dụng công cụ Trí tuệ Nhân tạo nên được đánh giá dựa trên việc vai trò của con người trong quá trình tạo ra những công trình đó có quyết định.
“Hiện nay, hệ thống pháp lý hiện tại không sẵn sàng công nhận bản quyền cho những tác phẩm được tạo ra bằng Trí tuệ Nhân tạo, khi mà Trí tuệ Nhân tạo học từ dữ liệu hiện tại, quyền sở hữu của nó thuộc về những người khác, đặt ra thách thức trong việc xác định chủ sở hữu. Dự kiến, việc giải quyết vấn đề này sẽ phát triển trong năm tới, được hỗ trợ thông qua sự tham gia của cộng đồng thông qua các cuộc khảo sát do nhà nước tiến hành. Giải quyết vấn đề này một cách độc lập hiện nay khó khăn mà không có sự tham gia rộng rãi của công dân.”
— Daria Kuznetsova, Luật sư doanh nghiệp của Everypixel
Cuộc Tranh Luận
Năm 2023 tràn ngập những cuộc tranh luận và thảo luận hấp dẫn, đối mặt với sự không chắc chắn và các quy tắc đang tiến triển của cảnh quan Trí tuệ Nhân tạo. Khi ngành công nghiệp định hình hướng đi của mình, những cuộc tranh luận này trở nên không thể tránh khỏi, hứa hẹn những cuộc đối thoại và thách thức đầy sáng tạo trên tương lai. Dưới đây là một số cuộc tranh luận đáng chú ý nhất đã định hình năm:
Hạn chế Công ty đối với ChatGPT
Các tổ chức tài chính lớn, bao gồm JP Morgan, Citigroup, Bank of America, Deutsche Bank, Goldman Sachs và Wells Fargo & Co, đã hạn chế việc sử dụng ChatGPT do lo ngại về an ninh và quyền riêng tư. Điều này phản ánh một xu hướng rộng lớn khi các công ty cảnh báo nhân viên về những xem xét pháp lý liên quan đến ứng dụng Trí tuệ Nhân tạo trong môi trường doanh nghiệp.
Việc OpenAI Sử Dụng Người Lao Động Có Mức Lương Thấp
Cuộc điều tra của Time tiết lộ sự hợp tác giữa OpenAI và Sama, sử dụng người lao động có mức lương thấp ở Kenya để lọc nội dung nhạy cảm cho ChatGPT. Sự phát hiện này đặt ra những câu hỏi về đạo đức liên quan đến cách xử lý của công ty đối với người lao động và ảnh hưởng của việc kiểm duyệt nội dung đối với sức khỏe tinh thần.
Chuyển Giao Lãnh Đạo tại OpenAI
Việc Sam Altman rời bỏ và quay trở lại một cách nhanh chóng đã làm nổi bật trong tháng trước. Một sự chuyển giao lãnh đạo đã diễn ra tại OpenAI khi Sam Altman rời bỏ do không nhất quán trong giao tiếp với Hội đồng quản trị. Giám đốc điều hành tạm thời Mira Murati, cùng với đa số nhân viên, đã ủng hộ việc Sam Altman trở lại. Tình hình chưa từng có này thu hút sự chú ý rộng rãi, để lại những câu hỏi về lý do thực sự đằng sau sự chuyển giao và tác động tương lai.
Adobe và Figma
Kế hoạch mua lại Figma của Adobe với giá 20 tỷ đô la đã gặp khó khăn với các rào cản về quy định, khiến Cơ quan Cạnh tranh và Thị trường của Liên minh châu Âu và Cơ quan Cạnh tranh và Thị trường của Vương quốc Anh tiến hành điều tra về các vấn đề đối trạch. Ảnh hưởng của thỏa thuận đề xuất cũng vượt ra ngoài xem xét về thiết kế, khi sự thống trị của Adobe trong các nền tảng dữ liệu khách hàng gây lo ngại cho Giám đốc thông tin (CIO) về ảnh hưởng có thể đưa ra về chi tiêu phần mềm đám mây. Tuy nhiên, Adobe đã từ bỏ thương vụ do khó khăn trong việc đảm bảo sự chấp thuận đối trạch ở Châu Âu và Vương quốc Anh, dẫn đến một khoản phí hủy thỏa thuận lên đến 1 tỷ đô la cho Figma.
Nhiếp Ảnh Gia Hack Cuộc Thi Nhiếp Ảnh Thế Giới của Sony
Nhiếp ảnh gia Boris Eldagsen đã làm rối cuộc thi Nhiếp Ảnh Thế Giới của Sony bằng cách nộp một tác phẩm nghệ thuật được tạo ra bởi Trí tuệ Nhân tạo. Sự từ chối của Eldagsen nhận giải đã gây ra một cuộc tranh luận về vị trí của những hình ảnh được tạo ra bởi Trí tuệ Nhân tạo trong các cuộc thi nhiếp ảnh truyền thống, đặt ra thách thức đối với quan điểm về tính xác thực và sáng tạo.