Tác giả: Aayush Mittal
ngày 13 tháng 4 năm 2024
Trong cảnh quan ngày càng phát triển của trí tuệ nhân tạo, Apple đã quietly tiên phong một cách tiếp cận đột phá có thể định nghĩa lại cách chúng ta tương tác với các Iphone của mình. ReALM, hoặc Reference Resolution as Language Modeling, là một mô hình trí tuệ nhân tạo hứa hẹn mang đến một cấp độ mới của sự nhận thức ngữ cảnh và sự hỗ trợ mượt mà.
Trong khi thế giới công nghệ đang sôi động với sự hứng thú về GPT-4 của OpenAI và các mô hình ngôn ngữ lớn khác (LLMs), ReALM của Apple đại diện cho một sự chuyển đổi trong tư duy – một sự di chuyển ra khỏi việc chỉ phụ thuộc vào trí tuệ nhân tạo dựa trên đám mây sang một cách tiếp cận cá nhân hóa hơn, trên thiết bị. Mục tiêu? Tạo ra một trợ lý thông minh thực sự hiểu bạn, thế giới của bạn, và sợi dây phức tạp của sự tương tác kỹ thuật số hàng ngày của bạn.
Ở trung tâm của ReALM nằm khả năng giải quyết các tham chiếu – những đại từ không rõ ràng như “nó,” “họ,” hoặc “đó” mà con người điều hướng một cách dễ dàng nhờ vào dấu hiệu ngữ cảnh. Đối với trợ lý trí tuệ nhân tạo, điều này đã lâu là một trở ngại, dẫn đến sự hiểu nhầm đáng chán và một trải nghiệm người dùng không liên kết.
Hãy tưởng tượng một tình huống mà bạn yêu cầu Siri “tìm cho tôi một công thức lành mạnh dựa trên những gì có trong tủ lạnh của tôi, nhưng đừng có nấm – tôi ghét chúng.” Với ReALM, chiếc iPhone của bạn không chỉ hiểu các tham chiếu đến thông tin trên màn hình (nội dung của tủ lạnh của bạn) mà còn nhớ các sở thích cá nhân của bạn (không thích nấm) và bối cảnh rộng lớn hơn của việc tìm một công thức phù hợp với những tham số đó.
Cấp độ nhận thức ngữ cảnh này là một bước nhảy vọt từ việc khớp từ khóa của hầu hết các trợ lý trí tuệ nhân tạo hiện tại. Bằng cách huấn luyện LLMs để mượt mà giải quyết các tham chiếu trên ba lĩnh vực chính – trò chuyện, trên màn hình và nền – ReALM nhắm vào việc tạo ra một người bạn kỹ thuật số thực sự thông minh mà cảm giác ít giống như một trợ lý thoại robot và nhiều giống như một phần mở rộng của quá trình suy nghĩ của riêng bạn.
Lĩnh Vực Trò Chuyện: Nhớ Những Gì Đã Xảy Ra Trước Đó
Trí tuệ nhân tạo trong trò chuyện, ReALM đối mặt với một thách thức lâu dài: duy trì tính liên kết và bộ nhớ qua nhiều lượt trò chuyện. Với khả năng giải quyết các tham chiếu trong một cuộc trò chuyện đang diễn ra, ReALM cuối cùng có thể thực hiện được lời hứa về một tương tác tự nhiên, qua lại với trợ lý kỹ thuật số của bạn.
Hãy tưởng tượng bạn yêu cầu Siri “nhắc nhở tôi đặt vé cho kỳ nghỉ của tôi khi tôi nhận được lương vào thứ Sáu.” Với ReALM, Siri sẽ không chỉ hiểu ngữ cảnh của kế hoạch nghỉ của bạn (có thể được thu thập từ một cuộc trò chuyện trước đó hoặc thông tin trên màn hình) mà còn có nhận thức để kết nối “nhận lương” với lịch trả lương định kỳ của bạn.
Cấp độ trí tuệ trong trò chuyện này cảm giác như một bước nhảy vọt thực sự, cho phép các cuộc đối thoại nhiều lượt một cách mượt mà mà không phải gặp sự thất vọng của việc liên tục giải thích ngữ cảnh hoặc lặp lại chính mình.
Lĩnh Vực Trên Màn Hình: Trợ Lý Của Bạn Có Thể Nhìn Thấy
Có lẽ khía cạnh đột phá nhất của ReALM, tuy nhiên, nằm ở khả năng giải quyết các tham chiếu đến các thực thể trên màn hình – một bước quan trọng hướng tới việc tạo ra một trải nghiệm người dùng thực sự không cần tay, được điều khiển bằng giọng nói.
Bài báo nghiên cứu của Apple đi sâu vào một kỹ thuật mới mẻ để mã hóa thông tin hình ảnh từ màn hình thiết bị của bạn thành một định dạng mà các LLMs có thể xử lý. Bằng cách tóm tắt lại bố cục của màn hình của bạn thành một biểu diễn dựa trên văn bản, ReALM có thể “nhìn thấy” và hiểu các mối quan hệ không gian giữa các yếu tố trên màn hình.
Hãy tưởng tượng một tình huống trong đó bạn đang xem danh sách các nhà hàng và yêu cầu Siri “hướng dẫn đến cái ở phố Main.” Với ReALM, chiếc iPhone của bạn không chỉ hiểu tham chiếu đến một vị trí cụ thể mà còn liên kết nó với thực thể trên màn hình tương ứng – danh sách nhà hàng phù hợp với mô tả đó.
Cấp độ hiểu biết về hình ảnh này mở ra một thế giới của các khả năng, từ việc thao tác một cách mượt mà trên các tham chiếu trong các ứng dụng và trang web đến tích hợp với các giao diện AR trong tương lai và thậm chí nhận biết và phản ứng với các đối tượng và môi trường thực tế thông qua camera của thiết bị của bạn.
Bài báo nghiên cứu về mô hình ReALM của Apple đi sâu vào các chi tiết phức tạp về cách hệ thống mã hóa các thực thể trên màn hình và giải quyết các tham chiếu qua các ngữ cảnh khác nhau. Dưới đây là một giải thích đơn giản về các thuật toán và ví dụ được cung cấp trong bài báo:
- Mã Hóa Các Thực Thể Trên Màn Hình: Bài báo khám phá một số chiến lược để mã hóa các yếu tố trên màn hình dưới định dạng văn bản có thể được xử lý bởi một Mô hình Ngôn ngữ Lớn (LLM). Một phương pháp liên quan đến việc phân cụm các đối tượng xung quanh dựa trên sự gần gũi không gian của chúng và tạo ra các lời nhắc bao gồm các đối tượng này được thực hiện. Tuy nhiên, phương pháp này có thể dẫn đến các lời nhắc quá dài khi số lượng thực thể tăng lên.
Phương pháp cuối cùng được các nhà nghiên cứu chấp nhận là phân tích màn hình theo thứ tự từ trên xuống dưới, từ trái sang phải, đại diện cho bố cục dưới định dạng văn bản. Điều này được đạt được thông qua Thuật toán 2, qui sắp xếp các đối tượng trên màn hình dựa trên tọa độ trung tâm của chúng, xác định các cấp độ dọc bằng cách nhóm các đối tượng trong một khoảng cách nhất định, và xây dựng phân tích trên màn hình bằng cách nối các cấp độ này với các tab phân tách các đối tượng trên cùng một dòng.
Bằng cách tiêm vào các thực thể liên quan (số điện thoại trong trường hợp này) vào biểu diễn văn bản, LLM có thể hiểu ngữ cảnh trên màn hình và giải quyết các tham chiếu một cách tương ứng.
- Ví dụ về Giải Quyết Tham Chiếu: Bài báo cung cấp một số ví dụ để minh họa khả năng của mô hình ReALM trong việc giải quyết các tham chiếu qua các ngữ cảnh khác nhau:
a. Tham Chiếu Trò Chuyện: Đối với một yêu cầu như “Siri, tìm cho tôi một công thức lành mạnh dựa trên những gì có trong tủ lạnh của tôi, nhưng đừng có nấm – tôi ghét chúng,” ReALM có thể hiểu ngữ cảnh trên màn hình (nội dung của tủ lạnh), ngữ cảnh trò chuyện (tìm một công thức), và sở thích của người dùng (không thích nấm).
b. Tham Chiếu Nền: Trong ví dụ “Siri, phát bài hát đang phát tại siêu thị trước đó,” ReALM có thể tiềm năng bắt và xác định các đoạn âm thanh xung quanh để giải quyết tham chiếu đến bài hát cụ thể đó.
c. Tham Chiếu Trên Màn Hình: Đối với một yêu cầu như “Siri, nhắc nhở tôi đặt vé cho kỳ nghỉ khi tôi nhận được lương vào thứ Sáu,” ReALM có thể kết hợp thông tin từ các thói quen của người dùng (ngày trả lương), cuộc trò chuyện hoặc trang web trên màn hình (kế hoạch nghỉ), và lịch để hiểu và thực hiện yêu cầu.
Những ví dụ này thể hiện khả năng của ReALM trong việc giải quyết các tham chiếu qua các ngữ cảnh trò chuyện, trên màn hình và nền, từ đó tạo điều kiện cho một tương tác tự nhiên và mượt mà hơn với các trợ lý thông minh.
Lĩnh Vực Nền
Vượt qua các ngữ cảnh chỉ trò chuyện và trên màn hình, ReALM cũng khám phá khả năng giải quyết các tham chiếu đến các thực thể nền – những sự kiện và quy trình phụ lớn thường bị bỏ qua bởi các trợ lý trí tuệ nhân tạo hiện tại của chúng ta.
Hãy tưởng tượng một tình huống bạn yêu cầu Siri “phát bài hát đang phát tại siêu thị trước đó.” Với ReALM, chiếc iPhone của bạn có thể tiềm năng bắt và xác định các đoạn âm thanh xung quanh, cho phép Siri mượt mà mở và phát bài hát bạn muốn nghe.
Cấp độ nhận thức về nền này cảm giác như bước đầu tiên hướng tới trợ lý trí tuệ nhân tạo thực sự phổ cập, nhận biết ngữ cảnh một cách tự nhiên – một người bạn kỹ thuật số không chỉ hiểu được những từ của bạn mà còn hiểu được sợi dây phong phú của trải nghiệm hàng ngày của bạn.
Hứa Hẹn của Trí Tuệ Nhân Tạo Trên Thiết Bị: Sự Bảo Mật và Cá Nhân Hóa
Mặc dù khả năng của ReALM không thể phủ nhận là ấn tượng, có lẽ lợi thế quan trọng nhất của nó nằm trong cam kết lâu dài của Apple đối với trí tuệ nhân tạo trên thiết bị và quyền riêng tư của người dùng.
Khác với các mô hình trí tuệ nhân tạo dựa trên đám mây mà phụ thuộc vào việc gửi dữ liệu người dùng đến máy chủ từ xa để xử lý, ReALM được thiết kế để hoạt động hoàn toàn trên iPhone hoặc các thiết bị khác của Apple. Điều này không chỉ giải quyết các lo ngại về quyền riêng tư dữ liệu mà còn mở ra những khả năng mới cho việc hỗ trợ trí tuệ nhân tạo thực sự hiểu và điều chỉnh cho bạn như một cá nhân.
Bằng cách học trực tiếp từ dữ liệu trên thiết bị của bạn – các cuộc trò chuyện, mẫu sử dụng ứng dụng của bạn, và thậm chí là các đầu vào giác quan xung quanh – ReALM có thể tiềm năng tạo ra một trợ lý kỹ thuật số siêu cá nhân hóa phù hợp với nhu cầu, sở thích và ruti hàng ngày đặc biệt của bạn.
Cấp độ cá nhân hóa này cảm giác như một sự chuyển đổi mô hình từ phương pháp một cỡ vừa vừa khít của các trợ lý trí tuệ nhân tạo hiện tại, mà thường gặp khó khăn trong việc thích ứng với những tình huống và bản chất riêng của từng người dùng.
Mô hình ReALM-250M đạt được kết quả ấn tượng:
- Hiểu Trò Chuyện: 97.8
- Hiểu Nhiệm Vụ Tổng Hợp: 99.8
- Thực Hiện Nhiệm Vụ Trên Màn Hình: 90.6
- Xử Lý Lĩnh Vực Chưa Xem Trước: 97.2
Những Điều Cần Xem Xét Về Đạo Đức
Tất nhiên, với mức độ cá nhân hóa và nhận thức ngữ cảnh cao như vậy đi kèm với một loạt các vấn đề về đạo đức liên quan đến quyền riêng tư, minh bạch và khả năng của các hệ thống trí tuệ nhân tạo ảnh hưởng hoặc thậm chí làm manipulize hành vi người dùng.
Khi ReALM hiểu sâu hơn về cuộc sống hàng ngày của chúng ta – từ thói quen ăn uống và mẫu tiêu thụ truyền thông cho đến các tương tác xã hội và sở thích cá nhân của chúng ta – có nguy cơ rằng công nghệ này sẽ được sử dụng một cách vi phạm sự tin tưởng của người dùng hoặc vượt qua ranh giới đạo đức.
Các nhà nghiên cứu của Apple đều nhận thức rõ sự căng thẳng này, thừa nhận trong bài báo của họ sự cần thiết phải đạt được một sự cân nhắc cẩn thận giữa việc cung cấp một trải nghiệm trí tuệ nhân tạo thực sự hữu ích và cá nhân hóa và tôn trọng quyền riêng tư và nguyên tắc của người dùng.
Thách thức này không phải là duy nhất đối với Apple hay ReALM, tất nhiên – đó là một cuộc trò chuyện mà toàn bộ ngành công nghiệp công nghệ phải đối mặt khi các hệ thống trí tuệ nhân tạo trở nên ngày càng phức tạp và được tích hợp vào cuộc sống hàng ngày của chúng ta.
Hướng Tới Một Trải Nghiệm Trí Tuệ Nhân Tạo Thông Minh, Tự Nhiên Hơn
Khi Apple tiếp tục đẩy ranh giới của trí tuệ nhân tạo trên thiết bị với các mô hình như ReALM, hứa hẹn hấp dẫn về một trợ lý kỹ thuật số thực sự thông minh, nhận thức ngữ cảnh cảm thấy gần gũi hơn bao giờ hết.
Hãy tưởng tượng một thế giới nơi Siri (hoặc bất kỳ trợ lý trí tuệ nhân tạo nào có thể được gọi trong tương lai) cảm thấy ít giống như một giọng nói không có hình dáng từ đám mây và hơn như một phần mở rộng của quá trình suy nghĩ của bạn – một đối tác không chỉ hiểu được từ của bạn mà còn sợi dây phong phú của cuộc sống kỹ thuật số của bạn, các ruti hàng ngày của bạn, và sở thích và ngữ cảnh đặc biệt của bạn.
Từ việc thao tác một cách mượt mà trên các tham chiếu trong các ứng dụng và trang web đến dự đoán nhu cầu của bạn dựa trên vị trí, hoạt động và đầu vào giác quan xung quanh của bạn, ReALM đại diện cho một bước tiến đáng kể hướng tới một trải nghiệm trí tuệ nhân tạo tự nhiên, mượt mà hơn, làm mờ đi ranh giới giữa thế giới kỹ thuật số và vật lý của chúng ta.
Tất nhiên, để thực hiện được tầm nhìn này sẽ đòi hỏi nhiều hơn chỉ là sự đổi mới kỹ thuật – nó cũng sẽ đòi hỏi một cách tiếp cận suy nghĩ, đạo đức đến phát triển trí tuệ nhân tạo mà ưu tiên quyền riêng tư của người dùng, tính minh bạch và sự ủy quyền.
Khi Apple tiếp tục hoàn thiện và mở rộng khả năng của ReALM, thế giới công nghệ không nghi ngờ gì sẽ đang chờ đợi với hơi thở nóng hổi, háo hức xem cách mô hình trí tuệ nhân tạo đột phá này tạo nên tương lai của các trợ lý thông minh và đưa vào một thời đại mới của máy tính thực sự được cá nhân hóa, nhận thức ngữ cảnh.
Cho dù ReALM có đạt được hứa hẹn vượt xa cả mạnh mẽ của GPT-4 hay không vẫn còn phải chờ đợi. Nhưng một điều chắc chắn: thời đại của các trợ lý trí tuệ nhân tạo thực sự hiểu chúng ta – từng từ của chúng ta, thế giới của chúng ta và sợi dây phong phú của cuộc sống hàng ngày của chúng ta – đã bắt đầu, và sáng tạo mới nhất của Apple có thể rất có thể đứng đầu trong cuộc cách mạng này.