Bởi Kunal Kejriwal
26 Tháng 2, 2024
Sự xuất hiện của các Mô Hình Ngôn Ngữ Đa Phương Tiện Lớn (MLLM) đã mở ra một thời đại mới của các đại diện thiết bị di động, có khả năng hiểu và tương tác với thế giới qua văn bản, hình ảnh và giọng nói. Những đại diện này đánh dấu một tiến bộ đáng kể so với trí tuệ nhân tạo truyền thống, cung cấp một cách tương tác giàu hơn và trực quan hơn cho người dùng với thiết bị của họ. Bằng cách tận dụng MLLM, những đại diện này có thể xử lý và tổng hợp lượng thông tin lớn từ các dạng thông tin khác nhau, cho phép chúng cung cấp sự hỗ trợ cá nhân hóa và tăng cường trải nghiệm người dùng theo cách không thể tưởng tượng trước đây.
Những đại diện này được trang bị bởi các kỹ thuật học máy tiên tiến và khả năng xử lý ngôn ngữ tự nhiên, cho phép chúng hiểu và tạo ra văn bản giống như con người, cũng như diễn giải dữ liệu hình ảnh và âm thanh với độ chính xác đáng kinh ngạc. Từ việc nhận biết các đối tượng và cảnh trong hình ảnh đến hiểu các lệnh nói và phân tích tâm trạng văn bản, những đại diện đa phương tiện này được trang bị để xử lý một loạt đầu vào một cách liền mạch. Tiềm năng của công nghệ này là rộng lớn, cung cấp các dịch vụ phức tạp và nhận biết ngữ cảnh, chẳng hạn như các trợ lý ảo điều chỉnh cho cảm xúc con người và các công cụ giáo dục điều chỉnh cho phong cách học tập cá nhân. Chúng cũng có khả năng cách mạng hóa tính tiện ích, làm cho công nghệ dễ tiếp cận hơn qua các rào cản ngôn ngữ và giác quan.
Trong bài viết này, chúng ta sẽ nói về Mobile-Agents, một đại diện thiết bị đa phương tiện tự động sử dụng công cụ nhận biết hình ảnh để xác định và định vị các yếu tố hình ảnh và văn bản với độ chính xác cao trên giao diện phía trước của ứng dụng di động. Sử dụng bối cảnh thị giác nhận biết này, khung công việc của Mobile-Agent lập kế hoạch và phân rã các nhiệm vụ hoạt động phức tạp một cách tự động và điều hướng qua các ứng dụng di động thông qua các thao tác từng bước. Khung công việc của Mobile-Agent khác biệt so với các giải pháp hiện có vì nó không phụ thuộc vào siêu dữ liệu hệ thống di động hoặc các tệp XML của các ứng dụng di động, tạo điều kiện cho tính linh hoạt được nâng cao trên các môi trường hoạt động di động đa dạng theo cách tập trung vào thị giác. Phương pháp được áp dụng bởi khung công việc của Mobile-Agent loại bỏ yêu cầu về tùy chỉnh cụ thể cho hệ thống, mang lại hiệu suất tăng cường và yêu cầu tính toán thấp hơn.
Mobile-Agents: Đại Diện Thiết Bị Di Động Tự Động Đa Phương Tiện
Trong thế giới công nghệ di động phát triển nhanh chóng, một khái niệm tiên phong nổi bật là Mô Hình Ngôn Ngữ Lớn, đặc biệt là các Mô Hình Ngôn Ngữ Đa Phương Tiện hoặc MLLM có khả năng tạo ra một loạt các văn bản, hình ảnh, video và giọng nói trên các ngôn ngữ khác nhau. Sự phát triển nhanh chóng của các khung công việc MLLM trong vài năm qua đã tạo điều kiện cho một ứng dụng mới và mạnh mẽ của MLLMs: các đại diện di động tự động. Các đại diện di động tự động là các thực thể phần mềm hoạt động, di chuyển và hoạt động độc lập, mà không cần các lệnh trực tiếp từ con người, được thiết kế để di chuyển qua mạng lưới hoặc thiết bị để hoàn thành nhiệm vụ, thu thập thông tin hoặc giải quyết vấn đề.
Mobile Agents được thiết kế để vận hành thiết bị di động của người dùng dựa trên hướng dẫn của người dùng và hình ảnh màn hình, một nhiệm vụ đòi hỏi các đại diện phải sở hữu cả khả năng hiểu ngữ nghĩa và nhận thức hình ảnh. Tuy nhiên, các đại diện di động hiện có còn xa hoàn hảo vì chúng dựa trên các mô hình ngôn ngữ lớn đa phương tiện, và thậm chí các khung công việc MLLM tiên tiến như GPT-4V hiện tại cũng thiếu khả năng nhận thức hình ảnh cần thiết để phục vụ như một đại diện di động hiệu quả. Hơn nữa, mặc dù các khung công việc hiện có có thể tạo ra các hoạt động hiệu quả, chúng gặp khó khăn trong việc xác định vị trí chính xác của các hoạt động này trên màn hình, hạn chế ứng dụng và khả năng của các đại diện di động trong việc vận hành trên thiết bị di động.
Để giải quyết vấn đề này, một số khung công việc đã chọn cách tận dụng các tệp bố cục giao diện người dùng để hỗ trợ GPT-4V hoặc các MLLMs khác với khả năng định vị, với một số khung công việc quản lý trích xuất vị trí có thể thực hiện trên màn hình bằng cách truy cập vào các tệp XML của ứng dụng trong khi các khung công việc khác chọn cách sử dụng mã HTML từ các ứng dụng web. Như có thể thấy, đa số các khung công việc này phụ thuộc vào việc truy cập các tệp ứng dụng cơ bản và cục bộ, làm cho phương pháp này gần như không hiệu quả nếu khung công việc không thể truy cập các tệp này. Để giải quyết vấn đề này và loại bỏ sự phụ thuộc của các đại diện địa phương vào các tệp cơ bản trên các phương pháp định vị, các nhà phát triển đã làm việc trên Mobile-Agent, một đại diện di động tự động với khả năng nhận thức hình ảnh ấn tượng. Sử dụng mô-đun nhận thức hình ảnh của mình, khung công việc Mobile-Agent sử dụng ảnh chụp màn hình từ thiết bị di động để xác định các hoạt động một cách chính xác. Mô-đun nhận thức hình ảnh chứa các mô hình OCR và phát hiện có trách nhiệm nhận dạng văn bản trong màn hình và mô tả nội dung trong một khu vực cụ thể của màn hình di động. Khung công việc Mobile-Agent sử dụng các lời nhắc được thiết kế cẩn thận và tạo điều kiện cho sự tương tác hiệu quả giữa các công cụ và các đại diện, từ đó tự động hóa các hoạt động của thiết bị di động.
Hơn nữa, khung công việc Mobile-Agents nhằm tận dụng khả năng ngữ cảnh của các khung công việc MLLM tiên tiến như GPT-4V để đạt được khả năng tự lập kế hoạch, cho phép mô hình lập kế hoạch nhiệm vụ dựa trên lịch sử hoạt động, hướng dẫn của người dùng và ảnh chụp màn hình toàn diện. Để nâng cao khả năng của đại diện trong việc nhận diện các hướng dẫn không hoàn chỉnh và các hoạt động sai lầm.
Tổng quan, các đóng góp của khung công việc Mobile-Agent có thể được tóm tắt như sau:
- Mobile-Agent hoạt động như một đại diện thiết bị di động tự động, sử dụng các công cụ nhận thức hình ảnh để thực hiện việc định vị hoạt động. Nó lập kế hoạch một cách hệ thống cho mỗi bước và tham gia vào việc tự phản ánh. Đáng chú ý, Mobile-Agent hoàn toàn phụ thuộc vào các bản chụp màn hình của thiết bị, không sử dụng bất kỳ mã hệ thống nào, thể hiện một giải pháp dựa hoàn toàn trên các kỹ thuật thị giác.
- Mobile-Agent giới thiệu Mobile-Eval, một tiêu chuẩn thiết kế để đánh giá các đại diện thiết bị di động. Tiêu chuẩn này bao gồm một loạt các ứng dụng di động phổ biến nhất, cùng với các hướng dẫn thông minh cho các ứng dụng này, được phân loại thành ba cấp độ khó khăn.
Mobile-Agent: Kiến Trúc và Phương Pháp
Ở tâm điểm của khung công việc Mobile-Agent là một Mô Hình Ngôn Ngữ Lớn Đa Phương Tiện tiên tiến nhất, GPT-4V, một mô-đun phát hiện văn bản được sử dụng cho các nhiệm vụ định vị văn bản. Bên cạnh GPT-4V, Mobile-Agent cũng sử dụng một mô-đun phát hiện biểu tượng để định vị biểu tượng.
Nhận Thức Hình Ảnh
Như đã đề cập trước đó, MLLM GPT-4V mang lại kết quả đáng chú ý cho các hướng dẫn và các bản chụp màn hình, nhưng nó thất bại trong việc đưa ra vị trí một cách hiệu quả nơi mà các hoạt động diễn ra. Do hạn chế này, khung công việc Mobile-Agent thực hiện mô hình GPT-4V cần phải phụ thuộc vào các công cụ bên ngoài để hỗ trợ việc định vị hoạt động, từ đó tạo điều kiện cho việc đưa ra các hoạt động trên màn hình di động.
Định Vị Văn Bản
Khung công việc Mobile-Agent thực hiện một công cụ OCR để phát hiện vị trí của văn bản tương ứng trên màn hình mỗi khi đại diện cần chạm vào một văn bản cụ thể được hiển thị trên màn hình di động. Có ba tình huống định vị văn bản độc đáo.
Tình huống 1: Không Phát Hiện Văn Bản Cụ Thể
Vấn Đề: OCR không thể phát hiện được văn bản cụ thể, có thể xảy ra trong các hình ảnh phức tạp hoặc do hạn chế của OCR.
Phản Ứng: Hướng dẫn cho đại diện thực hiện một trong hai hành động sau:
- Chọn lại văn bản để chạm vào, cho phép sửa chữa thủ công cho sự bỏ sót của OCR, hoặc
- Chọn một hoạt động thay thế, chẳng hạn như sử dụng một phương thức nhập khác hoặc thực hiện một hành động khác liên quan đến nhiệm vụ đang thực hiện.
Lý Do: Sự linh hoạt này là cần thiết để quản lý các sai sót hoặc hiện tượng “ảo tưởng” đôi khi của GPT-4V, đảm bảo đại diện vẫn có thể tiến hành một cách hiệu quả.
Tình Huống 2: Phát Hiện Một Trường Hợp Của Văn Bản Cụ Thể
Hoạt Động: Tự động tạo ra một hành động để nhấn vào tọa độ trung tâm của hộp văn bản được phát hiện.
Lí Do: Với chỉ một trường hợp được phát hiện, khả năng xác định đúng là cao, làm cho việc tiến hành một hành động trực tiếp là hiệu quả.
Tình Huống 3: Phát Hiện Nhiều Trường Hợp của Văn Bản Cụ Thể
Đánh Giá: Đầu tiên, đánh giá số lượng trường hợp được phát hiện:
Nhiều Trường Hợp: Chỉ ra một màn hình đầy đủ với nội dung tương tự, làm phức tạp quá trình lựa chọn.
Hành Động: Yêu cầu đại diện chọn lại văn bản, nhằm mục đích làm rõ lựa chọn hoặc điều chỉnh các tham số tìm kiếm.
Ít Trường Hợp: Một số lượng phát hiện quản lý cho một cách tiếp cận tinh tế hơn.
Hành Động: Cắt các vùng xung quanh các trường hợp này, mở rộng các hộp phát hiện văn bản ra bên ngoài để bao gồm thêm bối cảnh. Sự mở rộng này đảm bảo rằng có nhiều thông tin hơn được bảo tồn, hỗ trợ trong quá trình ra quyết định.
Bước Tiếp Theo: Vẽ các hộp phát hiện trên các hình ảnh đã được cắt và trình bày chúng cho đại diện. Sự hỗ trợ trực quan này giúp đại diện quyết định xác định nào để tương tác, dựa trên các gợi ý ngữ cảnh hoặc yêu cầu nhiệm vụ.
Phương pháp có cấu trúc này tối ưu hóa sự tương tác giữa kết quả OCR và các hoạt động của đại diện, tăng cường tính đáng tin cậy và tính linh hoạt của hệ thống trong việc xử lý các nhiệm vụ dựa trên văn bản trên nhiều tình huống khác nhau. Toàn bộ quá trình được minh họa trong hình ảnh sau đây.
Định Vị Biểu Tượng
Khung công việc Mobile-Agent thực hiện một công cụ phát hiện biểu tượng để định vị vị trí của một biểu tượng khi đại diện cần nhấp vào nó trên màn hình di động. Để cụ thể hơn, khung công việc đầu tiên yêu cầu đại diện cung cấp các thuộc tính cụ thể của hình ảnh bao gồm hình dạng và màu sắc, sau đó khung công việc thực hiện phương pháp Grounding DINO với lời nhắc biểu tượng để xác định tất cả các biểu tượng chứa trong bản chụp màn hình. Cuối cùng, Mobile-Agent sử dụng khung CLIP để tính toán sự tương đồng giữa mô tả của khu vực nhấp, và tính toán sự tương đồng giữa các biểu tượng đã xóa, và chọn khu vực có sự tương đồng cao nhất cho một lần nhấp.
Thực Thi Hướng Dẫn
Để dịch các hành động thành các hoạt động trên màn hình bởi các đại diện, khung công việc Mobile-Agent xác định 8 hoạt động khác nhau.
- Khởi Chạy Ứng Dụng (Tên Ứng Dụng): Khởi động ứng dụng được chỉ định từ giao diện máy tính để bàn.
- Chạm vào Văn Bản (Nhãn Văn Bản): Tương tác với phần màn hình hiển thị nhãn “Nhãn Văn Bản”.
- Tương Tác với Biểu Tượng (Mô Tả Biểu Tượng, Vị Trí): Nhắm mục tiêu và chạm vào khu vực biểu tượng được chỉ định, trong đó “Mô Tả Biểu Tượng” mô tả các thuộc tính như màu sắc và hình dạng của biểu tượng. Chọn “Vị Trí” từ các tùy chọn như trên, dưới, trái, phải hoặc trung tâm, có thể kết hợp hai tùy chọn để điều hướng chính xác và giảm thiểu sai sót.
- Nhập Văn Bản (Văn Bản Đầu Vào): Nhập “Văn Bản Đầu Vào” vào trường văn bản hoạt động.
- Cuộn Lên & Xuống: Di chuyển lên hoặc xuống qua nội dung của trang hiện tại.
- Quay Lại: Quay lại trang đã xem trước đó.
- Đóng: Quay lại máy tính để bàn trực tiếp từ màn hình hiện tại.
- Dừng Lại: Kết thúc hoạt động sau khi nhiệm vụ hoàn thành.
Tự Lập Kế Hoạch
Mỗi bước của hoạt động được thực hiện lặp đi lặp lại bởi khung công việc, và trước khi bắt đầu mỗi lần lặp lại, người dùng cần cung cấp một hướng dẫn đầu vào, và mô hình Mobile-Agent sử dụng hướng dẫn đó để tạo ra một lời nhắc hệ thống cho toàn bộ quá trình. Hơn nữa, trước khi bắt đầu mỗi lần lặp lại, khung công việc chụp một bản chụp màn hình và cung cấp cho đại diện. Sau đó, đại diện quan sát bản chụp màn hình, lịch sử hoạt động và lời nhắc hệ thống để đưa ra bước tiếp theo của các hoạt động.
Tự Phản Ánh
Trong quá trình hoạt động của mình, đại diện có thể gặp phải các lỗi ngăn chặn nó thực hiện thành công một lệnh. Để tăng cường tỷ lệ thực hiện hướng dẫn, một phương pháp tự đánh giá đã được triển khai, kích hoạt trong hai trường hợp cụ thể. Ban đầu, nếu đại diện thực hiện một hành động lỗi hoặc không hợp lệ làm ngưng tiến trình, chẳng hạn như khi nó nhận diện bản chụp màn hình vẫn không thay đổi sau khi hoạt động hoặc hiển thị một trang không chính xác, nó sẽ được yêu cầu xem xét các hành động thay thế hoặc điều chỉnh các tham số của hoạt động hiện có. Thứ hai, đại diện có thể bỏ sót một số yếu tố của một hướng dẫn phức tạp. Sau khi đại diện đã thực hiện một loạt các hành động dựa trên kế hoạch ban đầu của mình, nó sẽ được yêu cầu xem xét chuỗi hành động của mình, bản chụp màn hình mới nhất và hướng dẫn của người dùng để đánh giá xem nhiệm vụ đã hoàn thành chưa. Nếu phát hiện ra sự không nhất quán, đại diện sẽ được giao nhiệm vụ tạo ra các hành động mới một cách tự động để thực hiện hướng dẫn.
Mobile-Agent: Thí Nghiệm và Kết Quả
Để đánh giá khả năng của nó một cách toàn diện, khung công việc Mobile-Agent giới thiệu tiêu chuẩn đánh giá Mobile-Eval gồm 10 ứng dụng phổ biến và thiết kế ba hướng dẫn cho mỗi ứng dụng. Hoạt động đầu tiên là đơn giản, chỉ bao gồm các hoạt động cơ bản của ứng dụng trong khi hoạt động thứ hai phức tạp hơn một chút vì có một số yêu cầu bổ sung. Cuối cùng, hoạt động thứ ba là phức tạp nhất với lời hướng dẫn trừu tượng vì người dùng không chỉ định rõ ứng dụng nào để sử dụng hoặc hoạt động nào để thực hiện.
Tiếp theo, để đánh giá hiệu suất từ các góc độ khác nhau, khung công việc Mobile-Agent thiết kế và triển khai 4 chỉ số khác nhau.
- Su hoặc Thành công: Nếu đại diện di động hoàn thành các hướng dẫn, nó được coi là thành công.
- Điểm Quy Trình hoặc PS: Chỉ số Điểm Quy Trình đo lường độ chính xác của mỗi bước trong quá trình thực hiện các hướng dẫn của người dùng, và nó được tính bằng cách chia số bước đúng cho tổng số bước.
- Hiệu Suất Tương Đối hoặc RE: Điểm số hiệu suất tương đối là tỷ lệ hoặc so sánh giữa số bước mà một con người thực hiện để thực hiện hướng dẫn một cách thủ công và số bước mà đại diện thực hiện cùng một hướng dẫn.
- Tỷ Lệ Hoàn Thành hoặc CR: Tiêu chuẩn tỷ lệ hoàn thành chia số bước do con người thực hiện mà khung công việc hoàn thành thành công với tổng số bước của một con người để hoàn thành hướng dẫn. Giá trị của CR là 1 khi đại diện hoàn thành hướng dẫn một cách thành công.
Kết quả được thể hiện trong hình dưới đây.
Ban đầu, đối với ba nhiệm vụ đã cho, Mobile-Agent đạt tỷ lệ hoàn thành lần lượt là 91%, 82% và 82%. Mặc dù không phải tất cả các nhiệm vụ đều được thực hiện hoàn hảo, tỷ lệ thành công cho mỗi loại nhiệm vụ vượt qua 90%. Hơn nữa, chỉ số PS tiết lộ rằng Mobile-Agent liên tục thể hiện khả năng cao để thực hiện các hành động chính xác cho ba nhiệm vụ, với tỷ lệ thành công khoảng 80%. Ngoài ra, theo chỉ số RE, Mobile-Agent thể hiện hiệu suất 80% trong việc thực hiện các hoạt động ở mức độ tối ưu như con người. Những kết quả này tổng hợp làm nổi bật sự thành thạo của Mobile-Agent như một trợ lý thiết bị di động.
Hình dưới đây minh họa khả năng của Mobile-Agent trong việc nắm bắt lệnh của người dùng và tự động sắp xếp các hành động của nó. Ngay cả khi không có chi tiết hoạt động cụ thể trong các hướng dẫn, Mobile-Agent thông thạo giải thích nhu cầu của người dùng, chuyển đổi chúng thành các nhiệm vụ có thể thực hiện được. Theo hiểu biết này, đại diện thực hiện các hướng dẫn thông qua một quy trình lập kế hoạch có hệ thống.
Thay lời kết
Trong bài viết này, chúng tôi đã thảo luận về Mobile-Agents, một đại diện thiết bị tự động đa phương thức sử dụng ban đầu các công nghệ nhận thức hình ảnh để phát hiện và xác định chính xác cả các thành phần hình ảnh và văn bản trong giao diện của một ứng dụng di động. Với ngữ cảnh hình ảnh này trong tâm trí, khung công việc Mobile-Agent tự động phác thảo và phân rã các nhiệm vụ phức tạp thành các hành động dễ quản lý, điều hướng mượt mà qua các ứng dụng di động từng bước một. Khung công việc này nổi bật so với các phương pháp hiện tại vì nó không phụ thuộc vào siêu dữ liệu của hệ thống di động hoặc các tệp XML của các ứng dụng di động, từ đó tạo điều kiện linh hoạt lớn hơn trên các hệ điều hành di động khác nhau với sự tập trung vào xử lý trung tâm hình ảnh. Chiến lược được sử dụng bởi khung công việc Mobile-Agent loại bỏ nhu cầu phải thích ứng cụ thể cho từng hệ thống, dẫn đến hiệu suất cải thiện và yêu cầu tính toán giảm đi.