Tác giả: Iain Wallace, Giám Đốc Học Máy tại Ultraleap
ngày 3 tháng 6 năm 2024
Đối với nhiều người trong chúng ta đang đổi mới trong lĩnh vực AI, chúng ta đang làm việc trong lãnh thổ chưa được khám phá. Với tốc độ phát triển nhanh chóng của các công ty AI trong việc tạo ra các công nghệ mới, người ta có thể coi nhẹ những nỗ lực kiên trì phía sau hậu trường. Nhưng trong một lĩnh vực như XR, nơi sứ mệnh là làm mờ ranh giới giữa thế giới thực và thế giới số — hiện tại không có nhiều dữ liệu lịch sử hoặc nghiên cứu để dựa vào; do đó chúng ta cần phải suy nghĩ sáng tạo.
Mặc dù thuận tiện nhất là dựa vào kiến thức truyền thống về học máy và các phương pháp đã được kiểm chứng, điều này thường không thể thực hiện được (hoặc không phải là giải pháp hoàn chỉnh) trong các lĩnh vực mới nổi. Để giải quyết những vấn đề chưa từng được giải quyết trước đây, chúng ta cần tiếp cận chúng theo những cách mới.
Đó là một thách thức buộc bạn phải nhớ tại sao bạn đã bước vào lĩnh vực kỹ thuật, khoa học dữ liệu hoặc phát triển sản phẩm ngay từ đầu: niềm đam mê khám phá. Tôi trải nghiệm điều này mỗi ngày trong vai trò của mình tại Ultraleap, nơi chúng tôi phát triển phần mềm có thể theo dõi và phản hồi chuyển động của bàn tay con người trong môi trường thực tế hỗn hợp. Rất nhiều điều chúng tôi nghĩ rằng mình đã biết về việc huấn luyện các mô hình học máy đều bị đảo lộn trong công việc của chúng tôi, vì bàn tay con người — cùng với các vật thể và môi trường mà nó gặp phải — cực kỳ khó đoán.
Dưới đây là một vài cách tiếp cận mà đội ngũ của tôi và tôi đã thực hiện để tái tưởng tượng việc thử nghiệm và khoa học dữ liệu nhằm mang lại tương tác trực quan vào thế giới số, chính xác và cảm thấy tự nhiên như trong thế giới thực.
Đổi Mới Trong Khuôn Khổ
Khi đổi mới trong một lĩnh vực mới nổi, bạn thường phải đối mặt với những ràng buộc dường như mâu thuẫn với nhau. Đội ngũ của tôi được giao nhiệm vụ nắm bắt những phức tạp của các chuyển động tay và ngón tay, cũng như cách bàn tay và ngón tay tương tác với thế giới xung quanh. Tất cả điều này được gói gọn trong các mô hình theo dõi tay vẫn phù hợp với phần cứng XR trên năng lực tính toán bị hạn chế. Điều này có nghĩa là các mô hình của chúng tôi — dù tinh vi và phức tạp — phải chiếm ít bộ nhớ hơn và tiêu thụ ít năng lượng hơn đáng kể (chỉ bằng 1/100.000) so với các mô hình ngôn ngữ lớn (LLM) đang thống trị các tiêu đề báo chí. Đây là một thách thức thú vị, đòi hỏi phải thử nghiệm và đánh giá nghiêm ngặt các mô hình của chúng tôi trong ứng dụng thực tế.
Nhưng hàng loạt các thử nghiệm và thí nghiệm là xứng đáng: tạo ra một mô hình mạnh mẽ mà vẫn đảm bảo chi phí suy luận thấp, tiêu thụ năng lượng và độ trễ thấp là một kỳ công có thể được áp dụng trong điện toán biên ngay cả ngoài không gian XR.
Những ràng buộc mà chúng tôi gặp phải trong quá trình thử nghiệm cũng sẽ ảnh hưởng đến các ngành công nghiệp khác. Một số doanh nghiệp sẽ gặp phải những thách thức độc đáo do những tinh tế trong lĩnh vực ứng dụng của họ, trong khi những doanh nghiệp khác có thể có dữ liệu hạn chế để làm việc do nằm trong một thị trường ngách mà các công ty công nghệ lớn chưa chạm tới.
Mặc dù các giải pháp một kích cỡ phù hợp cho tất cả có thể đủ cho một số nhiệm vụ, nhiều lĩnh vực ứng dụng cần phải giải quyết các vấn đề thực sự, thách thức cụ thể cho nhiệm vụ của họ. Ví dụ, các dây chuyền lắp ráp ô tô triển khai các mô hình ML để kiểm tra khuyết tật. Các mô hình này phải đối mặt với hình ảnh có độ phân giải rất cao cần thiết để xác định các khuyết tật nhỏ trên một bề mặt lớn của một chiếc xe. Trong trường hợp này, ứng dụng yêu cầu hiệu suất cao, nhưng vấn đề cần giải quyết là làm thế nào để đạt được một mô hình có tốc độ khung hình thấp nhưng độ phân giải cao.
Đánh Giá Kiến Trúc Mô Hình Để Thúc Đẩy Đổi Mới
Một bộ dữ liệu tốt là động lực đằng sau bất kỳ đột phá AI thành công nào. Nhưng điều gì làm cho một bộ dữ liệu “tốt” cho một mục tiêu cụ thể? Và khi bạn đang giải quyết những vấn đề chưa từng được giải quyết trước đây, làm thế nào bạn có thể tin tưởng rằng dữ liệu hiện có sẽ có liên quan? Chúng ta không thể giả định rằng các chỉ số tốt cho một số nhiệm vụ ML sẽ chuyển dịch sang hiệu suất nhiệm vụ kinh doanh cụ thể khác. Đây là lúc chúng ta cần đi ngược lại những “chân lý” ML thường được chấp nhận và thay vào đó chủ động khám phá cách chúng ta gán nhãn, làm sạch và áp dụng cả dữ liệu mô phỏng và dữ liệu thế giới thực.
Bản chất của lĩnh vực của chúng tôi là khó đánh giá và yêu cầu đảm bảo chất lượng thủ công — được thực hiện bằng tay. Chúng tôi không chỉ xem xét các chỉ số chất lượng của dữ liệu mà còn lặp lại các bộ dữ liệu và nguồn dữ liệu của chúng tôi và đánh giá chúng dựa trên các chất lượng của các mô hình mà chúng tạo ra trong thế giới thực. Khi chúng tôi đánh giá lại cách chúng tôi xếp loại và phân loại dữ liệu, chúng tôi thường tìm thấy các bộ dữ liệu hoặc xu hướng mà chúng tôi có thể đã bỏ qua. Với những bộ dữ liệu đó và vô số thí nghiệm cho chúng tôi thấy dữ liệu nào không nên dựa vào, chúng tôi đã mở ra một hướng đi mới mà trước đây chúng tôi đã bỏ lỡ.
Nền tảng theo dõi tay mới nhất của Ultraleap, Hyperion, là một ví dụ tuyệt vời về điều này. Những tiến bộ trong các bộ dữ liệu của chúng tôi đã giúp chúng tôi phát triển theo dõi tay tinh vi hơn, có khả năng theo dõi chính xác các cử chỉ nhỏ cũng như các chuyển động tay ngay cả khi người dùng đang cầm một vật thể.
Một Bước Lùi Nhỏ, Một Bước Tiến Lớn
Trong khi tốc độ đổi mới dường như không bao giờ chậm lại, chúng ta có thể. Chúng tôi hoạt động trong lĩnh vực thử nghiệm, học hỏi, phát triển và khi chúng tôi dành thời gian để làm điều đó, chúng tôi thường tạo ra những thứ có giá trị hơn nhiều so với khi chúng tôi tuân theo sách vở và vội vàng tung ra những cải tiến công nghệ tiếp theo. Không gì có thể thay thế cho những đột phá xảy ra khi chúng tôi khám phá các chú thích dữ liệu của mình, đặt câu hỏi về các nguồn dữ liệu của mình và tái định nghĩa các chỉ số chất lượng. Và cách duy nhất để chúng tôi có thể làm điều này là bằng cách thử nghiệm trong lĩnh vực ứng dụng thực tế với hiệu suất mô hình được đo lường so với nhiệm vụ. Thay vì coi những yêu cầu và ràng buộc không phổ biến là hạn chế, chúng tôi có thể coi những thách thức này là cơ hội cho sự đổi mới và cuối cùng là một lợi thế cạnh tranh.