Học có giám sát là một tập hợp các kỹ thuật học máy phổ biến hoạt động hiệu quả trong việc thực hiện các nhiệm vụ hồi quy và phân loại. Tuy nhiên, các mô hình học có giám sát yêu cầu ghi nhãn dữ liệu thủ công, điều này làm chậm quá trình xây dựng mô hình, tốn kém và dễ xảy ra lỗi.
Học tự giám sát (SSL), còn được gọi là tự giám sát, là một giải pháp mới nổi cho các thách thức đặt ra bởi việc ghi nhãn dữ liệu. Bằng cách xây dựng các mô hình một cách tự động, việc học tự giám sát giúp giảm chi phí và thời gian để xây dựng các mô hình học máy. Trong bài viết này, chúng tôi đi sâu vào việc học tự giám sát và so sánh nó với các phương pháp học máy khác như học có giám sát và không giám sát.
Học tập tự giám sát là gì?
Học tự giám sát là một phương pháp học máy trong đó mô hình tự đào tạo bằng cách tận dụng một phần dữ liệu để dự đoán phần còn lại và tạo nhãn chính xác. Cuối cùng, phương pháp học này chuyển một bài toán học không giám sát thành một bài toán có giám sát. Dưới đây là một ví dụ về kết quả học tập tự giám sát.
Tại sao việc học tập tự giám sát lại quan trọng?
Hầu hết các kỹ thuật học máy đều yêu cầu tập dữ liệu huấn luyện để đưa ra dự đoán. Các nhà khoa học dữ liệu cần gắn nhãn các quan sát trong bộ dữ liệu huấn luyện theo cách thủ công hoặc bằng các công cụ ghi nhãn dữ liệu để cho phép AI hiểu dữ liệu đầu vào và đưa ra dự đoán chính xác về dữ liệu mới. Trong trường hợp tập dữ liệu huấn luyện quá lớn, việc gắn nhãn dữ liệu huấn luyện theo cách thủ công có thể khá tốn kém và mất thời gian.
Học tập tự giám sát loại bỏ sự cần thiết của việc ghi nhãn dữ liệu. Nó cho phép máy tính tự dán nhãn, phân loại và phân tích dữ liệu.
Mức độ quan tâm đến việc học tự giám sát là gì?
Như có thể thấy trong biểu đồ bên dưới, mức độ quan tâm đến việc học tự giám sát đã tăng lên đều đặn kể từ khi các nhà nghiên cứu từ Google giới thiệu mô hình BERT vào cuối năm 2018, thúc đẩy việc học tự giám sát cho các nhiệm vụ xử lý ngôn ngữ tự nhiên (NLP) .
Vì các mô hình AI/ML yêu cầu bộ dữ liệu khổng lồ và việc gắn nhãn cho dữ liệu này là một trong những thách thức lớn nhất của việc áp dụng học máy nên chúng tôi kỳ vọng xu hướng này sẽ tiếp tục.
Sự khác biệt của nó so với việc học có giám sát/không giám sát là gì?
Học có giám sát và học tự giám sát
Đặc điểm chung của học có giám sát và tự học là cả hai phương pháp đều xây dựng mô hình học từ tập dữ liệu huấn luyện có nhãn của chúng. Tuy nhiên, việc học tự giám sát không yêu cầu ghi nhãn thủ công vì nó tự tạo ra chúng.
Học bán giám sát và học tự giám sát
Học bán giám sát sử dụng dữ liệu đào tạo được gắn nhãn thủ công cho các phương pháp học có giám sát và học không giám sát đối với dữ liệu không được gắn nhãn nhằm tạo ra một mô hình tận dụng các nhãn hiện có nhưng xây dựng một mô hình có thể đưa ra dự đoán ngoài dữ liệu được gắn nhãn. Học tập tự giám sát dựa hoàn toàn vào dữ liệu thiếu nhãn được tạo thủ công.
Học không giám sát và học tự giám sát
Học tự giám sát tương tự như học không giám sát vì cả hai kỹ thuật đều hoạt động với các tập dữ liệu không được thêm nhãn thủ công. Theo đó, việc học tự giám sát có thể được coi là một tập hợp con của việc học không giám sát. Tuy nhiên, học không giám sát tập trung vào phân cụm, nhóm và giảm kích thước, trong khi học tự giám sát nhằm mục đích đưa ra kết luận cho các nhiệm vụ hồi quy và phân loại.
Phương pháp tiếp cận kết hợp và học tập tự giám sát
Ngoài ra còn có các phương pháp kết hợp kết hợp các công cụ ghi nhãn dữ liệu tự động với học tập có giám sát. Trong các phương pháp như vậy, máy tính có thể gắn nhãn các điểm dữ liệu dễ gắn nhãn hơn bằng cách dựa vào dữ liệu huấn luyện của chúng và để lại những điểm phức tạp cho con người. Hoặc, họ có thể tự động gắn nhãn cho tất cả các điểm dữ liệu nhưng cần có sự chấp thuận của con người. Trong học tập tự giám sát, việc ghi nhãn dữ liệu tự động được nhúng vào mô hình đào tạo. Tập dữ liệu được dán nhãn là một phần của quá trình học tập; do đó, nó không yêu cầu sự chấp thuận của con người hoặc chỉ gắn nhãn cho các điểm dữ liệu đơn giản.
Tại sao chúng ta cần học tập tự giám sát?
Khả năng mở rộng
Học có giám sát yêu cầu dữ liệu được dán nhãn để dự đoán kết quả cho dữ liệu chưa biết. Tuy nhiên, nó có thể cần các bộ dữ liệu lớn để xây dựng các mô hình phù hợp và đưa ra dự đoán chính xác. Đối với các tập dữ liệu huấn luyện lớn, việc ghi nhãn dữ liệu thủ công có thể là một thách thức. Học tập tự giám sát có thể tự động hóa quá trình này và xử lý nhiệm vụ này với lượng dữ liệu khổng lồ.
Cải thiện khả năng AI
Ngày nay, việc học tự giám sát chủ yếu được sử dụng trong thị giác máy tính cho các tác vụ như tô màu, xoay 3D, hoàn thiện độ sâu hoặc lấp đầy ngữ cảnh. Những nhiệm vụ này yêu cầu các trường hợp được gắn nhãn ví dụ để xây dựng các mô hình chính xác nhưng việc học tự giám sát có thể cải thiện thị giác máy tính hoặc công nghệ nhận dạng giọng nói bằng cách loại bỏ sự cần thiết của các trường hợp mẫu.
Hiểu cách hoạt động của tâm trí con người
Các mô hình được giám sát cần có sự can thiệp của con người để thực hiện một cách thích hợp. Tuy nhiên, những can thiệp đó không phải lúc nào cũng tồn tại. Sau đó, chúng ta có thể nghĩ đến việc giới thiệu phương pháp học tăng cường cho máy móc để khiến chúng bắt đầu lại từ đầu trong trường hợp chúng có thể nhận được phản hồi ngay lập tức mà không gây hậu quả tiêu cực. Tuy nhiên, điều này không bao gồm nhiều tình huống thực tế. Con người có thể suy nghĩ kỹ về hậu quả của hành động của mình trước khi thực hiện và họ không cần phải trải qua tất cả các hành động để quyết định xem phải làm gì. Máy móc cũng có khả năng hoạt động theo cách tương tự.
Các bước học tập tự giám sát được áp dụng vào thời điểm này. Nó tự động tạo nhãn mà không cần sự can thiệp của con người và cho phép máy móc đưa ra giải pháp mà không có bất kỳ sự can thiệp nào. Phó chủ tịch Facebook và nhà khoa học AI trưởng Yann LeCun chia sẻ rằng việc học tập tự giám sát là một bước hướng tới cách thức hoạt động của trí thông minh con người. Khi hiểu rõ hơn về điều này, chúng tôi sẽ tiến gần hơn đến việc tạo ra những mô hình có suy nghĩ giống con người hơn.
Ứng dụng của nó là gì?
Các công nghệ học tập tự giám sát chủ yếu tập trung vào việc cải thiện thị giác máy tính và khả năng xử lý ngôn ngữ tự nhiên (NLP).
- Màu sắc: SSL có thể được sử dụng để tô màu các hình ảnh thang độ xám, như bên dưới.
Điền ngữ cảnh: SSL có thể lấp đầy khoảng trống trong hình ảnh hoặc dự đoán khoảng trống trong bản ghi âm giọng nói hoặc văn bản. Dự đoán chuyển động video: Việc học tự giám sát có thể cung cấp sự phân phối tất cả các khung hình video có thể có sau một khung hình cụ thể.
Các trường hợp sử dụng khác bao gồm:
- Chăm sóc sức khỏe: Học tập tự giám sát có thể giúp các ca phẫu thuật bằng robot hoạt động tốt hơn bằng cách ước tính độ sâu dày đặc trong cơ thể con người. Nó cũng có thể cung cấp hình ảnh y tế tốt hơn với các công nghệ thị giác máy tính được cải tiến như tô màu và lấp đầy bối cảnh.
- Lái xe tự động: SSL có thể được sử dụng để ước tính độ gồ ghề của địa hình. Nó cũng có thể hữu ích cho việc hoàn thiện độ sâu để xác định khoảng cách với những chiếc xe, người hoặc vật thể khác trong khi lái xe.
- Chatbots: Hệ thống tự giám sát cũng có thể được áp dụng cho chatbot. Transformers, một chatbot tận dụng khả năng học tập tự giám sát, đã thành công trong việc xử lý các từ và ký hiệu toán học một cách dễ dàng. Tuy nhiên, vẫn còn lâu mới hiểu được ngôn ngữ của con người.
Hạn chế của nó là gì?
- Có thể có cường độ tính toán cao: Các mô hình học tập có nhãn có thể được xây dựng nhanh hơn nhiều so với các mô hình học tập không có nhãn. Ngoài ra, việc học tự giám sát sẽ tự động tạo nhãn cho tập dữ liệu nhất định, đây là một nhiệm vụ bổ sung. Do đó, so với các phương pháp học có giám sát, học tự giám sát có thể đòi hỏi nhiều sức mạnh tính toán hơn.
- Độ chính xác của việc gắn nhãn: Bạn luôn đạt được kết quả tốt nhất khi đã có nhãn cho tập dữ liệu của mình. Học tập tự giám sát là một giải pháp khi bạn không có bất kỳ thứ gì và cần tạo chúng theo cách thủ công. Tuy nhiên, mô hình có thể đưa ra các nhãn không chính xác trong khi xử lý và những điểm không chính xác đó có thể dẫn đến kết quả không chính xác cho nhiệm vụ của bạn. Vì vậy, độ chính xác của việc ghi nhãn là một yếu tố bổ sung cần xem xét về các mô hình tự giám sát.