Tác giả: Haziqa Sajid
Ngày 6 tháng 11 năm 2023
Trong những năm gần đây, Trí tuệ nhân tạo tạo ra đã cho thấy những kết quả hứa hẹn trong việc giải quyết các nhiệm vụ Trí tuệ nhân tạo phức tạp. Các mô hình Trí tuệ nhân tạo hiện đại như ChatGPT, Bard, LLaMA, DALL-E.3 và SAM đã thể hiện khả năng đáng kinh ngạc trong việc giải quyết các vấn đề đa ngành như trả lời câu hỏi về hình ảnh, phân đoạn hình ảnh, luận lý và tạo nội dung.
Hơn nữa, các kỹ thuật Trí tuệ nhân tạo đa phương tiện đã xuất hiện, có khả năng xử lý đồng thời nhiều dạng dữ liệu khác nhau, tức là văn bản, hình ảnh, âm thanh và video. Với những tiến bộ này, chúng ta tự nhiên sẽ tự hỏi: Liệu chúng ta đang tiến gần đến cuối của học máy truyền thống (ML) hay không?
Trong bài viết này, chúng tôi sẽ xem xét tình hình của cảnh quan học máy truyền thống liên quan đến các đổi mới của Trí tuệ nhân tạo sáng tạo hiện đại.
Học máy truyền thống là gì? Đâu là những giới hạn?
Học máy truyền thống là một thuật ngữ rộng rãi bao gồm nhiều thuật toán chủ yếu dựa trên thống kê. Hai loại chính của các thuật toán học máy truyền thống là học có giám sát và học không giám sát. Những thuật toán này được thiết kế để phát triển mô hình từ các tập dữ liệu có cấu trúc.
Các thuật toán học máy truyền thống tiêu biểu bao gồm:
- Các thuật toán hồi quy như tuyến tính, lasso và ridge.
- Phân cụm K-means.
- Phân tích thành phần chính (PCA).
- Máy vector hỗ trợ (SVM).
- Các thuật toán dựa trên cây như cây quyết định và rừng ngẫu nhiên.
- Các mô hình tăng cường như tăng cường độ dốc và XGBoost.
Tuy nhiên, học máy truyền thống cũng có nhược điểm, bao gồm:
- Khả năng xử lý dữ liệu có cấu trúc tốt, nhưng thường gặp khó khăn trong việc xử lý dữ liệu phi cấu trúc hoặc phi tập trung.
- Cần nhiều công sức trong việc rút trích đặc trưng và tiền xử lý dữ liệu.
- Thường không thể hiện khả năng tự học và tự điều chỉnh tốt trong việc xử lý các tác vụ phức tạp như thị giác máy tính và xử lý ngôn ngữ tự nhiên.
- Có thể yêu cầu nhiều dữ liệu huấn luyện hơn cho các mô hình hiệu quả.
Những hạn chế này đã thúc đẩy sự phát triển của Trí tuệ nhân tạo sáng tạo hiện đại để khắc phục những hạn chế này và giải quyết các nhiệm vụ phức tạp hơn.
Học máy truyền thống có những hạn chế sau đây:
- Khả năng mở rộng hạn chế: Những mô hình này thường cần sự hỗ trợ để mở rộng với các bộ dữ liệu lớn và đa dạng.
- Tiền xử lý dữ liệu và kỹ thuật trích đặc trưng: Học máy truyền thống đòi hỏi tiền xử lý dữ liệu một cách tổng quát để biến đổi dữ liệu theo yêu cầu của mô hình. Hơn nữa, việc trích đặc trưng có thể tốn thời gian và yêu cầu nhiều lần lặp để bắt kịp các mối quan hệ phức tạp giữa các đặc trưng dữ liệu.
- Dữ liệu chiều cao và phi cấu trúc: Học máy truyền thống gặp khó khăn khi đối mặt với các loại dữ liệu phức tạp như hình ảnh, âm thanh, video và tài liệu.
- Khả năng thích nghi với dữ liệu chưa từng thấy: Những mô hình này có thể không thích nghi tốt với dữ liệu thực tế mà không thuộc phạm vi dữ liệu huấn luyện của họ.
Mạng thần kinh và sự dịch chuyển từ hoc máy truyền thống sang học sâu (deep learning)
Mạng thần kinh (NN) là những mô hình phức tạp hơn nhiều so với các mô hình Học máy truyền thống. Mạng thần kinh đơn giản nhất – Mạng perceptron nhiều lớp (MLP) – bao gồm nhiều tế bào thần kinh kết nối với nhau để hiểu thông tin và thực hiện nhiệm vụ, tương tự như cách một bộ não con người hoạt động.
Sự tiến bộ trong các kỹ thuật mạng thần kinh đã tạo nên nền tảng cho sự chuyển đổi từ học máy sang học sâu. Ví dụ, các mạng thần kinh được sử dụng cho các nhiệm vụ thị giác máy tính (nhận diện đối tượng và phân đoạn hình ảnh) được gọi là mạng thần kinh tích chập (CNN), chẳng hạn như AlexNet, ResNet và YOLO.
Hiện nay, công nghệ Trí tuệ nhân tạo sáng tạo đang đưa các kỹ thuật mạng thần kinh một bước xa hơn, cho phép nó xuất sắc trong các lĩnh vực Trí tuệ nhân tạo khác nhau. Ví dụ, các mạng thần kinh được sử dụng cho các nhiệm vụ xử lý ngôn ngữ tự nhiên (như tóm tắt văn bản, trả lời câu hỏi và dịch) được biết đến là các mô hình biến áp. Các mô hình biến áp nổi bật bao gồm BERT, GPT-4 và T5. Những mô hình này đang tạo ra sự ảnh hưởng trong các ngành công nghiệp từ lĩnh vực chăm sóc sức khỏe, bán lẻ, tiếp thị, tài chính, v.v.
Liệu có còn cần tới những giải thuật của học máy truyền thống nữa không?
Mặc dù mạng thần kinh và các biến thể hiện đại của chúng như các mô hình biến áp đã nhận được nhiều sự chú ý, các phương pháp Học máy truyền thống vẫn còn quan trọng. Hãy xem tại sao chúng vẫn còn phù hợp.
Yêu cầu Dữ liệu Đơn giản hơn
Mạng thần kinh đòi hỏi tập dữ liệu lớn cho quá trình huấn luyện, trong khi các mô hình Học máy có thể đạt được kết quả đáng kể với các tập dữ liệu nhỏ hơn và đơn giản hơn. Do đó, Học máy truyền thống được ưa chuộng hơn Học sâu cho các tập dữ liệu có cấu trúc nhỏ hơn và ngược lại.
Đơn giản và Khả năng Giải thích
Các mô hình học máy truyền thống được xây dựng dựa trên các mô hình thống kê và xác suất đơn giản hơn. Ví dụ, một đường tốt nhất trong hồi quy tuyến tính xác định mối quan hệ giữa đầu vào và đầu ra bằng cách sử dụng phương pháp bình phương tối thiểu, một phép toán thống kê.
Tương tự, cây quyết định sử dụng nguyên tắc xác suất để phân loại dữ liệu. Sử dụng những nguyên tắc này mang lại khả năng giải thích và làm cho việc hiểu cách hoạt động của các thuật toán Học máy dễ dàng hơn đối với các nhà thực hành Trí tuệ nhân tạo.
Các kiến trúc Mạng thần kinh hiện đại như các mô hình biến áp và mô hình lan truyền (thường được sử dụng cho việc tạo ra hình ảnh như Stable Diffusion hoặc Midjourney) có cấu trúc mạng phức tạp đa lớp. Việc hiểu rõ các mạng như vậy đòi hỏi kiến thức về các khái niệm toán học cao cấp. Đó là lý do tại sao chúng còn được gọi là “Hộp đen.”
Thuật ngữ “Hộp đen” ám chỉ rằng các mạng này hoạt động phức tạp và không dễ dàng hiểu hoặc giải thích bằng cách truyền thống. Một số kết quả của mạng thần kinh có thể được dự đoán hoặc xác định, nhưng quá trình cụ thể của chúng thường khá mơ hồ và khó xác định bằng mắt thường. Điều này đặt ra thách thức đối với việc giải thích hoạt động của các mô hình mạng thần kinh sâu và gây ra một loạt các vấn đề liên quan đến khả năng kiểm tra, đảm bảo tính minh bạch và hiệu quả của chúng.
Hiệu quả tài nguyên
Các mạng thần kinh hiện đại như các Mô hình Ngôn ngữ Lớn (LLMs) được huấn luyện trên các cụm GPU đắt tiền theo yêu cầu tính toán của họ. Ví dụ, cho đến nay, cho biết rằng GPT-4 được huấn luyện trên 25000 GPU Nvidia trong khoảng 90 đến 100 ngày.
Tuy nhiên, phần cứng đắt tiền và thời gian đào tạo kéo dài không phải lúc nào cũng thực tế cho mọi nhà thực hành hoặc nhóm Trí tuệ nhân tạo. Mặt khác, hiệu suất tính toán của các thuật toán Học máy truyền thống cho phép những người thực hành đạt được kết quả ý nghĩa ngay cả khi tài nguyên bị giới hạn.
Không phải mọi vấn đề đều cần Học sâu
Học sâu không phải là giải pháp tuyệt đối cho mọi vấn đề. Tồn tại những tình huống mà Học máy vượt trội so với Học sâu.
Ví dụ, trong việc chẩn đoán và tiên đoán y tế với dữ liệu giới hạn, một thuật toán Học máy cho phát hiện biểu hiện bất thường như REMED đem lại kết quả tốt hơn so với Học sâu. Tương tự, Học máy truyền thống đóng vai trò quan trọng trong các tình huống có khả năng tính toán thấp như một giải pháp linh hoạt và hiệu quả.
Chủ yếu, việc lựa chọn mô hình tốt nhất cho bất kỳ vấn đề nào phụ thuộc vào nhu cầu của tổ chức hoặc nhà thực hành và bản chất của vấn đề cụ thể.
Những tiến bộ của học máy truyền thống trong năm 2023
Trong năm 2023, học máy truyền thống tiếp tục phát triển và cạnh tranh với học sâu và Trí tuệ nhân tạo sáng tạo. Nó có nhiều ứng dụng trong ngành công nghiệp, đặc biệt khi làm việc với các bộ dữ liệu có cấu trúc.
Ví dụ, nhiều công ty hàng tiêu dùng nhanh (FMCG) xử lý lượng lớn dữ liệu bảng dựa vào các thuật toán Học máy cho các nhiệm vụ quan trọng như đề xuất sản phẩm cá nhân, tối ưu hóa giá cả, quản lý tồn kho và tối ưu hóa chuỗi cung ứng.
Hơn nữa, nhiều mô hình thị giác và ngôn ngữ vẫn dựa trên các kỹ thuật truyền thống, cung cấp giải pháp trong các phương pháp kết hợp và ứng dụng mới nổi. Ví dụ, một nghiên cứu gần đây có tiêu đề “Chúng ta Có Thực Sự Cần Các Mô Hình Học Sâu Cho Dự Đoán Chuỗi Thời gian?” đã thảo luận về cách các cây hồi quy tăng cường độ dốc (GBRTs) hiệu quả hơn trong việc dự đoán chuỗi thời gian so với các mạng thần kinh sâu.
Khả năng giải thích trong Học máy vẫn rất quý báu với các kỹ thuật như SHAP (Shapley Additive Explanations) và LIME (Local Interpretable Model-agnostic Explanations). Những kỹ thuật này giải thích các mô hình Học máy phức tạp và cung cấp thông tin về các dự đoán của chúng, giúp các nhà thực hành Học máy hiểu rõ hơn về mô hình của họ.
Cuối cùng, Học máy truyền thống vẫn là một giải pháp mạnh mẽ cho nhiều ngành công nghiệp đối mặt với vấn đề về khả năng mở rộng, phức tạp của dữ liệu và hạn chế về tài nguyên. Những thuật toán này không thể thay thế trong việc phân tích dữ liệu và mô hình dự đoán và sẽ tiếp tục là một phần của bộ dụng cụ của các nhà khoa học dữ liệu.