Xuất bản 9 giây trước vào ngày 1 tháng 11 năm 2024 Tác giả: Eli Goodman, CEO & Đồng sáng lập của Datos
Không có gì bí mật khi hiện nay đang có một cuộc chạy đua khai thác “vàng” trong phát triển AI. Theo báo cáo Chỉ số Xu hướng Công việc 2024 của Microsoft và LinkedIn, hơn 40% các nhà lãnh đạo doanh nghiệp dự đoán sẽ thiết kế lại hoàn toàn quy trình kinh doanh của họ từ đầu bằng trí tuệ nhân tạo (AI) trong vài năm tới. Sự thay đổi lớn này không chỉ là nâng cấp công nghệ; nó là một cuộc cải tổ cơ bản về cách doanh nghiệp vận hành, đưa ra quyết định và tương tác với khách hàng. Sự phát triển nhanh chóng này đang thúc đẩy nhu cầu về dữ liệu và các công cụ quản lý dữ liệu từ nguồn đầu tiên. Theo Forrester, có đến 92% các lãnh đạo công nghệ đang lên kế hoạch tăng ngân sách cho quản lý dữ liệu và AI vào năm 2024.
Trong khảo sát toàn cầu mới nhất của McKinsey về AI, 65% người tham gia khảo sát cho biết tổ chức của họ thường xuyên sử dụng các công nghệ AI sinh tạo. Mặc dù việc áp dụng này đánh dấu một bước tiến đáng kể, nó cũng nêu bật một thách thức cốt lõi: chất lượng của dữ liệu phục vụ cho các hệ thống AI này. Trong một ngành mà hiệu quả của AI phụ thuộc vào dữ liệu mà nó được đào tạo, việc đảm bảo dữ liệu đáng tin cậy và chính xác đang ngày càng trở nên khó khăn.
Chi phí cao của dữ liệu kém chất lượng
Dữ liệu kém không phải là một vấn đề mới, nhưng tác động của nó đã gia tăng trong thời đại AI. Vào năm 2017, một nghiên cứu của Viện Công nghệ Massachusetts (MIT) ước tính rằng dữ liệu kém khiến các công ty mất tới 15% đến 25% doanh thu của họ. Vào năm 2021, Gartner ước tính rằng dữ liệu kém khiến các tổ chức thiệt hại trung bình khoảng 12,9 triệu đô la mỗi năm.
Dữ liệu không sạch—dữ liệu không đầy đủ, không chính xác hoặc không nhất quán—có thể tạo ra hiệu ứng domino trên các hệ thống AI. Khi các mô hình AI được đào tạo trên dữ liệu chất lượng kém, những thông tin và dự đoán mà chúng tạo ra sẽ có sai sót cơ bản. Điều này không chỉ làm suy giảm hiệu quả của các ứng dụng AI mà còn đặt ra những rủi ro đáng kể cho các doanh nghiệp phụ thuộc vào những công nghệ này trong việc ra quyết định quan trọng.
Điều này đang tạo ra một cơn đau đầu lớn cho các đội ngũ khoa học dữ liệu trong các công ty, những người buộc phải tập trung nguồn lực hạn chế của họ vào việc làm sạch và tổ chức dữ liệu. Trong một báo cáo gần đây về tình trạng kỹ thuật do DBT thực hiện, 57% các chuyên gia khoa học dữ liệu cho biết chất lượng dữ liệu kém là một vấn đề chủ yếu trong công việc của họ.
Hệ quả của Dữ liệu Kém đối với Mô hình AI
Tác động của dữ liệu kém đối với phát triển AI biểu hiện qua ba cách chính:
Giảm độ chính xác và độ tin cậy: Các mô hình AI phát triển dựa trên các mẫu và mối tương quan được rút ra từ dữ liệu. Khi dữ liệu đầu vào bị ô nhiễm, các mô hình sẽ tạo ra các đầu ra không đáng tin cậy, thường được gọi là “ảo giác AI.” Điều này có thể dẫn đến các chiến lược sai lầm, thất bại trong sản phẩm và mất lòng tin của khách hàng.
Khuếch đại thiên lệch: Dữ liệu không sạch thường chứa những thiên lệch mà, nếu không được kiểm soát, sẽ bị khắc sâu vào các thuật toán AI. Điều này có thể dẫn đến các hành vi phân biệt, đặc biệt trong các lĩnh vực nhạy cảm như tuyển dụng, cho vay và thực thi pháp luật. Ví dụ, nếu một công cụ tuyển dụng AI được đào tạo trên dữ liệu tuyển dụng lịch sử có thiên lệch, nó có thể thiên vị một số nhóm nhân khẩu học này hơn những nhóm khác.
Tăng chi phí vận hành: Các hệ thống AI sai sót yêu cầu phải liên tục điều chỉnh và đào tạo lại, điều này tiêu tốn thêm thời gian và nguồn lực. Các công ty có thể thấy mình rơi vào vòng luẩn quẩn của việc sửa lỗi thay vì đổi mới và cải tiến.
Thảm họa Dữ liệu Sắp tới
“Chúng ta đang tiến gần đến một ‘điểm bùng phát’ – nơi nội dung không do con người tạo ra sẽ vượt xa lượng nội dung do con người tạo ra. Những tiến bộ trong chính công nghệ AI đang cung cấp các công cụ mới cho việc làm sạch và xác thực dữ liệu. Tuy nhiên, khối lượng nội dung do AI tạo ra trên web đang tăng trưởng theo cấp số nhân.
Khi ngày càng nhiều nội dung do AI tạo ra được đưa lên web, và những nội dung đó được tạo ra bởi các mô hình ngôn ngữ lớn (LLMs) đã được đào tạo trên nội dung do AI tạo ra, chúng ta đang hướng tới một tương lai mà dữ liệu từ nguồn đầu tiên và dữ liệu đáng tin cậy trở thành hàng hóa hiếm và có giá trị.
Những Thách Thức của Sự Pha Loãng Dữ Liệu
Sự gia tăng nội dung do AI tạo ra tạo ra một số thách thức lớn cho ngành công nghiệp:
Kiểm soát chất lượng: Việc phân biệt giữa dữ liệu do con người tạo ra và dữ liệu do AI tạo ra trở nên ngày càng khó khăn, khiến việc đảm bảo chất lượng và độ tin cậy của dữ liệu được sử dụng để đào tạo các mô hình AI trở nên phức tạp hơn.
Lo ngại về sở hữu trí tuệ: Khi các mô hình AI vô tình thu thập và học hỏi từ nội dung do AI tạo ra, những câu hỏi phát sinh về quyền sở hữu và quyền lợi liên quan đến dữ liệu, có thể dẫn đến những rắc rối pháp lý.
Các vấn đề đạo đức: Sự thiếu minh bạch về nguồn gốc của dữ liệu có thể dẫn đến các vấn đề đạo đức, chẳng hạn như việc lan truyền thông tin sai lệch hoặc việc củng cố các thiên lệch.
Dữ liệu dưới dạng dịch vụ trở thành nền tảng
Ngày càng nhiều giải pháp Dữ liệu dưới dạng Dịch vụ (DaaS) được tìm kiếm để bổ sung và nâng cao dữ liệu từ nguồn đầu tiên cho các mục đích đào tạo. Giá trị thực sự của DaaS nằm ở việc dữ liệu đã được chuẩn hóa, làm sạch và đánh giá cho các mức độ tin cậy và các trường hợp ứng dụng thương mại khác nhau, cũng như việc tiêu chuẩn hóa các quy trình để phù hợp với hệ thống xử lý dữ liệu. Khi ngành công nghiệp này trưởng thành, tôi dự đoán rằng chúng ta sẽ bắt đầu thấy sự tiêu chuẩn hóa này trong toàn bộ ngành dữ liệu. Chúng ta đã thấy sự thúc đẩy cho sự đồng nhất trong lĩnh vực truyền thông bán lẻ.
Khi AI tiếp tục thẩm thấu vào các ngành công nghiệp khác nhau, tầm quan trọng của chất lượng dữ liệu sẽ càng tăng cao. Các công ty ưu tiên dữ liệu sạch sẽ có lợi thế cạnh tranh, trong khi những công ty bỏ qua điều này sẽ nhanh chóng tụt lại phía sau.
Chi phí cao của dữ liệu không sạch trong phát triển AI là một vấn đề cấp bách không thể bị phớt lờ. Chất lượng dữ liệu kém làm suy yếu nền tảng của các hệ thống AI, dẫn đến những thông tin sai lầm, tăng chi phí và có thể gặp phải những cạm bẫy đạo đức. Bằng cách áp dụng các chiến lược quản lý dữ liệu toàn diện và xây dựng một văn hóa coi trọng tính toàn vẹn của dữ liệu, các tổ chức có thể giảm thiểu những rủi ro này.
Trong một thời đại mà dữ liệu được coi là “dầu mỏ mới,” đảm bảo tính tinh khiết của nó không chỉ là một nhu cầu kỹ thuật mà còn là một yêu cầu chiến lược. Những doanh nghiệp đầu tư vào dữ liệu sạch hôm nay sẽ là những doanh nghiệp dẫn đầu trong lĩnh vực đổi mới vào ngày mai.