Tác giả: William Belov
26 tháng 2 năm 2024
Trong điểm sáng của thế giới công nghệ, các chatbot được điều khiển bởi trí tuệ nhân tạo như ChatGPT đang thu hút sự chú ý, làm thay đổi ngành công nghiệp theo cách chúng ta biết. Mỗi tiến bộ, những vai trò truyền thống đang phai nhạt dần – những nhà văn, những chuyên gia tiếp thị, thậm chí cả các chuyên gia IT đều thấy mình đang đối mặt với nguy cơ mất việc. Chỉ trong tháng Sáu năm 2023, có đến 3.900 người Mỹ đã mất việc làm vì trí tuệ nhân tạo. Tuy nhiên, cuộc đảo chánh này chỉ là một tiền đề cho những gì sẽ đến sau.
Khi trí tuệ nhân tạo tiếp tục chiếm ưu thế trong các ngành công nghiệp, một làn sóng lo ngại ngày càng phình to về việc vi phạm bản quyền và xâm phạm quyền riêng tư. Câu hỏi lớn hiện lên: làm thế nào để chúng ta đảm bảo sự cân bằng tinh tế giữa sự tiến bộ và quyền riêng tư?
Những điểm lo ngại
Để bắt đầu, hãy để tôi giải thích cách các mô hình trí tuệ nhân tạo như ChatGPT hoạt động. Chúng tạo ra các kết quả dựa trên dữ liệu chúng học được trong quá trình đào tạo. Nếu mô hình có thể tạo ra văn bản mà dường như được viết bởi Shakespeare trong phong cách văn học tiếng Anh cổ điển, điều đó có nghĩa là nó đã ‘nhìn thấy’ nội dung đó trước đó trong giai đoạn chuẩn bị của nó, trước khi được phát hành.
Trong thực tế, các thuật toán học máy đằng sau mỗi mô hình trí tuệ nhân tạo đều được đào tạo trên lượng lớn dữ liệu để hoạt động tốt. Ví dụ, có các hệ thống giúp bác sĩ trong việc chẩn đoán – chúng phân tích hình ảnh CT và tìm ra các đặc điểm bất thường có thể chỉ ra các bệnh cụ thể như ung thư phổi. Thường thì chúng được đào tạo trên hàng triệu hình ảnh y tế. Nếu thiếu điều này, chúng không thể nhận biết các hiện tượng kỹ thuật trên các hình ảnh quét.
Khi nhu cầu về các công cụ trí tuệ nhân tạo tăng một cách phi mã, các công ty công nghệ lớn ngày càng thu thập lượng lớn dữ liệu để đào tạo các mô hình của họ. Và đôi khi, dữ liệu đó bao gồm thông tin nhạy cảm về cá nhân và tổ chức. Hơn nữa, thường thì dữ liệu này được thu thập thông qua việc lấy từ hàng triệu trang web mà không có bất kỳ thỏa thuận nào từ chủ sở hữu.
Điều này khiến công chúng lo ngại về quyền riêng tư, sự minh bạch và kiểm soát về thông tin cá nhân trên internet. Một cuộc khảo sát của Deloitte năm 2023 đã tiết lộ rằng đa số người tham gia muốn có thêm sự bảo vệ và kiểm soát về cách dữ liệu của họ được sử dụng. Gần chín trên mười người thể hiện mong muốn xem và xóa dữ liệu được thu thập, với 80% cảm thấy họ xứng đáng được bồi thường cho việc các công ty kiếm lời từ dữ liệu của họ. Ở Mỹ một mình, người dân đã trở nên lo lắng hơn về cách dữ liệu của họ được sử dụng, với khoảng bảy trong mười người lớn tuổi tại Mỹ (71%) chia sẻ những lo ngại này, tăng từ 64% vào năm 2019.
Cuộc chiến pháp lý
Ngoài ra, một số tổ chức đang đưa những vấn đề này ra toà án. Theo tạp chí Fortune, tính đến tháng 11 năm 2023, có hơn 100 vụ kiện liên quan đến trí tuệ nhân tạo đang đi qua hệ thống pháp luật. Những vụ kiện này bao gồm một loạt các vấn đề, bao gồm tranh chấp về sở hữu trí tuệ, sự phát tán nội dung có hại và các trường hợp phân biệt đối xử.
Trong số những vụ kiện này là các vụ kiện mà các nghệ sĩ đã kiện các nhà phát triển của các mô hình học sâu và chuyển văn bản thành hình ảnh như Stable Diffusion và Midjourney về việc sử dụng nghệ thuật số của họ trong quá trình đào tạo trí tuệ nhân tạo mà không có sự đồng ý của họ. Họ lập luận rằng các công ty đứng sau những sản phẩm này đã thu thập hàng tỷ hình ảnh từ internet, bao gồm cả hình ảnh của họ, để hướng dẫn các mô hình tạo ra các hình ảnh của riêng họ.
Vào tháng 12 năm 2023, tờ báo lớn của Mỹ The New York Times đã tham gia vào những cuộc chiến pháp lý này bằng cách kiện OpenAI, nhà phát triển đứng sau ChatGPT đang phát triển mạnh mẽ, về việc vi phạm bản quyền. Vụ kiện nhấn mạnh rằng hàng triệu bài báo được công bố bởi các tổ chức truyền thông đã được sử dụng để đào tạo các chatbot tự động, giờ đây cạnh tranh với phương tiện truyền thông này như một nguồn thông tin đáng tin cậy.
Những vấn đề trong tương lai
Để đáp ứng những lo ngại cấp bách này, các chính phủ trên toàn thế giới đang hợp lực để đối mặt với lo ngại của công chúng. Ví dụ, đại diện từ mười hai cơ quan quản lý trên toàn cầu đã phát hành một tuyên bố chung vào tháng 8 năm 2023, tập trung vào việc lấy dữ liệu và bảo vệ quyền riêng tư. Tuyên bố này đến từ các cơ quan quản lý ở Argentina, Australia, Canada, Colombia, Hong Kong, Jersey, Mexico, Morocco, New Zealand, Norway, Switzerland và Vương quốc Anh. Trong khi đó, tại California, Đạo luật Xóa đã được ký vào luật pháp, nhắm vào các nhà môi giới dữ liệu và thiết lập các quy định bổ sung về việc thu thập và quản lý dữ liệu cá nhân.
Mặc dù có những nỗ lực tập trung, tôi dự đoán rằng các vấn đề về quyền riêng tư và sở hữu dữ liệu sẽ tiếp tục giữ vị trí quan trọng trong cuộc trò chuyện của công chúng trong suốt năm 2024 và sau này. Hơn nữa, sự bùng nổ của các vụ kiện về sở hữu trí tuệ chỉ là phần nhỏ của tảng băng. Chúng ta có thể chứng kiến một đợt tăng cường các vụ kiện tập trung vào sự chính xác và an toàn của dữ liệu, đặc biệt là giữa sự lây lan bùng nổ của deepfakes và tin tức sai lệch.
Trong khi cả hai lĩnh vực chính trị và kinh doanh phải gấp đôi nỗ lực của mình, một cách tiếp cận thận trọng là không thể thiếu. Mặc dù lo ngại ngày càng gia tăng, đáng lưu ý rằng dữ liệu mở vẫn đóng vai trò then chốt trong việc thúc đẩy nghiên cứu và phát triển. Ví dụ, vai trò vô giá của việc truy cập công cộng vào hồ sơ sức khỏe đã được thể hiện trong cuộc khủng hoảng COVID-19, tăng tốc quá trình phát triển các đột phá y tế cứu nguy như các loại vắc xin do Moderna và Pfizer tiên phong.
Tầm quan trọng của dữ liệu mở được nhấn mạnh bằng ví dụ lịch sử của Dự án Gen Người Hoa Kỳ, nơi việc chia sẻ dữ liệu gen công cộng đã biến đổi nghiên cứu di truyền. Một cách tương tự, trí tuệ nhân tạo phân tích và học từ dữ liệu có thể mang lại lợi ích cho xã hội, từ phân loại các đột biến gen đến giải quyết những thách thức bức xúc như biến đổi khí hậu.
Trong kinh doanh, dữ liệu được thu thập bởi các công cụ web scraping là vô cùng quý giá cho thông tin thị trường, theo dõi đối thủ cạnh tranh và nhận biết các xu hướng phổ biến. Nếu việc lấy dữ liệu web trở nên hạn chế hơn, các công ty có thể phải đối mặt với việc truy cập hạn chế vào dữ liệu quan trọng để đưa ra quyết định có hiểu biết, có thể dẫn đến giảm cạnh tranh và tính minh bạch trong giá cả, cản trở sự đổi mới và trải nghiệm người dùng kém chất lượng do cập nhật dữ liệu chậm và ít chính xác hơn.
Tuy nhiên, giữa những thách thức nổi lên, vẫn tồn tại những phương tiện để đối mặt trực tiếp với chúng. Tôi tin tưởng vào sức mạnh của các proxy để điều hướng qua những biển nước đầy sóng gió này. Những công nghệ đổi mới này giấu địa chỉ IP gốc của người dùng, định hướng hoạt động trực tuyến của họ qua các máy chủ thay thế. Không chỉ làm tăng cường an ninh dữ liệu, mà chúng cũng trở thành các công cụ không thể thiếu trong việc điều hòa sự tiến bộ công nghệ với việc bảo vệ tự do cá nhân.