Tác giả: Bởi Tiến sĩ Assad Abbas
Xuất bản 30 phút trước, vào ngày 23 tháng 1 năm 2025
Một trợ lý AI đưa ra câu trả lời không liên quan hoặc gây khó hiểu đối với một câu hỏi đơn giản, cho thấy một vấn đề nghiêm trọng khi nó gặp khó khăn trong việc hiểu các sắc thái văn hóa hoặc các mẫu ngôn ngữ nằm ngoài phạm vi đào tạo của nó.
Đây là tình huống phổ biến đối với hàng tỷ người đang phụ thuộc vào AI để nhận các dịch vụ thiết yếu như chăm sóc sức khỏe, giáo dục hoặc hỗ trợ việc làm. Đối với nhiều người, các công cụ này thường không đáp ứng được nhu cầu, thậm chí có thể hiểu sai hoặc hoàn toàn bỏ qua những yêu cầu của họ.
Hệ thống AI chủ yếu được xây dựng dựa trên ngôn ngữ, văn hóa và quan điểm của phương Tây, tạo ra một bức tranh thế giới hạn hẹp và không đầy đủ. Những hệ thống này, được phát triển từ các tập dữ liệu và thuật toán thiên lệch, không phản ánh được sự đa dạng của dân số toàn cầu. Tác động của vấn đề không chỉ dừng ở các giới hạn kỹ thuật mà còn làm trầm trọng thêm các bất bình đẳng xã hội và gia tăng các khoảng cách. Việc giải quyết sự mất cân bằng này là rất cần thiết để thực hiện và khai thác tiềm năng của AI nhằm phục vụ cho toàn nhân loại, thay vì chỉ phục vụ một nhóm người được ưu tiên.
Hiểu rõ nguồn gốc của sự thiên lệch trong AI
Sự thiên lệch trong AI không chỉ đơn thuần là lỗi hoặc sơ suất. Nó xuất phát từ cách các hệ thống AI được thiết kế và phát triển. Trong lịch sử, nghiên cứu và đổi mới AI chủ yếu tập trung tại các quốc gia phương Tây. Sự tập trung này đã dẫn đến sự thống trị của tiếng Anh như ngôn ngữ chính cho các ấn phẩm học thuật, bộ dữ liệu, và khung công nghệ. Kết quả là, thiết kế nền tảng của các hệ thống AI thường không bao gồm được sự đa dạng của các nền văn hóa và ngôn ngữ trên toàn cầu, khiến nhiều khu vực bị đánh giá thấp và không được đại diện.
Sự thiên lệch trong AI thường được chia thành hai loại chính: thiên lệch thuật toán và thiên lệch dựa trên dữ liệu.
- Thiên lệch thuật toán xảy ra khi logic và quy tắc bên trong một mô hình AI ưu ái những kết quả hoặc nhóm dân cư cụ thể. Ví dụ, các thuật toán tuyển dụng được huấn luyện dựa trên dữ liệu lịch sử về việc làm có thể vô tình ưu tiên một số nhóm đối tượng nhất định, củng cố sự phân biệt hệ thống.
- Thiên lệch dựa trên dữ liệu, ngược lại, bắt nguồn từ việc sử dụng các bộ dữ liệu phản ánh những bất bình đẳng xã hội hiện có. Công nghệ nhận diện khuôn mặt, chẳng hạn, thường hoạt động tốt hơn với người da sáng vì các bộ dữ liệu huấn luyện chủ yếu gồm hình ảnh từ các khu vực phương Tây.
Một báo cáo năm 2023 của AI Now Institute đã nhấn mạnh sự tập trung phát triển AI và quyền lực ở các quốc gia phương Tây, đặc biệt là tại Hoa Kỳ và Châu Âu, nơi các công ty công nghệ lớn thống trị lĩnh vực này. Tương tự, Báo cáo Chỉ số AI năm 2023 của Đại học Stanford cũng nêu bật những đóng góp đáng kể của các khu vực này đối với nghiên cứu và phát triển AI toàn cầu, phản ánh rõ ràng sự thống trị của phương Tây về bộ dữ liệu và đổi mới.
Sự mất cân đối cấu trúc này đòi hỏi các hệ thống AI phải nhanh chóng áp dụng các phương pháp tiếp cận bao trùm hơn, đại diện cho quan điểm và thực tế đa dạng của dân số toàn cầu.
Tác động toàn cầu của sự chênh lệch văn hóa và địa lý trong AI
Sự thống trị của các bộ dữ liệu tập trung vào phương Tây đã tạo ra các thiên lệch văn hóa và địa lý đáng kể trong các hệ thống AI, làm hạn chế hiệu quả của chúng đối với những nhóm dân cư đa dạng. Ví dụ, các trợ lý ảo dễ dàng nhận ra các cụm từ thành ngữ hoặc các tham chiếu phổ biến trong xã hội phương Tây nhưng thường không thể phản hồi chính xác đối với người dùng đến từ những nền văn hóa khác. Một câu hỏi về một truyền thống địa phương có thể nhận được câu trả lời mơ hồ hoặc sai, phản ánh sự thiếu nhận thức văn hóa của hệ thống.
Những thiên lệch này không chỉ dừng lại ở việc sai lệch văn hóa mà còn bị khuếch đại bởi sự bất bình đẳng địa lý. Phần lớn dữ liệu huấn luyện AI đến từ các khu vực đô thị, phát triển tốt ở Bắc Mỹ và Châu Âu, nhưng không bao gồm đủ các vùng nông thôn và các quốc gia đang phát triển. Điều này để lại những hậu quả nghiêm trọng trong các lĩnh vực quan trọng.
- Trong nông nghiệp, các công cụ AI được thiết kế để dự đoán sản lượng mùa vụ hoặc phát hiện sâu bệnh thường không hoạt động tốt ở các khu vực như châu Phi Hạ Sahara hoặc Đông Nam Á vì chúng không thích nghi với các điều kiện môi trường và thực tiễn canh tác đặc thù của các vùng này.
- Trong y tế, các hệ thống AI thường được huấn luyện trên dữ liệu từ các bệnh viện phương Tây, dẫn đến khó khăn trong việc đưa ra chẩn đoán chính xác cho các cộng đồng ở những khu vực khác. Nghiên cứu đã chỉ ra rằng các mô hình AI về da liễu được huấn luyện chủ yếu trên làn da sáng màu có hiệu suất kém đáng kể khi thử nghiệm trên các tông màu da đa dạng. Một nghiên cứu năm 2021 cho thấy, độ chính xác của các mô hình phát hiện bệnh về da giảm từ 29% đến 40% khi áp dụng cho các bộ dữ liệu bao gồm tông màu da tối hơn. Những vấn đề này vượt xa giới hạn kỹ thuật, cho thấy nhu cầu cấp bách cần có dữ liệu bao trùm hơn để cứu sống và cải thiện sức khỏe toàn cầu.
Tác động xã hội của những thiên lệch này rất sâu rộng. Các hệ thống AI được thiết kế để trao quyền cho cá nhân lại thường tạo ra rào cản. Các nền tảng giáo dục sử dụng AI có xu hướng ưu tiên chương trình giảng dạy phương Tây, khiến học sinh ở các khu vực khác không thể tiếp cận tài liệu phù hợp hoặc mang tính địa phương hóa. Các công cụ ngôn ngữ thường không thể nắm bắt sự phức tạp của các phương ngữ địa phương và các biểu đạt văn hóa, khiến chúng trở nên kém hiệu quả đối với một phần lớn dân số toàn cầu.
Sự thiên lệch trong AI có thể củng cố những giả định sai lệch và làm sâu sắc thêm bất bình đẳng hệ thống. Ví dụ, công nghệ nhận diện khuôn mặt đã vấp phải chỉ trích vì tỷ lệ sai sót cao hơn đối với các nhóm dân tộc thiểu số, dẫn đến những hậu quả nghiêm trọng trong thực tế. Năm 2020, Robert Williams, một người đàn ông da màu, bị bắt oan ở Detroit do kết quả nhận diện khuôn mặt sai, làm nổi bật tác động xã hội của những thiên lệch công nghệ như vậy.
Về mặt kinh tế, việc bỏ qua sự đa dạng toàn cầu trong phát triển AI có thể hạn chế sự đổi mới và giảm cơ hội tiếp cận thị trường. Các công ty không xem xét các góc nhìn đa dạng có nguy cơ làm xa lánh một phần lớn người dùng tiềm năng. Một báo cáo của McKinsey năm 2023 ước tính rằng AI tạo sinh có thể đóng góp từ 2,6 đến 4,4 nghìn tỷ USD mỗi năm cho nền kinh tế toàn cầu. Tuy nhiên, để đạt được tiềm năng này, cần phải xây dựng các hệ thống AI bao trùm, phục vụ cho những nhóm dân cư đa dạng trên khắp thế giới.
Bằng cách giải quyết thiên lệch và mở rộng sự đại diện trong phát triển AI, các công ty có thể khám phá những thị trường mới, thúc đẩy đổi mới và đảm bảo rằng lợi ích của AI được chia sẻ một cách công bằng trên toàn thế giới. Điều này làm nổi bật tính cấp thiết về kinh tế trong việc xây dựng các hệ thống AI phản ánh và phục vụ hiệu quả cho dân số toàn cầu.
Ngôn ngữ: Rào cản đối với sự hòa nhập
Ngôn ngữ gắn chặt với văn hóa, bản sắc và cộng đồng, nhưng các hệ thống AI thường không phản ánh được sự đa dạng này. Phần lớn các công cụ AI, bao gồm trợ lý ảo và chatbot, hoạt động tốt trong một số ngôn ngữ phổ biến và bỏ qua các ngôn ngữ ít được đại diện hơn. Sự mất cân bằng này khiến các ngôn ngữ bản địa, phương ngữ vùng miền và ngôn ngữ thiểu số hiếm khi được hỗ trợ, dẫn đến việc các cộng đồng nói những ngôn ngữ này bị gạt ra ngoài lề.
Mặc dù các công cụ như Google Dịch đã cách mạng hóa giao tiếp, chúng vẫn gặp khó khăn với nhiều ngôn ngữ, đặc biệt là những ngôn ngữ có ngữ pháp phức tạp hoặc hiện diện số hóa hạn chế. Sự loại trừ này đồng nghĩa với việc hàng triệu công cụ hỗ trợ bởi AI vẫn không thể tiếp cận hoặc hoạt động không hiệu quả, làm gia tăng khoảng cách số. Một báo cáo của UNESCO năm 2023 tiết lộ rằng hơn 40% ngôn ngữ trên thế giới có nguy cơ biến mất, và sự vắng mặt của chúng trong các hệ thống AI càng làm trầm trọng thêm tổn thất này.
Các hệ thống AI củng cố sự thống trị của phương Tây trong công nghệ bằng cách chỉ ưu tiên một phần nhỏ sự đa dạng ngôn ngữ toàn cầu. Việc giải quyết khoảng cách này là điều cần thiết để đảm bảo AI thực sự trở nên hòa nhập và phục vụ các cộng đồng trên toàn thế giới, bất kể ngôn ngữ họ sử dụng.
Giải quyết sự thiên lệch phương Tây trong AI
Khắc phục sự thiên lệch phương Tây trong AI đòi hỏi phải thay đổi đáng kể cách các hệ thống AI được thiết kế và huấn luyện. Bước đầu tiên là tạo ra các tập dữ liệu đa dạng hơn. AI cần dữ liệu đa ngôn ngữ, đa văn hóa và đại diện theo khu vực để phục vụ mọi người trên khắp thế giới. Các dự án như Masakhane, hỗ trợ các ngôn ngữ châu Phi, và AI4Bharat, tập trung vào các ngôn ngữ Ấn Độ, là những ví dụ điển hình về cách phát triển AI bao trùm có thể thành công.
Công nghệ cũng có thể giúp giải quyết vấn đề này. Federated Learning (học liên kết) cho phép thu thập dữ liệu và huấn luyện từ các khu vực chưa được đại diện nhiều mà không làm mất đi quyền riêng tư. Các công cụ Explainable AI (AI có khả năng giải thích) giúp việc phát hiện và khắc phục sự thiên lệch dễ dàng hơn trong thời gian thực. Tuy nhiên, công nghệ đơn thuần là chưa đủ. Các chính phủ, tổ chức tư nhân và các nhà nghiên cứu cần phối hợp để khắc phục những khoảng trống này.
Các quy định và chính sách đóng vai trò quan trọng. Chính phủ cần thực thi các luật yêu cầu tập dữ liệu phải đa dạng trong huấn luyện AI và đảm bảo các công ty phải chịu trách nhiệm về những kết quả bị thiên lệch. Đồng thời, các nhóm vận động có thể nâng cao nhận thức và thúc đẩy sự thay đổi. Những hành động này giúp đảm bảo rằng các hệ thống AI đại diện cho sự đa dạng trên thế giới và phục vụ mọi người một cách công bằng.
Ngoài ra, sự hợp tác cũng quan trọng không kém công nghệ và chính sách. Các nhà phát triển và nhà nghiên cứu từ những khu vực ít được phục vụ phải tham gia vào quá trình tạo ra AI. Sự hiểu biết sâu sắc của họ đảm bảo rằng các công cụ AI có ý nghĩa về văn hóa và thực tiễn cho các cộng đồng khác nhau. Các công ty công nghệ cũng có trách nhiệm đầu tư vào những khu vực này, thông qua tài trợ nghiên cứu tại địa phương, tuyển dụng đội ngũ nhân sự đa dạng và thiết lập quan hệ đối tác tập trung vào sự hòa nhập.
Điểm Mấu Chốt
AI có tiềm năng thay đổi cuộc sống, thu hẹp khoảng cách và tạo ra cơ hội, nhưng điều này chỉ xảy ra khi AI hoạt động cho tất cả mọi người. Khi các hệ thống AI bỏ qua sự đa dạng phong phú về văn hóa, ngôn ngữ và góc nhìn trên toàn thế giới, chúng không thể thực hiện được lời hứa của mình. Vấn đề thiên lệch phương Tây trong AI không chỉ là một lỗi kỹ thuật mà còn là một vấn đề cần được chú ý khẩn cấp. Bằng cách ưu tiên tính bao trùm trong thiết kế, dữ liệu và phát triển, AI có thể trở thành công cụ thúc đẩy tất cả các cộng đồng, chứ không chỉ một nhóm thiểu số đặc quyền.