TRÍ TUỆ NHÂN TẠO CẦN ĐƯỢC DẠY TRÊN CÁC TẬP DỮ LIỆU ĐA DẠNG VỀ VĂN HÓA ĐỂ TRÁNH THIÊN VỊ
Tác giả: Vered Shwartz
Nhu cầu giải quyết sự đa dạng trong các bộ dữ liệu
được sử dụng để đào tạo trí tuệ nhân tạo ngày càng tăng. (Shutterstock)
Các mô hình ngôn ngữ lớn (LLM) là các chương trình trí tuệ nhân tạo học sâu, như ChatGPT của OpenAI. Khả năng của các LLM đã phát triển thành một phạm vi khá rộng, từ viết các bài luận trôi chảy, đến viết mã lập trình cho đến viết sáng tạo. Hàng triệu người trên toàn thế giới sử dụng các LLM và sẽ không ngoa khi nói rằng những công nghệ này đang chuyển đổi công việc, giáo dục và xã hội.
Các LLM được dạy bằng cách đọc một lượng lớn văn bản và học cách nhận ra và bắt chước các hình mẫu trong dữ liệu. Điều này cho phép chúng tạo ra văn bản mạch lạc và giống con người về hầu như mọi chủ đề.
Vì internet vẫn chủ yếu là tiếng Anh — 59 phần trăm tất cả các trang web đều bằng tiếng Anh tính đến tháng 1 năm 2023 — nên các LLM chủ yếu được dạy bằng văn bản tiếng Anh. Thêm vào đó, phần lớn văn bản tiếng Anh trực tuyến đến từ người dùng tại Hoa Kỳ, nơi có 300 triệu người nói tiếng Anh.
Học về thế giới từ các văn bản tiếng Anh được viết bởi người dùng web ở Hoa Kỳ, các LLM nói tiếng Anh Mỹ chuẩn và có lăng kính hẹp về phương Tây, Bắc Mỹ hoặc thậm chí lấy Hoa Kỳ làm trung tâm.
Vào năm 2023, ChatGPT, khi học về một cặp đôi dùng bữa tại một nhà hàng ở Madrid và boa 4%, đã cho rằng họ là người tiết kiệm, ngân sách eo hẹp hoặc không thích dịch vụ này. Theo mặc định, ChatGPT tuân theo tiêu chuẩn Bắc Mỹ về tiền boa từ 15 đến 25 phần trăm, bỏ qua quy chuẩn của Tây Ban Nha là không boa.
Tính đến đầu năm 2024, ChatGPT đã nêu đúng sự khác biệt về văn hóa khi được yêu cầu đánh giá tính phù hợp của tiền boa. Không rõ liệu khả năng này xuất hiện từ việc đào tạo phiên bản mới hơn của mô hình trên nhiều dữ liệu hơn — nói cho cùng, web đầy rẫy các hướng dẫn về tiền boa bằng tiếng Anh — hay OpenAI đã vá hành vi cụ thể này.
Sử dụng dữ liệu từ các trang web tiếng Anh, chủ yếu có
trụ sở tại Hoa Kỳ, cho biết cách các LLM phản hồi các câu lệnh. (Unsplash/Jonathen
Kemper)
Tuy nhiên, vẫn còn những ví dụ khác cho thấy những giả định ngầm về văn hóa của ChatGPT. Ví dụ, được ra lệnh bằng một câu chuyện về những vị khách đến ăn tối lúc 8:30 tối, nó gợi ý những lý do khiến các vị khách đến muộn, mặc dù thời gian mời không được đề cập. Một lần nữa, ChatGPT dường như cho rằng họ được mời đến một bữa tối chuẩn Bắc Mỹ lúc 6 giờ tối.
Vào tháng 5 năm 2023, các nhà nghiên cứu từ Đại học Copenhagen đã định lượng tác động này bằng cách ra lệnh cho các LLM thực hiện Khảo sát văn hóa Hofstede, nhằm đo lường các giá trị con người ở những quốc gia khác nhau. Ngay sau đó, các nhà nghiên cứu từ công ty khởi nghiệp AI Anthropic đã sử dụng Khảo sát Giá trị Thế giới để thực hiện điều tương tự. Cả hai công trình đều kết luận rằng các LLM thể hiện sự liên kết chặt chẽ với văn hóa Mỹ.
Hiện tượng tương tự cũng gặp phải khi yêu cầu DALL-E 3, một mô hình tạo hình ảnh được dạy dựa trên các cặp hình ảnh và chú thích của chúng, để tạo ra hình ảnh về bữa sáng. Mô hình này được dạy chủ yếu dựa trên hình ảnh của các nước phương Tây, tạo ra hình ảnh bánh kếp, thịt xông khói và trứng.
Văn hóa đóng một vai trò quan trọng trong việc hình thành phong cách giao tiếp và thế giới quan của chúng ta. Giống như sự tương tác giữa con người xuyên văn hóa có thể dẫn đến những hiểu lầm, người dùng từ các nền văn hóa khác nhau đang tương tác với các công cụ AI hội thoại có thể cảm thấy bị hiểu lầm và cảm thấy chúng kém hữu ích hơn.
Để các công cụ AI hiểu rõ chúng ta hơn, người dùng có thể điều chỉnh phong cách giao tiếp của mình theo cách tương tự như cách mọi người học cách “Mỹ hóa” thổ âm nước ngoài của mình để vận hành các trợ lý cá nhân như Siri và Alexa.
Khi ngày càng nhiều người dựa vào các LLM để biên tập bài viết, chúng có khả năng hợp nhất cách chúng ta viết. Theo thời gian, các LLM có nguy cơ xóa bỏ sự khác biệt về văn hóa.
AI đã được sử dụng làm cột trụ của nhiều ứng dụng khác nhau đưa ra các quyết định ảnh hưởng đến cuộc sống của mọi người, chẳng hạn như lọc sơ yếu lý lịch, nộp đơn xin thuê nhà và nộp đơn xin hưởng phúc lợi xã hội.
Trong nhiều năm, các nhà nghiên cứu AI đã cảnh báo rằng những mô hình này không chỉ học các liên kết thống kê “tốt” - chẳng hạn như coi kinh nghiệm là đặc tính mong muốn đối với ứng viên - mà còn cả các liên kết thống kê “xấu”, chẳng hạn như coi phụ nữ là ít đạt yêu cầu hơn trong các vị trí về công nghệ.
Vì các LLM ngày càng được sử dụng để tự động hóa các quy trình như vậy, nên người ta có thể hình dung rằng thành kiến của người Bắc Mỹ mà các mô hình này học được có thể dẫn đến sự phân biệt đối xử đối với những người thuộc các nền văn hóa khác nhau. Thiếu nhận thức về văn hóa có thể dẫn đến việc AI tồn tại các định kiến và củng cố sự bất bình đẳng xã hội.
Các LLM cho các ngôn ngữ khác ngoài tiếng Anh
Phát triển các LLM cho các ngôn ngữ khác ngoài tiếng Anh là một nỗ lực quan trọng và có nhiều mô hình như vậy. Tuy nhiên, có một số lý do tại sao điều này nên được thực hiện song song với việc nâng cao nhận thức và sự nhạy cảm về văn hóa của các LLM.
Đầu tiên, có một lượng lớn người nói tiếng Anh ngoài Bắc Mỹ không được đại diện bởi các LLM tiếng Anh. Lập luận tương tự cũng đúng với các ngôn ngữ khác. Một mô hình tiếng Pháp sẽ đại diện cho văn hóa ở Pháp nhiều hơn là văn hóa ở các khu vực nói tiếng Pháp (Francophone) khác.
Việc dạy các LLM cho các phương ngữ khu vực - có thể nắm bắt được những khác biệt văn hóa sâu sắc hơn - cũng không phải là một giải pháp khả thi. Chất lượng của LLM dựa trên lượng dữ liệu có sẵn và do đó, chất lượng của chúng sẽ kém hơn đối với các phương ngữ có ít dữ liệu trực tuyến.
Thứ hai, nhiều người dùng có ngôn ngữ mẹ đẻ không phải là tiếng Anh vẫn chọn sử dụng các LLM tiếng Anh. Những đột phá đáng kể trong công nghệ ngôn ngữ có xu hướng bắt đầu bằng tiếng Anh trước khi chúng được áp dụng sang các ngôn ngữ khác. Ngay cả khi đó, nhiều ngôn ngữ — chẳng hạn như tiếng Wales, tiếng Swahili và tiếng Bengali — vẫn không có đủ văn bản trực tuyến để dạy các mô hình chất lượng cao.
Do thiếu các LLM bằng ngôn ngữ mẹ đẻ của mình hoặc chất lượng vượt trội của các LLM tiếng Anh, người dùng từ các quốc gia và nền tảng khác nhau vẫn có thể ưa chuộng sử dụng các LLM tiếng Anh.
Nhóm nghiên cứu của chúng tôi tại Đại học British Columbia đang nỗ lực tăng cường các LLM với kiến thức đa dạng về văn hóa. Cùng với nghiên cứu sinh Mehar Bhatia, chúng tôi đã dạy một mô hình AI dựa trên một bộ các sự kiện về truyền thống và các khái niệm trong những nền văn hóa đa dạng.
Trước khi đọc những sự kiện này, AI đã gợi ý rằng một người ăn bánh Dutch Baby (một loại bánh kếp của Đức) là “ghê tởm và xấu xa”, và sẽ cảm thấy tội lỗi. Sau khi được dạy, nó nói rằng người đó cảm thấy “no và thỏa mãn”.
Việc dạy AI rằng món ăn là một đứa trẻ Hà Lan (dutch
baby) đã thay đổi phản ứng của nó khi biết rằng có người đã ăn món đó. (Shutterstock)
Chúng tôi hiện đang thu thập một tập dữ liệu chú thích hình ảnh quy mô lớn với hình ảnh từ 60 nền văn hóa, chẳng hạn như sẽ giúp các mô hình học về các loại bữa sáng khác ngoài thịt xông khói và trứng. Nghiên cứu trong tương lai của chúng tôi sẽ vượt ra ngoài các mô hình giảng dạy về sự tồn tại của các khái niệm đa dạng về văn hóa để hiểu rõ hơn cách mọi người giải thích thế giới qua lăng kính văn hóa của họ.
Với việc các công cụ AI ngày càng trở nên phổ biến trong xã hội, điều bắt buộc là chúng phải vượt ra ngoài tầm nhìn thống trị của phương Tây và Bắc Mỹ. Các doanh nghiệp và tổ chức trên nhiều lĩnh vực của nền kinh tế đang áp dụng AI để tự động hóa các quy trình thủ công và đưa ra quyết định dựa trên bằng chứng tốt hơn bằng cách sử dụng dữ liệu. Làm cho những công cụ như vậy trở nên thích hợp cho mọi người hơn là điều quan trọng đối với dân số đa dạng của Canada.
Vered Shwartz |
Tác giả
Giáo sư bậc 1, Khoa học máy tính, Đại học British Columbia [Canada]
Tuyên bố công khai
Vered Shwartz không làm việc, tư vấn, sở hữu cổ phần hoặc nhận tài trợ từ bất kỳ công ty hoặc tổ chức nào sẽ được hưởng lợi từ bài viết này và không tiết lộ mối quan hệ liên kết nào ngoài mục đích học tập của họ.
Đại học British Columbia cung cấp tài trợ với tư cách là đối tác sáng lập của The Conversation CA.
Đại học British Columbia cung cấp kinh phí với tư cách là thành viên của The Conversation CA-FR.
Người dịch: Nguyễn Thị Trà Giang
Nguồn: “Artifical intelligence needs to be trained on culturally diverse datasets to avoid bias”, The Conversation, 13.2.2024.
----
Bài có liên quan: Robot sẽ làm gì với sơ yếu lý lịch của bạn? Vấn đề thiên vị khi sử dụng AI trong tuyển dụng