BÍ MẬT NGỚ NGẨN CỦA A.I.: CHÚNG TA VẪN CHƯA CHẮC CHẮN CÁCH ĐÁNH GIÁ MỨC ĐỘ THÔNG MINH CỦA CON NGƯỜI
![]() |
Bạn có thông minh như bạn nói không? Hakinmhan |
Hai trong số những công ty dẫn đầu về trí tuệ nhân tạo tại San Francisco đã thách thức công chúng đưa ra những câu hỏi có khả năng
kiểm tra năng lực của các mô hình ngôn ngữ lớn (LLM) như Google Gemini và o1 của
OpenAI. Scale AI, chuyên về việc chuẩn bị lượng dữ liệu khổng lồ dùng để
huấn luyện các LLM, đã hợp tác với
Trung tâm An toàn Trí tuệ Nhân tạo (CAIS) để khởi động sáng kiến Bài kiểm tra cuối cùng của nhân loại [Humanity’s Last Exam].
Với giải thưởng trị giá 5.000 đô la Mỹ (3.800 bảng Anh hay khoảng 127 triệu đồng) dành cho những người đưa ra 50 câu hỏi hay nhất được chọn cho bài kiểm tra này, Scale và CAIS cho biết
mục tiêu là kiểm tra xem chúng ta đã tiến gần việc đạt được “các hệ thống AI cấp chuyên gia” đến mức nào bằng cách sử dụng “liên minh chuyên gia lớn nhất và rộng khắp nhất trong lịch sử”.
Sao phải làm điều này? Các LLM hàng đầu đã vượt qua nhiều bài kiểm tra đã được thiết lập về trí thông minh, toán học và luật, nhưng khó có thể khẳng định điều này có ý nghĩa như thế nào. Trong nhiều trường hợp, chúng có thể đã học trước các câu trả lời nhờ được huấn luyện trên lượng dữ liệu đồ sộ, mà phần lớn trong đó là mọi thứ trên internet.
Dữ liệu là nền tảng cho toàn bộ lĩnh vực này. Nó là nền tảng cho sự thay đổi
mô hình từ máy tính thông thường sang AI, từ “chỉ
dẫn” sang “minh họa” để các cỗ máy này biết phải làm gì. Điều
này đòi hỏi các tập dữ liệu huấn luyện tốt, nhưng cũng cần các bài kiểm tra tốt. Các nhà
phát triển thường kiểm tra bằng dữ liệu chưa được dùng
trong huấn luyện, thuật ngữ chuyên ngành gọi đó là “tập dữ liệu
kiểm thử”.
Nếu LLM chưa thể học trước câu trả lời cho các bài kiểm tra chuẩn hóa như kỳ thi luật sư, thì có lẽ chúng sẽ sớm làm được.
Trang web phân tích AI Epoch
ước tính rằng năm
2028 sẽ đánh dấu thời điểm mà AI sẽ đọc (và xử lý) xong mọi thứ con người từng viết ra. Một thách thức quan
trọng không kém là làm thế nào để tiếp tục đánh giá AI sau khi lằn ranh cuối đó bị vượt
qua.
Tất nhiên, Internet đang mở rộng liên tục, với hàng triệu mục mới được thêm vào mỗi ngày. Liệu
điều đó có thể giải quyết được những vấn đề trên không?
Có lẽ được, nhưng điều này lại dẫn đến một khó khăn ngầm khó
lường và nguy hiểm khác, được gọi là
“sự sụp đổ của mô hình”. Khi càng ngày những tài liệu do AI tạo ra càng đầy
rẫy trên internet, rồi (các tài liệu đó) được
đưa trở lại vào các tập dữ liệu huấn luyện AI trong tương lai, có thể khiến AI
hoạt động ngày càng kém hiệu quả. Để khắc phục vấn đề này, nhiều nhà phát triển
đã thu thập dữ liệu từ tương tác của con người với AI, bổ
sung dữ liệu mới cho huấn luyện và đánh giá.
Một số chuyên gia cho rằng AI cũng cần phải trở nên “hữu hình”:
di chuyển trong thế giới thực và có những trải nghiệm riêng, giống như con người. Điều này
nghe có vẻ xa vời cho đến khi bạn nhận ra rằng Tesla đã làm thế trong nhiều năm với những
chiếc ô tô của mình. Một khả năng khác là các thiết bị đeo
trên người, chẳng hạn như kính thông minh nổi tiếng của Meta do Ray-Ban sản xuất. Chúng được trang bị camera và micrô, và có thể được sử dụng để thu thập một lượng lớn dữ liệu video và
âm thanh lấy con người làm trung tâm.
Các bài kiểm tra hẹp
Tuy nhiên, ngay cả khi những sản phẩm như vậy đảm bảo đủ dữ liệu huấn luyện trong tương
lai, vẫn còn câu hỏi hóc búa về cách định nghĩa và đo lường trí thông minh – đặc
biệt là trí thông minh nhân tạo tổng quát (Artificial General Intelligence – AGI), nghĩa là AI ngang bằng hoặc vượt trội hơn
trí thông minh của con người.
Các bài kiểm tra IQ truyền thống của con người từ lâu đã gây tranh cãi vì không nắm bắt được bản chất đa dạng của trí thông minh, bao gồm mọi thứ từ ngôn
ngữ đến toán học, từ sự đồng cảm đến khả năng xác định phương hướng.
Có một vấn đề tương tự với các bài kiểm tra AI. Có nhiều bài kiểm tra chuẩn hóa tốt gồm các nhiệm
vụ như tóm tắt văn bản, hiểu văn bản, rút ra suy luận chính xác từ thông tin, nhận dạng tư thế và cử chỉ của
con người và thị giác máy tính.
Một số bài kiểm tra đang bị loại bỏ, thường là vì AI đã và đang làm rất tốt, nhưng nhiệm vụ trong đó cụ thể rõ đến mức chúng trở thành thước đo trí thông minh rất hẹp. Ví dụ, AI chơi cờ vua Stockfish đang vượt xa Magnus Carlsen, kỳ thủ có điểm cao nhất mọi thời đại, trên hệ thống xếp hạng Elo. Tuy nhiên, Stockfish không có khả năng thực hiện các nhiệm vụ khác như đọc hiểu ngôn ngữ. Rõ ràng, đánh đồng khả năng chơi cờ vua của nó với trí thông minh rộng hơn là sai lầm.
![]() |
Magnus Carlsen không phải là đối thủ của Stockfish. Lilyana Vynogradova/Alamy |
Nhưng khi AI
đang thể hiện hành vi thông minh rộng hơn, thách thức đặt ra là phải thiết kế
các chuẩn đối sánh [benchmarks] mới để so sánh và đo lường sự tiến bộ của chúng.
Kỹ sư người Pháp François Chollet của Google đã có cách tiếp cận đáng chú ý. Ông lập luận rằng trí thông
minh thực sự nằm ở khả năng thích ứng và khái quát hóa việc học trước các tình
huống mới, chưa từng gặp. Vào năm 2019, ông đã đưa ra “kho dữ liệu trừu tượng
và lý luận” (ARC), một bộ sưu tập các câu đố dưới dạng lưới trực quan đơn
giản được thiết kế để kiểm tra khả năng suy luận và áp dụng các quy tắc trừu tượng
của AI.
I've just released a fairly lengthy paper on defining & measuring intelligence, as well as a new AI evaluation dataset, the “Abstraction and Reasoning Corpus”. I've been working on this for the past 2 years, on & off.
Paper: https://t.co/djNAIUZF7E
ARC: https://t.co/MvubT2HTKT pic.twitter.com/bVrmgLAYEv— François Chollet (@fchollet) November 6, 2019
Không giống như các chuẩn đối sánh trước
đây vốn kiểm tra khả năng nhận
dạng đối tượng trực quan bằng cách huấn luyện AI trên hàng triệu hình ảnh, mỗi hình có kèm thông tin về các đối
tượng trong ảnh, ARC cung cấp cho AI các ví dụ tối giản trước. AI phải tìm ra logic của câu đố và không thể
chỉ học vẹt tất
cả các câu trả lời có thể có.
Mặc dù các bài kiểm tra ARC không quá khó giải đối với con người, có hẳn một giải thưởng trị giá 600.000 đô la Mỹ cho hệ thống AI đầu
tiên đạt điểm 85%. Tại thời điểm bài viết này xuất bản, mục tiêu đó vẫn còn xa. Hai LLM hàng đầu gần đây, bản o1-preview của OpenAI
và Sonnet 3.5 của Anthropic, đều đạt 21% trên bảng xếp hạng công khai của ARC (được
gọi là ARC-AGI-Pub).
Một nỗ lực khác gần đây sử dụng GPT-4o của OpenAI đạt điểm 50%, nhưng có phần gây tranh cãi vì cách tiếp cận này tạo ra hàng nghìn giải
pháp khả thi trước rồi từ đó mới chọn ra câu trả lời tốt nhất cho bài kiểm tra. Ngay cả
khi đó, cách này vẫn còn lâu mới giật được giải thưởng – hoặc đạt được hiệu suất của con người, tức trên 90%.
Dù ARC vẫn là một trong những nỗ lực đáng tin cậy nhất
để kiểm tra trí thông minh thực sự của AI hiện nay, sáng kiến Scale/CAIS cho thấy rằng
việc tìm kiếm các giải pháp thay thế chấp nhận được vẫn đang diễn ra. (Điều thú vị là, chúng ta có lẽ sẽ không bao giờ thấy một số câu hỏi đoạt giải.
Chúng sẽ không được công bố trên internet, để đảm bảo AI không xem trộm đề thi được.)
Chúng ta cần biết khi nào máy móc đang tiến gần đến mức lý luận của con người,
cùng với tất cả những câu hỏi về an toàn, đạo đức và luân lý mà chuyện này đặt ra. Vào thời
điểm đó, có lẽ chúng ta sẽ phải đối mặt với một câu hỏi
còn hóc búa hơn: làm thế nào để đánh giá siêu trí tuệ. Đó
là một nhiệm vụ thậm chí còn “xoắn não” hơn mà chúng ta phải tìm
ra lời giải.
Tác giả
![]() |
Andrew Rogoyski |
Giám đốc Đổi mới - Viện AI lấy Con người làm Trung tâm Surrey, Đại học Surrey
Tuyên bố công
khai
Andrew Rogoyski
làm việc tại Viện về AI lấy Con người làm Trung tâm Surrey, nhận tài trợ từ
UKRI. Ông cũng tư vấn không chính thức cho các hiệp hội thương mại TechUK và Viện
giám đốc và là thành viên của Ban cố vấn công nghệ của Nat West Group.
Huỳnh
Thị Thanh Trúc dịch
Nguồn: AI
has a stupid secret: we’re still not sure how to test for human levels of
intelligence, The Conversation, Oct 4, 2024.
