18.12.24

Bí mật ngớ ngẩn của AI: Chúng ta vẫn chưa chắc chắn cách đánh giá mức độ thông minh của con người

BÍ MẬT NGỚ NGẨN CỦA A.I.: CHÚNG TA VẪN CHƯA CHẮC CHẮN CÁCH ĐÁNH GIÁ MỨC ĐỘ THÔNG MINH CỦA CON NGƯỜI

Bạn có thông minh như bạn nói không? Hakinmhan

Hai trong số những công ty dẫn đầu về trí tuệ nhân tạo tại San Francisco đã thách thức công chúng đưa ra những câu hỏi có khả năng kiểm tra năng lực của các mô hình ngôn ngữ lớn (LLM) như Google Gemini và o1 của OpenAI. Scale AI, chuyên về việc chuẩn bị lượng dữ liệu khổng lồ dùng để huấn luyện các LLM, đã hợp tác với Trung tâm An toàn Trí tuệ Nhân tạo (CAIS) để khởi động sáng kiến Bài kiểm tra cuối cùng của nhân loại [Humanity’s Last Exam].

Với giải thưởng trị giá 5.000 đô la Mỹ (3.800 bảng Anh hay khoảng 127 triệu đồng) dành cho những người đưa ra 50 câu hỏi hay nhất được chọn cho bài kiểm tra này, Scale và CAIS cho biết mục tiêu là kiểm tra xem chúng ta đã tiến gần việc đạt được “các hệ thống AI cấp chuyên gia” đến mức nào bằng cách sử dụng “liên minh chuyên gia lớn nhất và rộng khắp nhất trong lịch sử”.

Sao phải làm điều này? Các LLM hàng đầu đã vượt qua nhiều bài kiểm tra đã được thiết lập về trí thông minh, toán học và luật, nhưng khó có thể khẳng định điều này có ý nghĩa như thế nào. Trong nhiều trường hợp, chúng có thể đã học trước các câu trả lời nhờ được huấn luyện trên lượng dữ liệu đồ sộ, mà phần lớn trong đó là mọi thứ trên internet.

Dữ liệu là nền tảng cho toàn bộ lĩnh vực này. Nó là nền tảng cho sự thay đổi mô hình từ máy tính thông thường sang AI, từ “chỉ dẫn” sang “minh họa” để các cỗ máy này biết phải làm gì. Điều này đòi hỏi các tập dữ liệu huấn luyện tốt, nhưng cũng cần các bài kiểm tra tốt. Các nhà phát triển thường kiểm tra bằng dữ liệu chưa được dùng trong huấn luyện, thuật ngữ chuyên ngành gọi đó là “tập dữ liệu kiểm thử”.

Nếu LLM chưa thể học trước câu trả lời cho các bài kiểm tra chuẩn hóa như kỳ thi luật sư, thì có lẽ chúng sẽ sớm làm được. Trang web phân tích AI Epoch ước tính rằng năm 2028 sẽ đánh dấu thời điểm mà AI sẽ đọc (và xử lý) xong mọi thứ con người từng viết ra. Một thách thức quan trọng không kém là làm thế nào để tiếp tục đánh giá AI sau khi lằn ranh cuối đó bị vượt qua.

Tất nhiên, Internet đang mở rộng liên tục, với hàng triệu mục mới được thêm vào mỗi ngày. Liệu điều đó có thể giải quyết được những vấn đề trên không?

Có lẽ được, nhưng điều này lại dẫn đến một khó khăn ngầm khó lường và nguy hiểm khác, được gọi là “sự sụp đổ của mô hình”. Khi càng ngày những tài liệu do AI tạo ra càng đầy rẫy trên internet, rồi (các tài liệu đó) được đưa trở lại vào các tập dữ liệu huấn luyện AI trong tương lai, có thể khiến AI hoạt động ngày càng kém hiệu quả. Để khắc phục vấn đề này, nhiều nhà phát triển đã thu thập dữ liệu từ tương tác của con người với AI, bổ sung dữ liệu mới cho huấn luyệnđánh giá.

Một số chuyên gia cho rằng AI cũng cần phải trở nên “hữu hình”: di chuyển trong thế giới thực và có những trải nghiệm riêng, giống như con người. Điều này nghe có vẻ xa vời cho đến khi bạn nhận ra rằng Tesla đã làm thế trong nhiều năm với những chiếc ô tô của mình. Một khả năng khác là các thiết bị đeo trên người, chẳng hạn như kính thông minh nổi tiếng của Meta do Ray-Ban sản xuất. Chúng được trang bị camera và micrô, và có thể được sử dụng để thu thập một lượng lớn dữ liệu video và âm thanh lấy con người làm trung tâm.

Các bài kiểm tra hẹp

Tuy nhiên, ngay cả khi những sản phẩm như vậy đảm bảo đủ dữ liệu huấn luyện trong tương lai, vẫn còn câu hỏi hóc búa về cách định nghĩa và đo lường trí thông minh – đặc biệt là trí thông minh nhân tạo tổng quát (Artificial General Intelligence AGI), nghĩa là AI ngang bằng hoặc vượt trội hơn trí thông minh của con người.

Các bài kiểm tra IQ truyền thống của con người từ lâu đã gây tranh cãi vì không nắm bắt được bản chất đa dạng của trí thông minh, bao gồm mọi thứ từ ngôn ngữ đến toán học, từ sự đồng cảm đến khả năng xác định phương hướng.

Có một vấn đề tương tự với các bài kiểm tra AI. Có nhiều bài kiểm tra chuẩn hóa tốt gồm các nhiệm vụ như tóm tắt văn bản, hiểu văn bản, rút ra suy luận chính xác từ thông tin, nhận dạng tư thế và cử chỉ của con người và thị giác máy tính.

Một số bài kiểm tra đang bị loại bỏ, thường là vì AI đã và đang làm rất tốt, nhưng nhiệm vụ trong đó cụ thể rõ đến mức chúng trở thành thước đo trí thông minh rất hẹp. Ví dụ, AI chơi cờ vua Stockfish đang vượt xa Magnus Carlsen, kỳ thủ có điểm cao nhất mọi thời đại, trên hệ thống xếp hạng Elo. Tuy nhiên, Stockfish không có khả năng thực hiện các nhiệm vụ khác như đọc hiểu ngôn ngữ. Rõ ràng, đánh đồng khả năng chơi cờ vua của nó với trí thông minh rộng hơn là sai lầm.

Magnus Carlsen không phải là đối thủ của Stockfish. Lilyana Vynogradova/Alamy

Nhưng khi AI đang thể hiện hành vi thông minh rộng hơn, thách thức đặt ra là phải thiết kế các chuẩn đối sánh [benchmarks] mới để so sánh và đo lường sự tiến bộ của chúng. Kỹ sư người Pháp François Chollet của Google đã có cách tiếp cận đáng chú ý. Ông lập luận rằng trí thông minh thực sự nằm ở khả năng thích ứng và khái quát hóa việc học trước các tình huống mới, chưa từng gặp. Vào năm 2019, ông đã đưa ra “kho dữ liệu trừu tượng và lý luận” (ARC), một bộ sưu tập các câu đố dưới dạng lưới trực quan đơn giản được thiết kế để kiểm tra khả năng suy luận và áp dụng các quy tắc trừu tượng của AI.

Không giống như các chuẩn đối sánh trước đây vốn kiểm tra khả năng nhận dạng đối tượng trực quan bằng cách huấn luyện AI trên hàng triệu hình ảnh, mỗi hình có kèm thông tin về các đối tượng trong ảnh, ARC cung cấp cho AI các ví dụ tối giản trước. AI phải tìm ra logic của câu đố và không thể chỉ học vẹt tất cả các câu trả lời có thể có.

Mặc dù các bài kiểm tra ARC không quá khó giải đối với con người, có hẳn một giải thưởng trị giá 600.000 đô la Mỹ cho hệ thống AI đầu tiên đạt điểm 85%. Tại thời điểm bài viết này xuất bản, mục tiêu đó vẫn còn xa. Hai LLM hàng đầu gần đây, bản o1-preview của OpenAI và Sonnet 3.5 của Anthropic, đều đạt 21% trên bảng xếp hạng công khai của ARC (được gọi là ARC-AGI-Pub).

Một nỗ lực khác gần đây sử dụng GPT-4o của OpenAI đạt điểm 50%, nhưng có phần gây tranh cãi vì cách tiếp cận này tạo ra hàng nghìn giải pháp khả thi trước rồi từ đó mới chọn ra câu trả lời tốt nhất cho bài kiểm tra. Ngay cả khi đó, cách này vẫn còn lâu mới giật được giải thưởng – hoặc đạt được hiệu suất của con người, tức trên 90%.

ARC vẫn là một trong những nỗ lực đáng tin cậy nhất để kiểm tra trí thông minh thực sự của AI hiện nay, sáng kiến Scale/CAIS cho thấy rằng việc tìm kiếm các giải pháp thay thế chấp nhận được vẫn đang diễn ra. (Điều thú vị là, chúng ta có lẽ sẽ không bao giờ thấy một số câu hỏi đoạt giải. Chúng sẽ không được công bố trên internet, để đảm bảo AI không xem trộm đề thi được.)

Chúng ta cần biết khi nào máy móc đang tiến gần đến mức lý luận của con người, cùng với tất cả những câu hỏi về an toàn, đạo đức và luân lý mà chuyện này đặt ra. Vào thời điểm đó, có lẽ chúng ta sẽ phải đối mặt với một câu hỏi còn hóc búa hơn: làm thế nào để đánh giá siêu trí tuệ. Đó là một nhiệm vụ thậm chí còn “xoắn não” hơn mà chúng ta phải tìm ra lời giải.

Tác giả

Andrew Rogoyski

Andrew Rogoyski

Giám đốc Đổi mới - Viện AI lấy Con người làm Trung tâm Surrey, Đại học Surrey

Tuyên bố công khai

Andrew Rogoyski làm việc tại Viện về AI lấy Con người làm Trung tâm Surrey, nhận tài trợ từ UKRI. Ông cũng tư vấn không chính thức cho các hiệp hội thương mại TechUK và Viện giám đốc và là thành viên của Ban cố vấn công nghệ của Nat West Group.

Huỳnh Thị Thanh Trúc dịch

Nguồn: AI has a stupid secret: we’re still not sure how to test for human levels of intelligence, The Conversation, Oct 4, 2024.

Print Friendly and PDF