27.12.25

Các bình duyệt 100% AI tràn ngập một hội nghị lớn về AI

CÁC BÌNH DUYỆT 100% AI TRÀN NGẬP MỘT HỘI NGHỊ LỚN VỀ A.I.

Tranh cãi nổ ra sau khi 21% số bài đánh giá bản thảo cho một hội nghị AI quốc tế bị phát hiện là viết bằng trí tuệ nhân tạo.

Tác giả: Miryam Naddaf

Một công cụ phát hiện AI do Pangram Labs phát triển đã nhận thấy rằng các nhà bình duyệt đang dùng chatbot ngày một nhiều hơn để soạn phản hồi cho tác giả. Nguồn: breakermaximus/iStock qua Getty

Các nhà nghiên cứu có thể làm gì nếu nghi ngờ bản thảo của mình đã được bình duyệt bằng trí tuệ nhân tạo (AI)? Hàng chục học giả đã bày tỏ lo ngại trên mạng xã hội về các bản thảo và bình duyệt gửi đến ban tổ chức Hội nghị Quốc tế về Học biểu diễn năm 2026 (International Conference on Learning Representations – ICLR, một nhánh của học sâu, kỹ thuật để máy tự học cách biểu diễn dữ liệu thay vì con người phải thiết kế thủ công – ND), cuộc họp thường niên của các chuyên gia về học máy. Trong số đó, họ chỉ ra các trích dẫn bịa đặt và phản hồi dài dòng, mơ hồ một cách đáng ngờ về công trình của mình.

Graham Neubig, nhà nghiên cứu AI tại Đại học Carnegie Mellon ở Pittsburgh, Pennsylvania, là một trong những người nhận được các bài bình duyệt dường như được tạo ra bằng các hình ngôn ngữ lớn (LLM). Ông nói rằng các bản đánh giá này “rất dong dài với hàng tá gạch đầu dòng” và đòi hỏi các phân tích vốn không phải là “các phân tích thống kê tiêu chuẩn mà người đánh giá sẽ yêu cầu trong các bài báo AI hoặc học máy thông thường”.

Nhưng Neubig cần ai đó giúp chứng minh các báo cáo là do AI tạo ra. Vì vậy, ông đã đăng lên X (trước đây là Twitter) và treo thưởng cho bất kỳ ai có thể quét tất cả các bài nộp tại hội nghị cùng với các bình duyệt tương ứng để dò xem đâu là văn do AI viết. Ngày hôm sau, ông nhận được phản hồi từ Max Spero, giám đốc điều hành của Pangram Labs tại Thành phố New York, đơn vị phát triển các công cụ phát hiện văn bản tạo bằng AI. Pangram đã sàng lọc tất cả 19.490 nghiên cứu và 75.800 bài bình duyệt được gửi đến ICLR 2026, diễn ra vào tháng 4 năm sau tại Rio de Janeiro, Brazil. Neubig và hơn 11.000 nhà nghiên cứu AI khác sẽ tham dự hội nghị này.

Phân tích của Pangram phát hiện khoảng 21% bình duyệt tại ICLR hoàn toàn được tạo bằng AI, và hơn một nửa có dấu hiệu sử dụng AI. Những phát hiện này đã được Pangram Labs đăng tải trực tuyến. “Mọi người nghi ngờ, nhưng họ không có bằng chứng cụ thể nào”, Spero nói. “Trong suốt 12 tiếng, chúng tôi đã viết code để trích ra toàn bộ nội dung văn bản từ các bài báo được nộp này”, ông nói thêm.

Ban tổ chức hội nghị cho biết họ sẽ sử dụng các công cụ tự động để đánh giá liệu các bài nộp và bình duyệt có vi phạm chính sách sử dụng AI trong bài nộp bình duyệt hay không. Đây là lần đầu tiên hội nghị phải đối mặt với vấn đề này ở quy mô lớn, Bharath Hariharan, nhà khoa học máy tính tại Đại học Cornell ở Ithaca, New York, đồng thời là chủ tịch chương trình cấp cao của ICLR 2026 cho biết. “Sau khi rà soát xong hết thảy… chúng tôi sẽ có hình dung rõ hơn về độ tin cậy.”

Bình duyệt viết bằng AI

Nhóm Pangram đã sử dụng một trong những công cụ riêng của họ, cho phép dự đoán văn bản phải do các LLM tạo ra hay chỉnh sửa không. Phân tích của Pangram đã đánh dấu 15.899 bình duyệt là hoàn toàn do AI tạo ra. Tuy nhiên, công cụ này cũng xác định nhiều bản thảo nộp lên hội nghị có dấu hiệu chứa văn bản tạo bằng AI: 199 bản thảo (1%) bị phát hiện là hoàn toàn do AI viết; 61% bài chủ yếu do con người viết; nhưng 9% chứa hơn 50% văn bản do AI tạo ra.

Pangram đã mô tả mô hình này trong bản thảo sơ bộ[1] cũng được gửi tới ICLR 2026. Phân tích của nhóm cho thấy trong số bốn bài đánh giá dành cho bản thảo này thì một bài bị đánh dấu là hoàn toàn do AI viết và một bài thì được AI chỉnh sửa nhẹ.

Đối với nhiều nhà nghiên cứu đã nhận được bình duyệt cho bài nộp lên ICLR, phân tích Pangram đã xác nhận những gì họ từng nghi ngờ. Desmond Elliott, một nhà khoa học máy tính tại Đại học Copenhagen, cho biết một trong ba bài đánh giá mà ông nhận được dường như đã “bỏ lỡ trọng tâm của bài báo”. Nghiên cứu sinh tiến sĩ của ông, người nghiên cứu chính, nghi ngờ bài đánh giá đó là do LLM tạo ra vì nó đề cập đến các kết quả số liệu không chính xác từ bản thảo và chứa những cách diễn đạt kỳ lạ.

Khi Pangram công bố kết quả nghiên cứu, Elliott nói thêm, “tôi ngay lập tức nhập tiêu đề bài báo vì tôi muốn biết liệu trực giác của nghiên cứu sinh của tôi đúng hay không”. Bài bình duyệt đáng ngờ đó, bị phân tích của Pangram đánh dấu là hoàn toàn do AI tạo ra, đã bị chấm điểm thấp nhất cho bản thảo, khiến nó “nằm giữa ranh giới chấp nhận và từ chối”, Elliott nói. “Thật là cực kỳ khó chịu”.

Hệ lụy

Ban tổ chức ICLR 2026 cho phép tác giả và người bình duyệt sử dụng công cụ AI để chỉnh sửa văn bản, tạo mã thí nghiệm hoặc phân tích kết quả, nhưng bắt buộc phải công khai việc sử dụng này. ICLR 2026 cũng nghiêm cấm việc dùng AI dẫn tới vi phạm tính riêng tư của bản thảo hoặc tạo ra nội dung giả mạo.

Ban tổ chức hội nghị giờ đây sẽ sử dụng phân tích Pangram cùng các công cụ tự động khác để đánh giá xem bản thảo và bài bình duyệt có vi phạm các chính sách này hay không, đồng thời sẽ xử phạt tác giả và người đánh giá vi phạm.

Các nhà nghiên cứu giám sát quá trình bình duyệt “sẽ được yêu cầu đánh dấu các bài đánh giá kém chất lượng, không chỉ các bài đánh giá do các LLM tạo ra”, Hariharan nói. Ông nói thêm rằng “chuẩn để loại bỏ người bình duyệt sẽ rất cao. Vì các công cụ tự động này có thể cho kết quả đánh giá sai, chúng tôi sẽ không hoàn toàn dựa vào chúng”.

Một số tác giả đã rút lại bài nộp cho ICLR vì các bài bình duyệt chứa những khẳng định sai sự thật. Những người khác vẫn đang băn khoăn không biết phải phản hồi thế nào với những bình duyệt mà họ nhận được. “Là một nhà khoa học, tôi đã ở trong ngành đủ lâu để biết mình sẽ nhận được một số bài đánh giá chất lượng kém khi gửi công trình nghiên cứu đến các hội nghị”, Elliott cho biết. Tuy nhiên, ông nói thêm rằng các bài đánh giá bị nghi do AI tạo ra thường chứa “nhiều nội dung”. Một số trong đó “có liên quan và đáng phản hồi, nhưng những phần khác lại vô nghĩa”.

Tình hình tại ICLR 2026 cho thấy rõ áp lực ngày càng tăng lên những người bình duyệt để theo kịp một lĩnh vực đang phát triển nhanh chóng. “Trong lĩnh vực AI và học máy hiện nay, chúng ta đang gặp khủng hoảng về mặt bình duyệt, bởi vì lĩnh vực này đã phát triển theo cấp số nhân trong năm năm qua“, Neubig nói.

Hariharan cho biết trung bình mỗi nhà bình duyệt tại ICLR được giao năm bài báo mà họ phải đánh giá trong hai tuần. “Đó là gánh nặng rất lớn. Cao hơn nhiều so với trước đây.” Ông cho biết đang có các cuộc thảo luận xoay quanh cách quản lý vấn đề này. “Mọi người trong cộng đồng đều nhận thức được rằng chúng ta đang ở trong một giai đoạn mà tất cả chúng ta đều phải làm việc tình nguyện nhiều hơn đáng kể so với trước.”

doi: https://doi.org/10.1038/d41586-025-03506-6

Tài liệu tham khảo

Thai, K., Emi, B., Masrour, E. & Iyyer, M. Bản in trước tại arXiv https://doi.org/10.48550/arXiv.2510.03154 (2025).

Huỳnh Thị Thanh Trúc dịch

Nguồn: Major AI conference flooded with peer reviews written fully by AI, Nature, 27 November 2025.

Print Friendly and PDF