CÁC BÌNH DUYỆT
100% AI TRÀN NGẬP MỘT HỘI NGHỊ LỚN VỀ A.I.
Tranh cãi nổ ra sau khi 21% số
bài đánh giá bản thảo cho một hội nghị AI quốc tế bị phát hiện là viết bằng trí
tuệ nhân tạo.
Tác giả: Miryam Naddaf
| Một công cụ phát hiện AI do Pangram Labs phát triển đã nhận thấy rằng các nhà bình duyệt đang dùng chatbot ngày một nhiều hơn để soạn phản hồi cho tác giả. Nguồn: breakermaximus/iStock qua Getty |
Các nhà nghiên cứu có thể làm gì
nếu nghi ngờ bản thảo của mình đã được bình duyệt bằng trí tuệ nhân tạo
(AI)? Hàng chục học giả đã bày tỏ lo ngại trên mạng xã hội về các bản thảo và
bình duyệt gửi đến ban tổ chức Hội nghị Quốc tế về Học biểu diễn năm 2026 (International
Conference on Learning Representations – ICLR, một nhánh của học sâu, kỹ thuật
để máy tự học cách biểu diễn dữ liệu thay vì con người phải thiết kế thủ công –
ND), cuộc họp thường niên của các chuyên gia về học máy. Trong số đó, họ chỉ ra các trích dẫn bịa đặt và phản
hồi dài dòng, mơ hồ một cách đáng ngờ về công trình của mình.
Graham Neubig, nhà nghiên cứu AI
tại Đại học Carnegie Mellon ở Pittsburgh, Pennsylvania, là một trong những người
nhận được các bài bình duyệt dường như được tạo ra bằng các mô hình ngôn ngữ lớn (LLM). Ông nói
rằng các bản đánh giá này “rất dong dài với hàng tá gạch đầu dòng” và đòi hỏi các
phân tích vốn không phải là “các phân tích thống kê tiêu chuẩn mà người đánh
giá sẽ yêu cầu trong các bài báo AI hoặc học máy thông thường”.
Nhưng Neubig cần ai đó giúp chứng minh các báo cáo là do AI tạo ra. Vì vậy, ông đã đăng lên X (trước đây là Twitter) và treo thưởng cho bất kỳ ai có thể quét tất cả các bài nộp tại hội nghị cùng với các bình duyệt tương ứng để dò xem đâu là văn do AI viết. Ngày hôm sau, ông nhận được phản hồi từ Max Spero, giám đốc điều hành của Pangram Labs tại Thành phố New York, đơn vị phát triển các công cụ phát hiện văn bản tạo bằng AI. Pangram đã sàng lọc tất cả 19.490 nghiên cứu và 75.800 bài bình duyệt được gửi đến ICLR 2026, diễn ra vào tháng 4 năm sau tại Rio de Janeiro, Brazil. Neubig và hơn 11.000 nhà nghiên cứu AI khác sẽ tham dự hội nghị này.
Phân tích của Pangram phát hiện
khoảng 21% bình duyệt tại ICLR hoàn toàn được tạo bằng AI, và hơn một nửa có dấu
hiệu sử dụng AI. Những phát hiện này đã được Pangram Labs đăng tải trực tuyến. “Mọi
người nghi ngờ, nhưng họ không có bằng chứng cụ thể nào”, Spero nói. “Trong suốt
12 tiếng, chúng tôi đã viết code để trích ra toàn bộ nội dung văn bản từ các
bài báo được nộp này”, ông nói thêm.
Ban tổ chức hội nghị cho biết họ
sẽ sử dụng các công cụ tự động để đánh giá liệu các bài nộp và bình duyệt có vi
phạm chính sách sử dụng AI trong bài nộp và bình duyệt hay
không. Đây là lần đầu tiên hội nghị phải đối mặt với vấn đề này ở quy mô lớn,
Bharath Hariharan, nhà khoa học máy tính tại Đại học Cornell ở Ithaca, New
York, đồng thời là chủ tịch chương trình cấp cao của ICLR 2026 cho biết. “Sau
khi rà soát xong hết thảy… chúng tôi sẽ có hình dung rõ hơn về độ tin cậy.”
Bình duyệt viết bằng AI
Nhóm Pangram đã sử dụng một trong
những công cụ riêng của họ, cho phép dự đoán văn bản có phải do các LLM tạo ra hay chỉnh sửa không. Phân
tích của Pangram đã đánh dấu 15.899 bình duyệt là hoàn toàn do AI tạo ra. Tuy
nhiên, công cụ này cũng xác định nhiều bản thảo nộp lên hội nghị có dấu hiệu chứa
văn bản tạo bằng AI: 199 bản thảo (1%) bị phát hiện là hoàn toàn do AI viết; 61%
bài chủ yếu do con người viết; nhưng 9% chứa hơn 50% văn bản do AI tạo ra.
Pangram đã mô tả mô hình này
trong bản thảo sơ bộ[1] cũng được gửi tới ICLR 2026. Phân tích của
nhóm cho thấy trong số bốn bài đánh giá dành cho bản thảo này thì một bài bị đánh
dấu là hoàn toàn do AI viết và một bài thì được AI chỉnh sửa nhẹ.
Đối với nhiều nhà nghiên cứu đã
nhận được bình duyệt cho bài nộp lên ICLR, phân tích Pangram đã xác nhận những
gì họ từng nghi ngờ. Desmond Elliott, một nhà khoa học máy tính tại Đại học
Copenhagen, cho biết một trong ba bài đánh giá mà ông nhận được dường như đã “bỏ
lỡ trọng tâm của bài báo”. Nghiên cứu sinh tiến sĩ của ông, người nghiên cứu
chính, nghi ngờ bài đánh giá đó là do LLM tạo ra vì nó đề cập đến các kết quả số
liệu không chính xác từ bản thảo và chứa những cách diễn đạt kỳ lạ.
Khi Pangram công bố kết quả
nghiên cứu, Elliott nói thêm, “tôi ngay lập tức nhập tiêu đề bài báo vì tôi muốn
biết liệu trực giác của nghiên cứu sinh của tôi đúng hay không”. Bài bình duyệt
đáng ngờ đó, bị phân tích của Pangram đánh dấu là hoàn toàn do AI tạo ra, đã bị
chấm điểm thấp nhất cho bản thảo, khiến nó “nằm giữa ranh giới chấp nhận và từ
chối”, Elliott nói. “Thật là cực kỳ khó chịu”.
Hệ lụy
Ban tổ chức ICLR 2026 cho phép
tác giả và người bình duyệt sử dụng công cụ AI để chỉnh sửa văn bản, tạo mã thí
nghiệm hoặc phân tích kết quả, nhưng bắt buộc phải công khai việc sử dụng này. ICLR
2026 cũng nghiêm cấm việc dùng AI dẫn tới vi phạm tính riêng tư của bản thảo hoặc
tạo ra nội dung giả mạo.
Ban tổ chức hội nghị giờ đây sẽ sử
dụng phân tích Pangram cùng các công cụ tự động khác để đánh giá xem bản thảo
và bài bình duyệt có vi phạm các chính sách này hay không, đồng thời sẽ xử phạt
tác giả và người đánh giá vi phạm.
Các nhà nghiên cứu giám sát quá
trình bình duyệt “sẽ được yêu cầu đánh dấu các bài đánh giá kém chất lượng,
không chỉ các bài đánh giá do các LLM tạo ra”, Hariharan nói. Ông nói thêm rằng
“chuẩn để loại bỏ người bình duyệt sẽ rất cao. Vì các công cụ tự động này có thể
cho kết quả đánh giá sai, chúng tôi sẽ không hoàn toàn dựa vào chúng”.
Một số tác giả đã rút lại bài nộp
cho ICLR vì các bài bình duyệt chứa những khẳng định sai sự thật. Những người
khác vẫn đang băn khoăn không biết phải phản hồi thế nào với những bình duyệt
mà họ nhận được. “Là một nhà khoa học, tôi đã ở trong ngành đủ lâu để biết mình
sẽ nhận được một số bài đánh giá chất lượng kém khi gửi công trình nghiên cứu đến
các hội nghị”, Elliott cho biết. Tuy nhiên, ông nói thêm rằng các bài đánh giá
bị nghi do AI tạo ra thường chứa “nhiều nội dung”. Một số trong đó “có liên
quan và đáng phản hồi, nhưng những phần khác lại vô nghĩa”.
Tình hình tại ICLR 2026 cho thấy
rõ áp lực ngày càng tăng lên những người bình duyệt để theo kịp một lĩnh vực
đang phát triển nhanh chóng. “Trong lĩnh vực AI và học máy hiện nay, chúng ta
đang gặp khủng hoảng về mặt bình duyệt, bởi vì lĩnh vực này đã phát triển theo cấp số nhân trong năm năm qua“, Neubig
nói.
Hariharan cho biết trung bình mỗi
nhà bình duyệt tại ICLR được giao năm bài báo mà họ phải đánh giá trong hai tuần.
“Đó là gánh nặng rất lớn. Cao hơn nhiều so với trước đây.” Ông cho biết đang có
các cuộc thảo luận xoay quanh cách quản lý vấn đề này. “Mọi người trong cộng đồng
đều nhận thức được rằng chúng ta đang ở trong một giai đoạn mà tất cả chúng ta
đều phải làm việc tình nguyện nhiều hơn đáng kể so với trước.”
doi: https://doi.org/10.1038/d41586-025-03506-6
Tài liệu tham khảo
Thai, K., Emi, B., Masrour, E.
& Iyyer, M. Bản in trước tại arXiv https://doi.org/10.48550/arXiv.2510.03154 (2025).
Huỳnh Thị Thanh Trúc
dịch
Nguồn: Major AI conference flooded with peer reviews written fully by AI, Nature, 27 November 2025.