KHOA HỌC BỊ THIỆT HẠI VÌ THIẾU TÍNH TÁI LẬP CÁC KẾT QUẢ NGHIÊN CỨU
Tác giả: Valentin Weber
Nghiên cứu sinh tiến sĩ về khoa học nhận thức tại ENS-PSL
(Ecole Normale supérieure - Université Paris Sciences et Lettres)
Tóm tắt
|
Tính tái lập hay khả năng tái lập – có nghĩa là những nhà khoa học khác có thể đạt được những kết quả tương tự như kết quả của một thí nghiệm gốc nếu họ thực hiện thí nghiệm trong những điều kiện giống nhau – là một điều bắt buộc của phương pháp khoa học. Tóm lại, nó có nghĩa là các kết quả của một thí nghiệm phải giống nhau, bất kể tác giả là ai. Và thường thường đó là trường hợp xảy ra. Tuy nhiên, trong nhiều bộ môn khác nhau của các khoa học xã hội, và ngay cả trong nghiên cứu y sinh, một số kết quả nghiên cứu khoa học đã không thể được tái lập sau đó bởi các nhà khoa học khác, điều này đã đặt lại vấn đề các nghiên cứu gốc[1],[2],[3].
Được biết đến với tên gọi “cuộc khủng hoảng của khả năng tái lập”, vấn đề không chỉ liên quan đến một vài nghiên cứu được công bố trên những tạp chí trình độ thấp. Thực ra, nó liên quan đến một phần ba các nghiên cứu trong các khoa học xã hội, kể cả những nghiên cứu được công bố trên những tạp chí có uy tín tương đương với Science hay Nature.[4] Các nghiên cứu được đề cập đến bao gồm nhiều hiện tượng khác nhau đã được biết rất rõ, nhiều hiện tượng đã tìm được chỗ đứng trong đại bộ phận công chúng. Trong số này, có những khái niệm đã lan truyền rộng rãi chẳng hạn như mối đe dọa của sự rập khuôn[5], những thiên kiến ngầm[6] hay hiệu ứng mồi xã hội[7]. Đó chỉ là ba kết luận nổi tiếng nhất, chúng đã là đối tượng của những phê phán nghiêm túc, đến mức chúng có thể không còn tồn tại sau một sự khảo sát về phương pháp luận kỹ lưỡng hơn. Nhưng chúng ta đã đi đến cuộc khủng hoảng này như thế nào, và chúng ta có thể làm gì để cứu chữa tình trạng này?
p-Hacking, HARKing và thiên kiến về công bố
Hai trong các cách thực hành “nghiên cứu kém” thông dụng nhất, thủ phạm của các kết quả không có khả năng tái lập, là do các thao túng về số liệu thống kê: đó là “p‑hacking” và “HARKing”. Trong trường hợp thứ nhất, các nhà nghiên cứu thay đổi chút ít kế hoạch nghiên cứu của họ cho đến khi một kết quả không có ý nghĩa trở thành có ý nghĩa, vậy là biến đổi một kết quả không thuận lợi thành một kết quả thuận lợi. Ví dụ, sau khi thất bại trong việc tìm một hiệu ứng trong thí nghiệm của mình, các nhà nghiên cứu có thể thay đổi cách thức đo lường các biến số, loại trừ một vài giá trị sai lạc mà trước đây họ chưa loại trừ, hay thu thập theo từng giai đoạn một vài đối tượng tham gia bổ sung, và từng lúc kiểm chứng xem kết quả có trở nên có ý nghĩa không. Tất cả những cách thực hành này gia tăng cơ may cho các nhà nghiên cứu tìm thấy một kết quả, cho dù nó không tồn tại trong thực tế.
Cũng như vậy, trong trường hợp của HARKing (viết tắt của Hypothesizing After the Results are Known): nêu ra những giả thuyết sau khi đã phát hiện kết quả, thật vậy, các nhà nghiên cứu tình cờ tìm thấy một hiệu ứng tương tác giữa hai biến số và sau đó nêu ra một giả thuyết, làm cho người ta nghĩ rằng đó là kết quả mà họ mong đợi ngay từ đầu. Để thông tin: một giả thuyết phải được thiết lập trước khi thực hiện một thí nghiệm (một cách tiên nghiệm) chứ không phải sau khi đã thực hiên thí nghiệm (hậu nghiệm).
Vào thời buổi của các dữ liệu lớn –big data–, không khó để hiểu tại sao đó là một ý tưởng tồi. Trong một tập hợp lớn các dữ liệu bao gồm hàng trăm biến số, một số biến số có mối tương quan với nhau… một cách ngẫu nhiên. Khẳng định tương quan này là có ý nghĩa, và đó chính là điều chúng ta đã tìm cách xác nhận sẽ tạo ra một ý niệm méo mó về các dữ liệu thật.
Trong giới đại học, các công bố là mẫu mực của thành công, nhưng sẽ khó hơn rất nhiều để công bố một nghiên cứu khoa học nếu nó không đạt đến một kết quả có ý nghĩa nào. Như vậy, đang tồn tại một “thiên kiến về công bố”, bởi vì nếu bạn mong muốn có một sự nghiệp tươi sáng trong lĩnh vực khoa học, bạn nên tìm ra các kết quả! Tất nhiên, điều đó không giải thích trọn vẹn tại sao các kết quả có ý nghĩa lại quan trọng đến thế. Suy cho cùng, các kết quả của một thí nghiệm không cho chúng ta biết gì về tính chất của các phương pháp được sử dụng. Nếu một nghiên cứu không có hiệu ứng, có thể đơn giản là hiệu ứng không tồn tại. Thế mà, các tạp chí khoa học thường từ chối công bố những kết quả không có ý nghĩa, mặc dù chúng không chứng minh được sự thiếu vắng một hiệu ứng bằng việc các kết quả có ý nghĩa có thể chứng minh sự tồn tại của hiệu ứng này.
Trong nghiên cứu chuẩn về khoa học xã hội, tỷ lệ các kết quả khẳng định sai cao nhất được chấp nhận là 5%, trong khi tỷ lệ các phủ định sai cao nhất được chấp nhận là 20%. Nói cách khác, nhiều nghiên cứu khoa học không có đủ sức mạnh, nghĩa là chúng không có đủ đối tượng tham gia để làm giảm tỷ lệ các phủ định sai xuống một mức độ thích hợp. Do đó, các tạp chí có thể loại bỏ những nghiên cứu mà các kết quả không có ý nghĩa với lý do là nghiên cứu đáng lẽ đã có thể tìm được hiệu ứng nếu quy mô của mẫu lớn hơn.
Áp lực để có được một “công bố” - “scoop” -
Tất cả những thực hành nghiên cứu đáng ngờ được đề cập trên đây - p‑hacking, HARKing (có lẽ là một dạng tin tặc), thiên kiến công bố và những phân tích không đủ mạnh - nay đã được biết rõ, nhưng các vấn đề của khủng hoảng về khả năng tái lập còn sâu sắc hơn. Một trong những lý do khiến cho nhiều nghiên cứu truyền thống không thể tái lập nhiều thập kỷ sau khi chúng được công bố là do có ít động cơ thúc đẩy thực hiện các nghiên cứu về khả năng tái lập. Các sự nghiệp học thuật phát triển để theo đuổi những ý tưởng mới, đáng chú ý là vì các tạp chí không quan tâm đến những nghiên cứu lặp lại các nghiên cứu đã có, và thiếu tính độc đáo. Do đó, không có đủ những nghiên cứu về khả năng tái lập nhằm tạo điều kiện hoặc để lưu ý các công bố gốc là các kết quả của chúng chưa được tái lập, hoặc xác nhận các kết quả này nếu chúng đã được tái lập.
“Một hậu quả liên quan đến thiếu vắng việc tái lập các nghiên cứu cũ là khó ước lượng quy mô của khủng hoảng về khả năng tái lập.”
Một hậu quả liên quan đến thiếu vắng việc tái lập các nghiên cứu cũ là khó ước lượng quy mô của khủng hoảng về khả năng tái lập. Ngoài các khoa học xã hội và nghiên cứu y sinh, còn có những ngành nào bị tác động bởi hiện tượng này? Và với mức độ nào? Chừng nào việc nghiên cứu về khả năng tái lập không trở thành một cách thực hành phổ biến, chúng ta chỉ có thể suy đoán dựa vào những câu trả lời cho các vấn đề này.
Mặc dù khó hình dung ra một cách tích hợp hoàn toàn các nghiên cứu về khả năng tái lập vào hệ thống nghiên cứu hiện tại, các “báo cáo đã đăng ký quy ước nghiên cứu” (registered reports) có thể đem lại một giải pháp cho bốn cách thực hành nghiên cứu yếu kém đã được đề cập ở trên. Ngược lại với các bài báo trên các tạp chí truyền thống, các báo cáo đã đăng ký quy ước nghiên cứu được chấp nhận cho công bố ngay cả trước khi các dữ liệu được thu thập. Vậy là vấn đề thiên kiến công bố được giải quyết, vì các kết quả không thể ảnh hưởng đến việc công bố hay không công bố công trình nghiên cứu trên tạp chí.
p‑hacking và HARKing cũng ít có cơ hội xuất hiện vì các nhà nghiên cứu phải xác định trước những giả thuyết nào sẽ được kiểm nghiệm và chúng sẽ được kiểm nghiệm như thế nào, rằng mọi thay đổi kế hoạch nghiên cứu phải được minh chứng một cách đặc biệt. Cuối cùng, các báo cáo đã đăng ký quy ước nghiên cứu thường có một sức mạnh thích hợp hơn các bài báo của các tạp chí bình thường, vì các phương pháp (bao gồm quy mô của mẫu dự kiến) được xem xét trước khi thực hiện nghiên cứu.
Valentin Weber |
Một khoa học có khả năng tái lập cao hơn có đạt được sự tin cậy lớn hơn của công chúng về các kết quả khoa học? Chúng ta không biết được, nhưng có thể có. Nếu cộng đồng khoa học chấp nhận rằng một số kết quả nghiên cứu thực sự là đáng ngờ và có ý định cải thiện những thiếu sót này, thì có thể những người hoài nghi sẽ ít ngần ngại hơn khi chấp nhận các kết luận của cộng đồng khoa học. Chắc hẳn chúng ta còn một đoạn đường dài phải vượt qua trước khi cuộc khủng hoảng dịu bớt, nhưng việc phát huy các năng lực về phương pháp, sự chấp nhận các báo cáo đã đăng ký quy ước nghiên cứu như là mô hình công bố và sự thúc đẩy nghiên cứu về khả năng tái lập là những bước đầu đầy hứa hẹn cho một hướng đi đúng.
Valentin Weber
Người dịch: Thái Thị Ngọc Dư
Nguồn: “La science pâtit d’un manque de reproductibilité des résultats de recherche”, Polytechnique Insights, 23.6.2021.
----
Bài có liên quan:
Chú
thích: [1] Open Science Collaboration (2015). Estimating the
reproducibility of psychological science. Science, 349(6251),
aac4716–aac4716. [2] Freedman, L. P., Cockburn, I. M.,
& Simcoe, T. S. (2015). The
economics of reproducibility in preclinical research. PLoS Biology,
13(6), e1002165. doi:10.1371/journal.pbio.1002165. [3] Ioannidis, J. P. (2005). Why
most published research findings are false. PLoS Med. 2, e124. [4] Camerer, C. F., Dreber, A.,
Holzmeister, F., Ho, T.-H., Huber, J., Jahannesson, M., … Wu, H. (2018). Evaluating
the replicability of social science experiments in Nature and Science between
2010 and 2015. Nature Human Behavior, 2, 637–644. [5] Flore, P. C., Mulder, J., &
Wicherts, J. M. (2019). The
influence of gender stereotype threat on mathematics test scores of Dutch high
school students: A registered report. Comprehensive Results in Social
Psychology, 3, 140–174. https://doi.org/ 10.1080/23743603.2018.1559647 [6] Schimmack, U. (2020, December 13). Defund Implicit
Bias Research. Replicability Index.
https://replicationindex.com/category/implicit-bias/. [7] Chivers, T. (2019). What’s
next for psychology’s embattled field of social priming. Nature,
576(7786), 200–202. doi:10.1038/d41586-019- 03755–2