19.12.20

800 nhà khoa học nói rằng đã đến lúc từ bỏ “ý nghĩa thống kê” + Giải thích đơn giản về giá trị-p cho các Nhà Khoa học Dữ liệu

800 NHÀ KHOA HỌC NÓI RẰNG ĐÃ ĐẾN LÚC TỪ BỎ “Ý NGHĨA THỐNG KÊ”

Các giá trị-p và “ý nghĩa thống kê” bị hiểu nhầm một cách phổ biến. Đây là ý nghĩa thực sự của chúng.

Brian Resnick | @B_resnick | brian@vox.com

Có một tình thế phổ biến rằng việc theo đuổi các giá trị-p đã khiến khoa học đi chệch hướng. erhui1979/Getty Creative Images
Trong suốt một thời gian dài, sự nghiệp của nhiều nhà khoa học đã được xây dựng xoay quanh việc theo đuổi một giá trị thống kê duy nhất: p < 0,05.

Trong nhiều ngành khoa học, đó là ngưỡng mà khi vượt quá nó thì các kết quả nghiên cứu có thể được tuyên bố là “có ý nghĩa thống kê”, điều này thường được diễn giải ít có khả năng các kết quả thu được là do may mắn, một hệ quả của sự ngẫu nhiên.

Dẫu cho đây cũng chẳng phải là ý nghĩa thực sự của nó trong thực tiễn. “Ý nghĩa thống kê” rất thường xuyên bị hiểu nhầm — và bị sử dụng sai. Đó là lý do tại sao mà một nhóm gồm ba nhà khoa học viết bài cho tạp chí Nature [Tự nhiên] tuần này đang kêu gọi “phải từ bỏ toàn bộ khái niệm ý nghĩa thống kê”.

Luận cứ lớn nhất của họ: việc “có ý nghĩa thống kê” hoặc “không có ý nghĩa thống kê” rất thường bị hiểu sai thành “nghiên cứu có hiệu lực” hoặc “nghiên cứu không có hiệu lực” một cách dễ dàng. Một hiệu ứng “đúng” đôi khi có thể thỉnh thoảng mang lại một giá trị-p lớn hơn 0,05. Và chúng ta biết kể từ những năm gần đây rằng khoa học đầy rẫy những nghiên cứu tốt với các giá trị nhỏ hơn 0,05 nhưng sai [false-positive studies] (đọc phần giải thích của tôi về cuộc khủng hoảng tái lập nghiên cứu trong khoa học xã hội để biết thêm chi tiết).

Các tác giả bình luận trên tờ Nature cho rằng các phép toán không phải là vấn đề. Mà thay vào đó, vấn đề lại là tâm lý con người. Các tác giả này viết rằng việc đưa ra ào ạt các kết quả “có ý nghĩa thống kê” và “không có ý nghĩa thống kê” đã dẫn đến một cách tiếp cận quá trắng đen quá rõ ràng trong việc nghiên cứu khoa học một cách kỹ lưỡng.

Hơn 800 nhà khoa học khác và nhà thống kê trên thế giới đã ký vào bản tuyên ngôn này. Cho đến hiện tại, nó có vẻ giống như một lập luận khiêu khích hơn là sự khởi đầu cho một sự thay đổi thực sự triệt để. Về việc này, “tờ Nature không tìm kiếm sự thay đổi cách mà tạp chí này xem xét sự phân tích về mặt thống kê trong việc đánh giá các bài nghiên cứu tại thời điểm này,” tạp chí này đã lưu ý.

Nhưng những cơn thủy triều có thể đang dâng lên chống lại “ý nghĩa thống kê”. Đây không phải là lần đầu tiên mà các nhà khoa học và các nhà thống kê thách thức hiện trạng này. Vào năm 2016, tôi đã viết về việc làm cách nào mà một nhóm lớn trong số họ [các nhà khoa học] đã kêu gọi tăng ngưỡng lên 0,005, khiến việc gọi một kết quả là “có ý nghĩa thống kê” trở nên khó khăn hơn nhiều. (Cùng thời điểm với bài bình luận trên tờ Nature, tạp chí The American Statistician [Nhà thống kê Hoa Kỳ] đã dành nguyên cả một số cho vấn đề “ý nghĩa thống kê”.) Có một sự công nhận rộng rãi rằng các giá trị-p có thể là có vấn đề.

Tôi ngờ rằng đề xuất này sẽ được tranh luận rất nhiều (như mọi thứ trong khoa học). Ít ra thì lời kêu gọi mới nhất về sự thay đổi triệt để này đã làm nổi bật một sự thật quan trọng gây nhức nhối trong khoa học: Ý nghĩa thống kê đang bị hiểu nhầm một cách rộng khắp. Hãy để tôi dẫn bạn vượt qua nó [nhầm lẫn này]. Tôi nghĩ nó sẽ giúp bạn hiểu cuộc tranh luận này rõ hơn, và giúp bạn thấy rằng có nhiều cách hơn để đánh giá những thành tựu của một phát hiện khoa học hơn là các giá trị-p.

Chờ đã, giá trị-p là gì? Ý nghĩa thống kê là gì?

Mick Wiggins/Getty Creative Images

Ngay cả những định nghĩa đơn giản nhất về giá trị-p cũng có xu hướng trở nên phức tạp, vì vậy hãy chịu khó đi cùng tôi bởi vì tôi sẽ chẻ nó ra thành từng phần nhỏ.

Khi các nhà nghiên cứu tính toán một giá trị-p, họ đang kiểm định điều được biết đến như là giả thuyết không. Điều đầu tiên cần biết: Đây không phải là một kiểm định về câu hỏi mà người thực nghiệm tuyệt vọng nhất muốn trả lời.

Giả sử người thực nghiệm thực sự muốn biết liệu ăn một thanh sô-cô-la mỗi ngày có dẫn đến việc giảm cân hay không. Để kiểm định điều đó, họ chỉ định 50 người tham gia ăn một thanh sô-cô-la mỗi ngày. 50 người khác bị buộc không ăn thanh sô-cô-la ngon miệng đó. Cả hai nhóm được cân trọng lượng trước và sau cuộc thử nghiệm đó, sự thay đổi trọng lượng trung bình của họ được so sánh.

Giả thuyết không nhất thiết là luận cứ của nhà khoa học. Nó khẳng định rằng chẳng có sự khác biệt về số cân nặng giảm được của những người ăn sô-cô-la so với những người không ăn sô-cô-la.

Việc bác bỏ giả thuyết không là một trở ngại lớn mà các nhà khoa học cần phải làm rõ để chứng minh giả thuyết của họ. Nếu giả thuyết không vẫn đứng vững, điều đó có nghĩa là họ chưa loại bỏ một sự giải thích thay thế quan trọng cho các kết quả của họ. Và khoa học là gì nếu không phải là một tiến trình thu hẹp những sự giải thích?

Vậy làm thế nào để họ loại trừ giả thuyết không? Họ tính toán một số thống kê.

Về cơ bản, nhà nghiên cứu đặt câu hỏi: Thật nực cười khi tin rằng giả thuyết không là câu trả lời đúng, với các kết quả cho trước mà chúng ta đang thấy?

Regina Nuzzo, một giáo sư toán học tại Đại học Gallaudet [Hoa Kỳ], đã giải thích rằng việc bác bỏ giả thuyết không giống như nguyên tắc cho rằng “bị cáo sẽ vẫn là vô tội cho đến khi được chứng minh là có tội” trong các phiên toà. Trong một phiên tòa, bạn bắt đầu với giả định rằng bị cáo vô tội. Sau đó, bạn bắt đầu xem xét các chứng cứ: con dao đẫm máu với những dấu vân tay của anh ta trên đó, tiền sử bạo lực của anh ta, những lời kể của nhân chứng. Khi càng có nhiều chứng cứ, giả định vô tội đó bắt đầu có vẻ ngây thơ. Ở một góc nhìn nhất định, các thành viên bồi thẩm đoàn sẽ có cảm giác rằng bị cáo không vô tội, vượt qua một sự hoài nghi phải chăng.

Việc thử nghiệm giả thuyết không cũng tuân theo một mạch logic tương tự: Nếu có những sự khác biệt lớn và nhất quán về trọng lượng giữa những người ăn sô-cô-la và những người không ăn sô-cô-la, thì giả thuyết không — không có những sự khác biệt về trọng lượng — bắt đầu có vẻ ngớ ngẩn và bạn có thể bác bỏ nó.

Bạn có thể đang nghĩ: Đây không phải là một cách khá vòng vo để chứng minh một cuộc thử nghiệm là có hiệu lực hay sao?

Bạn nói đúng!

Việc bác bỏ giả thuyết không là chứng cứ gián tiếp của một giả thuyết được thử nghiệm. Điều này không nói lên việc liệu kết luận khoa học của bạn có đúng hay không.

Chắc chắn, những người ăn sô-cô-la có thể giảm cân. Nhưng việc giảm cân có phải là do việc ăn sô-cô-la hay không? Có thể. Hoặc có thể họ cảm thấy thật là có lỗi nếu ăn kẹo mỗi ngày, và họ biết rằng họ sẽ được cân trọng lượng bởi những người lạ mặc áo choàng trắng phòng thí nghiệm (kỳ lạ thật!), vì vậy họ bỏ các bữa ăn khác.

Việc bác bỏ giả thuyết không chẳng cho bạn biết bất cứ điều gì về cơ chế mà việc không ăn sô-cô-la dẫn đến việc giảm cân cả. Nó cũng chẳng cho bạn biết liệu cuộc thí nghiệm có được thiết kế tốt, hoặc được kiểm soát tốt hay không, hoặc liệu các kết quả có phải là đã được chọn lọc hay không.

Nó chỉ giúp bạn hiểu các kết quả là hiếm khi xảy ra như thế nào.

Nhưng — và đây là một điểm cực kỳ nan giải — điều đó [việc bác bỏ giả thuyết không] không phải là việc các kết quả cho cuộc thí nghiệm của bạn là hiếm như thế nào. Nhưng là trong thế giới mà giả thuyết không là đúng thì các kết quả hiếm đến như thế nào. Điều đó có nghĩa là việc các kết quả sẽ hiếm đến mức nào nếu chẳng có điều gì trong cuộc thí nghiệm của bạn có hiệu lực và sự khác biệt về trọng lượng chỉ là do may mắn ngẫu nhiên.

Đây là nơi giá trị-p xuất hiện: Giá trị-p định lượng độ hiếm có này. Nó cho bạn biết tần suất bạn sẽ thấy kết quả về mặt số học của một cuộc thí nghiệm — hoặc thậm chí là các trị số ở các thái cực hơn — nếu giả thuyết không là đúng và không có khác biệt giữa các nhóm.

Nếu giá trị-p rất nhỏ, điều đó có nghĩa là các con số sẽ hiếm khi (nhưng chẳng phải là không bao giờ!) chỉ xuất hiện ngẫu nhiên. Vì thế khi giá trị-p là nhỏ, các nhà nghiên cứu bắt đầu nghĩ rằng giả thuyết không có vẻ không có khả năng đúng. Và họ có một bước nhảy vọt để kết luận “dữ liệu [thực nghiệm] của họ gần như chẳng phải là do ngẫu nhiên”, Nuzzo giải thích.

Đây là một điểm nan giải khác: Các nhà nghiên cứu không bao giờ có thể loại trừ hoàn toàn giả thuyết không (giống như các thành viên bồi thẩm đoàn không phải là nhân chứng trực tiếp của một việc phạm tội). Vì vậy, thay vào đó, các nhà khoa học chọn một ngưỡng mà họ cảm thấy khá tự tin rằng họ có thể bác bỏ giả thuyết không. Đối với nhiều ngành, ngưỡng đó hiện được đặt ở mức nhỏ hơn 0,05.

Một cách lý tưởng, một giá-trị-p bằng 0,05 có nghĩa là nếu bạn tiến hành cuộc thí nghiệm 100 lần — một lần nữa, giả sử giả thuyết không là đúng — bạn sẽ thấy cùng những con số tương tự (hoặc các trị số ở các thái cực hơn) 5 lần.

Và một khái niệm cuối cùng, siêu-gai-góc mà hầu như mọi người đều sai: Một giá trị-p < 0,05 chẳng có nghĩa là có ít hơn 5% cơ hội để các kết quả của cuộc thí nghiệm của bạn là do may mắn ngẫu nhiên. Nó không có nghĩa là chỉ có 5% cơ hội bạn nhận được một [kết quả] sai. Không. Hoàn toàn không.

Một lần nữa: Một giá trị-p nhỏ hơn 0,05 có nghĩa là có ít hơn 5% cơ hội nhìn thấy những kết quả này (hoặc các kết quả ở các thái cực hơn), trong thế giới mà giả thuyết không là đúng. Điều này nghe có vẻ kén cá chọn canh, nhưng nó lại rất quan trọng. Chính sự hiểu nhầm như vậy dẫn đến việc mọi người tự tin quá mức vào các giá trị-p. Tỷ lệ [các kết quả] sai với các cuộc thí nghiệm ở giá trị-p bằng 0,05 có thể cao hơn nhiều mức 5%.

Hãy lặp lại điều này: Các giá trị-p không nhất thiết cho bạn biết liệu một cuộc thí nghiệm có “hiệu lực” hay không

Kristoffer Magnusson

Nghiên cứu sinh ngành tâm lý học Kristoffer Magnusson đã thiết kế một máy tính tương tác khá tuyệt vời để ước tính xác suất nhận được một dãy các giá trị-p đối với bất kỳ mức khác biệt cho trước nào giữa các nhóm. Tôi đã sử dụng nó để tạo ra tình huống sau.

Giả sử có một nghiên cứu trong đó mức khác biệt thực giữa hai nhóm bằng một nửa độ lệch chuẩn. (Đúng, đây là một cách nói khó hiểu. Nhưng hãy nghĩ về điều đó như thế này: Điều đó có nghĩa là 69% những người trong nhóm thí nghiệm cho các kết quả cao hơn mức trung bình của nhóm đối chứng. Các nhà nghiên cứu gọi đây là hiệu ứng “cỡ vừa”.) Giả sử có 50 người trong mỗi nhóm: nhóm thí nghiệm và nhóm đối chứng.

Trong kịch bản này, bạn chỉ có thể nhận được giá trị-p từ 0,03 đến 0,05 thường trong trong khoảng 7,62% lần thử.

Nếu bạn tiến hành cuộc thí nghiệm này lặp đi lặp lại, bạn thực sự mong đợi sẽ thấy nhiều các giá trị-p hơn với một con số thấp hơn nhiều. Đó là những gì biểu đồ sau đây thể hiện. Trục x là các giá trị-p cụ thể, và trục y là tần suất bạn tìm thấy chúng khi lặp lại cuộc thí nghiệm này. Hãy xem có bao nhiêu giá trị-p bạn tìm thấy nhỏ hơn 0,001.


Đây là lý do tại sao nhiều nhà khoa học phải cảnh giác khi họ thấy quá nhiều kết quả xoay quanh 0,05. Điều đó không nên xảy ra thường xuyên và làm dấy lên những dấu hiệu đỏ rằng các kết quả đã được chọn lọc ra, hay, nói theo cách khoa học, “giá trị p-giả mạo”. Trong khoa học, có thể quá dễ dàng để chơi gian và điều chỉnh các số liệu thống kê để đạt được mức ý nghĩa.

Và từ biểu đồ này, bạn sẽ thấy: Đúng vậy, bạn có thể nhận được giá trị-p lớn hơn 0,05 khi một giả thuyết được thí nghiệm là đúng. Nó chỉ không nên xảy ra thường xuyên. Trong trường hợp này, khoảng 9,84% tất cả các giá trị-p sẽ nằm trong khoảng từ 0,05 đến 0,1.

Có nhiều cách tiếp cận tốt hơn, với nhiều sắc thái hơn để đánh giá về khoa học.

Nhiều nhà khoa học nhận ra rằng có nhiều cách vững chắc hơn để đánh giá về một phát hiện khoa học. Và họ đã tham gia vào những cách đó. Nhưng bằng cách nào đó, chúng hiện không nắm giữ nhiều quyền lực như “ý nghĩa thống kê”. Chúng [những cách vững chắc hơn để đánh giá một phát hiện khoa học] đó là:

  • Tập trung vào những quy mô hiệu ứng (sự can thiệp tạo ra sự khác biệt lớn như thế nào, và nó có ý nghĩa thực tiễn hay không?)
  • Các khoảng tin cậy (đâu là phạm vi của sự hoài nghi được xây dựng trong bất kỳ câu trả lời nhất định nào?)
  • Liệu một kết quả là một nghiên cứu mới hay một sự tái lập nghiên cứu [replication] (tăng trọng lượng cho một lý thuyết mà nhiều người làm thí nghiệm đã từng xem xét)
  • Liệu thiết kế của nghiên cứu có được đăng ký trước hay không (để các tác giả không thể thao túng các kết quả của họ sau cuộc thí nghiệm) và nguồn dữ liệu sơ cấp có thể được tiếp cận tự do hay không (do đó bất kỳ ai cũng có thể kiểm tra phép toán)
  • Cũng có các kỹ thuật thống kê thay thế — như phân tích Bayes — theo một số cách trực tiếp hơn để đánh giá các kết quả của một nghiên cứu. (Các giá trị-p đặt ra câu hỏi “các kết quả của tôi hiếm khi xảy ra đến như thế nào?” Các nhân tố Bayes đặt câu hỏi “xác suất giả thuyết của tôi là lời giải thích tốt nhất cho các kết quả mà chúng tôi đã tìm thấy là bao nhiêu?” Cả hai cách tiếp cận đều có những sự đánh đổi.)

Vấn đề thực sự không nằm ở ý nghĩa thống kê; mà nó nằm ở nền văn hóa của khoa học.

Các tác giả của bài bình luận mới nhất trên tờ Nature không kêu gọi kết liễu các giá trị-p. Họ vẫn muốn các nhà khoa học báo cáo chúng khi thích hợp, nhưng không nhất thiết phải dán nhãn chúng là “có ý nghĩa” hay không.

Có thể có tranh luận xung quanh chiến lược này. Một số người có thể nghĩ rằng sẽ hữu ích khi có quy tắc ngón tay cái đơn giản, hoặc các ngưỡng, để đánh giá khoa học. Và chúng ta vẫn cần có các cụm từ trong ngôn ngữ của mình để mô tả các kết quả khoa học. Việc xoá bỏ “ý nghĩa thống kê” có thể chỉ làm mọi thứ càng thêm rối rắm.

Trong mọi trường hợp, việc thay đổi định nghĩa về ý nghĩa thống kê, hoặc loại bỏ nó hoàn toàn, không giải quyết được vấn đề thực sự. Và vấn đề thực sự là văn hóa của khoa học.

Vào năm 2016, trang Vox đã gửi một cuộc khảo sát tới hơn 200 nhà khoa học với câu hỏi: “Nếu bạn có thể thay đổi một điều về cách thức hoạt động của khoa học ngày nay, nó sẽ là gì và tại sao?” Một trong những chủ đề rõ ràng trong các phản hồi: Các viện khoa học cần phải cải thiện việc tưởng thưởng cho sự thất bại.

Một nhà khoa học trẻ đã nói với chúng tôi, “Tôi cảm thấy bị giằng xé giữa việc đặt những câu hỏi mà tôi biết sẽ dẫn đến ý nghĩa thống kê và đặt những câu hỏi quan trọng.”

Brian Resnick

Vấn đề lớn nhất trong khoa học không phải là ý nghĩa thống kê; mà là văn hóa. Cô ấy cảm thấy giằng xé vì các nhà khoa học trẻ cần có công bố để kiếm việc làm. Dưới hiện trạng này, để có được công bố, bạn cần các kết quả có ý nghĩa thống kê. Ý nghĩa thống kê tự nó không dẫn đến cuộc khủng hoảng tái lập nghiên cứu. Các định chế khoa học đã khuyến khích các hành vi cho phép nó [cuộc khủng hoảng tái lập nghiên cứu] trở nên gay gắt.

Brian Resnick

Phóng viên Khoa học Cấp cao

Brian Resnick là một phóng viên khoa học tại Vox.com, thực hiện các lĩnh vực khoa học xã hội và hành vi, không gian, y học, môi trường và bất cứ điều gì khiến bạn nghĩ “thật tuyệt.” Trước [khi công tác tại] Vox, ông từng là một nhân viên - thông tín viên của National Journal, nơi ông đã viết hai câu chuyện trang bìa (hiện không còn tồn tại) cho tạp chí in hàng tuần, và đưa những tin tức nóng hổi và tin tức chính trị.

Nguyễn Thị Thanh Trúc & Nguyễn Việt Anh dịch

Nguồn: 800 scientists say it’s time to abandon “statistical significance”, Vox, Mar 22, 2019.

* * *

Giả thuyết Không và Đối thuyết của chúng ta trong cuộc chiến thế kỷ. Hình ảnh do Sasin Tipchai cung cấp từ Pixabay

GIẢI THÍCH ĐƠN GIẢN VỀ GIÁ TRỊ-P CHO CÁC NHÀ KHOA HỌC DỮ LIỆU

Không còn thói tự phụ của các Nhà Thống kê mà chỉ có sự Lạnh lùng của các Nhà Khoa học Dữ liệu

Rahul Agarwal

Ngày 28 tháng 9 năm 2019

Gần đây, tôi đã được hỏi về cách giải thích giá trị-p bằng những thuật ngữ đơn giản cho một người không chuyên. Tôi thấy rằng thật khó để làm được điều đó.

Các giá trị-p ​​luôn là mt vn đề đau đầu để giải thích ngay cả với một người đã biết về chúng chứ đừng nói đến một người chẳng hiểu gì về thống kê.

Tôi đã vào Wikipedia để tìm một điều gì đó và đây là định nghĩa:

Trong kiểm định giả thuyết thống kê, giá trị-p hoặc giá trị xác suất, cho một mô hình thống kê nhất định, là xác suất mà khi giả thuyết không là đúng, thì tóm tắt thống kê (chẳng hạn như hiệu của trung bình mẫu giữa hai nhóm) sẽ bằng, hoặc cực kỳ cao/thấp hơn, những kết quả thực tế quan sát được.

Và ý nghĩ đầu tiên của tôi là có thể họ đã viết về giá trị-p như trên để chẳng ai có thể hiểu được. Vấn đề ở đây liên quan đến rất nhiều thuật ngữ và ngôn ngữ mà các nhà thống kê thích sử dụng.

Bài viết này nhằm giải thích các giá trị-p một cách dễ hiểu mà không cần đến thói tự phụ của các nhà thống kê.

* * *

Một vấn đề Đời-Thực

Trong cuộc sống của chúng ta, chắc chắn chúng ta tin vào điều này hơn điều khác.

Từ những điều rõ ràng như — Trái đất thì tròn. Hoặc trái đất quay quanh Mặt trời. Mặt trời mọc ở hướng đông.

Đến những điều không rõ ràng hơn với mức độ không chắc chắn khác nhau — việc tập thể dục làm giảm được cân? Hay Trump sẽ thắng/thua trong cuộc bầu cử tiếp theo? Hoặc một loại thuốc cụ thể có tác dụng? Hoặc ngủ đủ 8 tiếng [mỗi ngày] là tốt cho sức khỏe của bạn?

Trong khi danh sách đầu [những điều rõ ràng] là các sự kiện thực tế, thì danh sách sau [những điều không rõ ràng hơn] lại khác biệt tùy từng người.

Vì vậy, nếu như tôi đến gặp bạn và nói rằng việc tập thể dục không tác động đến cân nặng thì sao?

Tất cả những người tập thể dục có thể gọi tôi bằng những từ không mấy tử tế. Nhưng có một cấu trúc toán học và logic nào đó mà ai đó có thể sử dụng để bác bỏ tôi không?

Điều này đưa chúng ta đến khái niệm kiểm định Giả thuyết.

 * * *

Kiểm định Giả thuyết

Việc tập thể dục không làm giảm được cân?

Vì vậy, tuyên bố mà tôi đã đưa ra trong ví dụ trên — việc tập thể dục không tác động đến cân nặng. Tuyên bố này là giả thuyết của tôi. Bây giờ hãy gọi nó là giả thuyết Không. Cho đến lúc này, nó đang ở hiện trạng mà chúng ta cho nó là đúng.

Đối thuyết là từ những người thề rằng việc tập thể dục làm giảm được cân.

Nhưng bằng cách nào để chúng ta kiểm định các giả thuyết này? Chúng ta tiến hành thu thập Dữ liệu. Chúng ta thu thập dữ liệu về số cân nặng giảm được (WeightLoss) của một mẫu gồm 10 người thường xuyên tập thể dục trong hơn 3 tháng.

Trung bình số cân được giảm của Mẫu = 2 kg

Độ lệch Chuẩn của Mẫu = 1 kg

Điều này có chứng tỏ rằng việc tập thể dục làm giảm được cân không? Nhìn sơ qua, có vẻ như việc tập thể dục có những lợi ích của nó khi những người tập thể dục đã giảm trung bình 2 kg.

Nhưng bạn sẽ thấy rằng những phát hiện rõ ràng như vậy không phải lúc nào cũng đúng khi bạn thực hiện kiểm định giả thuyết. Điều gì sẽ xảy ra nếu như trung bình số cân nặng giảm được của những người tập thể dục chỉ là 0,2 kg. Bạn vẫn chắc chắn rằng việc tập thể dục sẽ làm giảm được cân chứ?

Vậy làm thế nào chúng ta có thể định lượng điều này và cố lờ đi một số phép toán?

Hãy để chúng tôi thiết lập thử nghiệm của mình để làm điều này.

* * *

Thử nghiệm

Hãy quay trở lại các Giả thuyết của chúng ta một lần nữa:

Hº: Việc tập thể dục không tác động đến cân nặng. Hoặc tương đương 𝜇 = 0

H: Việc tập thể dục làm giảm được cân. Hoặc tương đương 𝜇> 0

Chúng ta xem mẫu dữ liệu của mình với 10 người, và cố gắng tìm ra giá trị của

Giá trị Trung bình Quan sát được (WeightLoss của những người tập thể dục) = 2 kg

Độ lệch Chuẩn Mẫu Quan sát được = 1 kg

* * *

Bây giờ, một câu hỏi hay để chúng ta tự hỏi mình là — Giả sử rằng giả thuyết không là đúng, thì xác suất của việc quan sát được một trung bình mẫu là 2 kg hoặc cực kỳ cao hơn 2 kg là bao nhiêu?

Giả sử chúng ta có thể tính toán được — Nếu như giá trị xác suất này là thấp (nhỏ hơn giá trị ngưỡng), chúng ta bác bỏ giả thuyết không của mình. Và nếu không, chúng ta không thể bác bỏ giả thuyết không của mình. Tại sao lại là không thể bác bỏ chứ không phải là chấp nhận? Tôi sẽ trả lời điều này sau.

Giá trị xác suất này thực sự là giá trị-p. Đơn giản, nó chỉ là xác suất của việc quan sát điều chúng ta quan sát được hoặc các kết quả cực đại nếu như chúng ta giả định giả thuyết không của chúng ta là đúng.

Các nhà thống kê gọi ngưỡng là mức ý nghĩa (𝜶), và trong hầu hết các trường hợp, thường giá trị được chọn là 0,05.

* * *

Vậy chúng ta trả lời như thế nào: Giả sử giả thuyết không là đúng, thì xác suất nhận được giá trị 2 kg hoặc hơn 2 kg là bao nhiêu?

Và sau đây là phân phối ưa thích của chúng ta, Phân phối Chuẩn như trong hình.

* * *

Phân phối Chuẩn

Chúng ta tạo một Phân phối Mẫu của giá trị trung bình của các mẫu WeightLoss với giả định rằng giả thuyết Không của chúng ta là Đúng.

Định luật Giới hạn Trung tâm (Central Limit Theorem)[*]: Định luật giới hạn trung tâm đơn giản phát biểu rằng nếu bạn có một tổng thể với giá trị trung bình μ và độ lệch chuẩn σ, và chọn mẫu ngẫu nhiên từ tổng thể, thì phân phối của các trung bình mẫu sẽ được phân phối xấp xỉ chuẩn với giá trị trung bình như là giá trị trung bình tổng thể  độ lệch chuẩn σ/√nTrong đó σ là độ lệch chuẩn của mẫu và n là số quan sát của mẫu.

Bây giờ chúng ta đã biết giá trị trung bình của tổng thể theo giả thuyết không của chúng ta. Vì thế, chúng ta sử dụng nó và có phân phối chuẩn có giá trị trung bình bằng 0. Và độ lệch chuẩn của nó được cho trước là 1/√10.

Phân phối mẫu là phân phối của giá trị trung bình của các mẫu.

Điều này, trên thực tế, là phân phối của giá trị trung bình của các mẫu từ tổng thể. Chúng ta đã quan sát thấy một giá trị cụ thể của giá trị trung bình đó là Xobserved = 2 kg.

Bây giờ chúng ta có thể sử dụng một số phần mềm thống kê để tìm vùng dưới đường cong cụ thể này:

from scipy.stats import norm

import numpy as npp = 1-norm.cdf(2, loc=0, scale = 1/np.sqrt(10))

print(p)

------------------------------------------

1.269814253745949e-10

Như vậy, đây là giá trị-p xác suất rất nhỏ (< mức ý nghĩa 0,05) để giá trị trung bình của một mẫu nhận giá trị từ 2 trở lên.

Và vì vậy, chúng ta có thể bác bỏ giả thuyết Không của mình. Và chúng ta có thể gọi kết quả của mình là có ý nghĩa thống kê vì chúng không chỉ xảy ra do ngẫu nhiên.

* * *

Thống kê Z

Bạn có thể cũng đã từng nghe về thống kê Z khi bạn đọc về kiểm định Giả thuyết. Một lần nữa như tôi đã nói, [đây là vấn đề về] thuật ngữ.

Đây là một phần mở rộng mà về cơ bản giống với ý tưởng ở trên, trong đó chúng ta sử dụng một phân phối chuẩn tắc với giá trị trung bình bằng 0 và phương sai bằng 1 làm phân phối mẫu sau khi biến đổi giá trị quan sát được x của chúng ta bằng cách sử dụng:


Điều này khiến cho việc sử dụng các bảng thống kê dễ dàng hơn. Trong ví dụ đang đề cập của chúng ta, thống kê z của chúng ta là:

z = (2-0)/(1/np.sqrt (10))

print (z)

------------------------------------------

6.324555320336758

Chỉ cần nhìn vào thống kê Z > 6 sẽ cho bạn ý tưởng rằng giá trị quan sát được cách xa ít nhất 6 độ lệch chuẩn và vì thế giá trị-p sẽ nhỏ hơn rất nhiều. Chúng ta vẫn có thể tìm ra giá trị-p bằng cách sử dụng:

from scipy.stats import norm

import numpy as npp = 1-norm.cdf(z, loc=0, scale=1)

print(p)

------------------------------------------

1.269814253745949e-10

Như bạn có thể thấy, chúng ta nhận được câu trả lời tương tự bằng cách sử dụng thống kê Z.

* * *

Một sự Khác biệt Quan trọng

Những thành viên bồi thẩm đoàn (Juror) của chúng ta không bao giờ có thể chắc chắn một cách tuyệt đối nên họ không chấp nhận mà chỉ bác bỏ.

Vì vậy, chúng ta đã nói trên đây rằng chúng ta bác bỏ giả thuyết không của mình vì chúng ta đã có đủ chứng cứ để chứng minh rằng giả thuyết không của chúng ta là sai.

Nhưng điều gì sẽ xảy ra nếu như giá trị-p cao hơn mức ý nghĩa. Trong trường hợp này chúng ta nói rằng chúng ta không thể bác bỏ giả thuyết không. Tại sao chúng ta không nói rằng chấp nhận giả thuyết không?

Ví dụ trực quan tốt nhất cho vấn đề này là sử dụng các phiên tòa xét xử. Trong một phiên tòa xét xử, giả thuyết không là bị cáo không có tội. Sau đó chúng ta thấy một số chứng cứ để bác bỏ giả thuyết không.

Nếu như chúng ta không thể chứng minh rằng các giả thuyết không là sai, thẩm phán sẽ không nói rằng bị cáo không phạm tội. Thẩm phán chỉ nói rằng dựa trên những chứng cứ được đưa ra, chúng tôi không thể kết tội bị cáo.

Một ví dụ khác để củng cố quan điểm này: Giả sử rằng chúng ta đang thăm dò sự sống trên một hành tinh xa lạ. Và giả thuyết không của chúng ta () là không có sự sống trên hành tinh này. Chúng ta đi lang thang xung quanh một vài dặm trong một khoảng thời gian và tìm kiếm con người/người ngoài hành tinh trên hành tinh đó. Nếu như nhìn thấy bất kỳ người ngoài hành tinh nào, chúng ta có thể bác bỏ giả thuyết không để ủng hộ giả thuyết thay thế.

Nhưng nếu không nhìn thấy bất kỳ người ngoài hành tinh nào, chúng ta có thể chắc chắn nói rằng chẳng có sự sống ngoài hành tinh nào trên hành tinh này hay chấp nhận các giả thuyết không của mình? Có lẽ chúng ta cần khám phá thêm, hoặc có lẽ chúng ta cần thêm thời gian và có thể sẽ tìm thấy một người ngoài hành tinh. Vì vậy, trong trường hợp này, chúng ta không thể chấp nhận giả thuyết không; mà chúng ta chỉ có thể là không thể bác bỏ nó. Hoặc trong phát biểu của Cassie Kozyrkov, người đưa ra ví dụ này, chúng ta có thể nói rằng “chúng tôi chẳng học được điều gì thú vị cả”.

Trong lớp STAT101, họ dạy bạn viết một đoạn phức tạp khi điều đó xảy ra. (“Chúng tôi không thể bác bỏ giả thuyết không và kết luận rằng không có đủ chứng cứ thống kê để ủng hộ cho [giả thuyết về] sự tồn tại của sự sống ngoài hành tinh trên hành tinh này.”) Tôi tin rằng mục đích duy nhất của mô tả này là làm mỏi cổ tay của sinh viên mà thôi. Tôi đã luôn cho phép các sinh viên đại học của mình viết như sau: chúng tôi chẳng học được điều gì thú vị cả.

* * *

Riddikulus: Kiểm định giả thuyết có thể khiến cho giả thuyết không trông thật vô lý khi sử dụng các giá trị-p (The Wand)

Về mặt bản chất, kiểm định giả thuyết chỉ là kiểm định xem các giá trị quan sát của chúng ta có khiến cho giả thuyết không trông thật vô lý hay không. Nếu có, chúng ta bác bỏ giả thuyết không và gọi kết quả của chúng ta là có ý nghĩa thống kê. Và nếu không, chúng ta không học được điều gì thú vị cả, và chúng ta tiếp tục với hiện trạng của mình.

 * * *

Tiếp tục học tập

Mine Çetinkaya-Rundel

Nếu bạn muốn tìm hiểu thêm về kiểm định giả thuyết, khoảng tin cậy và phương pháp suy luận thống kê cho dữ liệu dưới dạng số (biến số) và dữ liệu được phân loại (biến định tính), thì [bạn có thể học] khóa học Thống kê suy luận do Mine Çetinkaya-Rundel đứng lớp trên trang Coursera và chẳng có khóa học nào đơn giản hơn khóa học này. Cô là một người hướng dẫn tuyệt vời và cô giải thích các nguyên tắc cơ bản của suy luận Thống kê một cách độc đáo.

* * *

Cảm ơn vì đã đọc. Tôi cũng sẽ viết nhiều bài đăng thân-thiện-với-người-mới-bắt-đầu hơn trong tương lai. Hãy theo dõi tôi tại trang Medium hoặc Đăng ký blog của tôi để được nhận thông báo về chúng. Như mọi khi, tôi hoan nghênh sự phản hồi và những lời phê bình mang tính xây dựng và có thể đọc được những điều này trên trang Twitter @mlwhiz

* * *

Ngoài ra, một tuyên bố từ chối trách nhiệm nhỏ — Có thể có một số đường link liên kết (affiliate link) trong bài đăng này tới các nguồn liên quan như là một hành động chia sẻ kiến ​​thc, điu này chng bao gi là mt ý tưởng ti.

Rahul Agarwal

Thu hẹp khoảng cách giữa Khoa học Dữ liệu và Trực giác. Nhà khoa học dữ liệu @WalmartLabs. Người truyền thông về khoa học dữ liệu tại trang mlwhiz và TDS. Kết nối trên Twitter @mlwhiz

Nguyễn Việt Anh & Nguyễn Thị Thanh Trúc dịch

Nguồn: P-value Explained Simply for Data Scientists, Towards Data Science, Sep 28, 2019.



Chú thích:

[*] Định luật giới hạn trung tâm (CLT) cho rằng giá trị trung bình phân phối mẫu gần bằng với phân phối chuẩn (còn được gọi là phân phối đường cong hình chuông) khi kích thước mẫu càng lớn, giả sử rằng tất cả các mẫu đều giống hệt nhau ở kích thước và hình dạng phân bố. Với cỡ mẫu đủ lớn từ một tổng thể có mức phương sai hữu hạn, giá trị trung bình của tất cả các mẫu từ cùng tổng thể đó sẽ xấp xỉ bằng giá trị trung bình của tổng thể. Hơn nữa, tất cả các mẫu sẽ tuân theo một mẫu phân phối gần với phân phối chuẩn với tất cả các phương sai xấp xỉ bằng phương sai của tổng thể chia cho kích thước của từng mẫu.

Mặc dù khái niệm này được giới thiệu lần đầu tiên bởi Abraham de Moivre vào năm 1733, nó được đặt tên chính thức là Định luật giới hạn trung tâm vào năm 1930 bởi nhà toán học người Hungary George Polya. (ND)

Print Friendly and PDF