16.8.14

Có thể tin tưởng các cuộc điều tra chọn mẫu không?



Tác giả: Alain Desrosières
Năm 1998, trong khuôn khổ một vụ án đối lập Hạ viện Hoa Kì, có đa số dân biểu thuộc đảng Cộng hòa, với bộ Thương mại thuộc chính quyền dân chủ của Clinton, một tòa án Mĩ đã tham khảo một nhóm các sử gia về khoa học. Câu hỏi đặt ra cho các sử gia là khác thường: có hay không khả năng Thomas Jefferson, một trong những người cha của Hiến Pháp Mĩ năm 1787, lúc làm đại sứ ở Pháp vào cuối triều đại vua Louis XVI đã từng gặp tại Paris nhà toán học Pháp Pierre-Simon Laplace? Làm sao một điểm uyên bác như thế về lịch sử lại khiến một tòa án, hai thế kỉ sau, quan tâm đến độ yêu cầu một sự thẩm định bác học? Để trả lời câu hỏi này, phải tái hiện lịch sử của một phương pháp đo đạc, ngày nay được xem là thông thường nhưng trong một thời gian dài từng bị lên án, đó là phương pháp điều tra chọn mẫu.
 Liệu có chính đáng không khi khái quát hóa cho cả tổng thể thống kê từ những kết quả thu được trên một “mẫu” bắt nguồn từ tổng thể ấy? Tất cả sự khó khăn là do tính nhập nhằng của từ “chính đáng”: từ này được hiểu theo nghĩa khoa học hay nghĩa pháp lí? Sự căng thẳng giữa hai hình thức trên về tính chính đáng là thiết yếu để kiến giải câu chuyện của chúng ta… Hiến pháp Hoa Kì năm 1787 là kết quả của một thỏa hiệp giữa những người muốn giao nhiều quyền cho Nhà nước liên bang và những người muốn duy trì càng nhiều quyền lực có thể cho mười ba bang cấu thành “Hợp chúng quốc” (những cuộc tranh luận như thế cũng đã diễn ra tại châu Âu vào năm 2005 về dự án Hiến pháp châu Âu). Do đó các thể chế mới phải tôn trọng “tầm quan trọng tương đối” của các bang, ví dụ trong tính đại diện ở Quốc hội liên bang hay trong việc phân phối các nghĩa vụ tài chính. Các tầm quan trọng tương đối này cần phải được biểu trưng bằng một con số, là số dân đếm được trong cuộc tổng điều tra dân số. 
Thời bấy giờ một vấn đề đã được tranh luận: làm thế nào đếm số nô lệ vốn rất đông trong các bang miền Nam? Vấn đề này được giải quyết bằng một thỏa hiệp kì lạ: mỗi nô lệ được tính bằng ba phần năm của một công dân “tự do”! Quy tắc này được duy trì cho đến lúc nô lệ được giải phóng vào năm 1865. Nhưng vấn đề tính đại diện của dân nghèo da đen, thường là hậu duệ của các nô lệ, và dân Mĩ gốc châu Mĩ la tinh vẫn dai dẳng tới tận ngày nay, dưới những hình thức khác. Thật vậy, kể từ những năm 1970, điều hiển nhiên là, vì nhiều lí do khác nhau, khó điều tra đầy đủ trong các khu đô thị nơi sinh sống của các sắc tộc trên hơn là trong các khu sinh sống của các tầng lớp trung lưu. Kết quả là một sự ước lượng thấp các tổng thể thống kê này, một điều bất lợi cho những người theo đảng Dân chủ vì người da đen và người nói tiếng Tây Ban Nha thường gần với đảng Dân chủ hơn là đảng Cộng hòa. Để đánh giá chính xác hơn các tổng thể này, các nhà thống kê của Census Bureau, cơ quan chịu trách nhiệm tổng điều tra dân số, đề xuất nhiều đề nghị khác nhau. Đặc biệt các đề nghị này viện đến những phương pháp gián tiếp kéo theo việc vận dụng những cuộc điều tra chọn mẫu ngẫu nhiên. Điều nghịch lí là điều tra chọn mẫu cho phép ước lượng một tổng thể tốt hơn một cuộc tổng điều tra dân số thực tế, mà về mặt lí thuyết là đầy đủ nhưng khó thực hiện trong thực tiễn. Tất nhiên, kết quả của điều tra là “không chắc chắn” nhưng đi kèm với những “khoảng tin cậy” được tính từ lí thuyết toán học về xác suất. Nhờ thế, ước lượng không chắc chắn này là “không chệch” (không có sai lầm có hệ thống) trong lúc cuộc tổng điều tra dân số, trên nguyên tắc là đầy đủ, có thể bị “chệch” nhiều, nghĩa là hoàn toàn sai!
  Tổng điều tra có thể bị chệch vì, khi tính đến cách thu thập thông tin, một số khu phố nghèo, nơi thường tập trung người da màu, rất khó tiếp cận và do đó không được điều tra tốt. Trong lúc phương pháp chọn mẫu (rút thăm các hộ) cho phép nhắc nhở nhiều lần đối tượng điều tra và do đó việc thu thập thông tin được chăm chút hơn. Lập luận của Census Bureau ủng hộ phương pháp của mình tập trung vào luận chứng trên. Nhưng như thế là không tính đến thái độ tuân thủ hình thức luật pháp của các dân biểu cộng hòa, chiếm đa số ở Quốc hội, khi họ viện dẫn lời văn của Hiến pháp 1787 và ý tưởng đếm con số thực tế để đâm đơn kiện vụ án trên. Phương pháp chọn mẫu, mà theo định nghĩa không đưa đến việc đếm con số thực tế, có hợp hiến không?
Các sử gia thuộc nhóm làm việc do Margo Anderson và Stephen Fienberg tập hợp phải trả lời hai câu hỏi. Vào năm 1787, phương pháp điều tra chọn mẫu đã có chưa? Và nếu phương pháp này đã ra đời, liệu có hay không khả năng là các tác giả của văn bản tạo lập nền dân chủ Mĩ biết đến phương pháp ấy? Trong số những tác giả này, Jefferson từng là đại sứ của nền cộng hòa non trẻ tại Pháp trong những năm cuối của Chế độ cũ. Thế mà trong những năm 1780, Louis XVI đã đặt vấn đề dân số nước Pháp, vào một thời mà dường như không thể tiến hành tổng điều tra đầy đủ các thần dân của nhà vua.
Một giải pháp cho vấn đề này được nhà toán học Laplace trình bày trước Viện hàn lâm khoa học ngày 30 tháng mười một năm 1785. Giải pháp dựa trên sự kiện sau: nếu toàn bộ dân số không biết được là bao nhiêu người thì ngược lại, con số sinh (thực ra là con số rửa tội) hằng năm được biết rõ, dựa vào sổ đăng kí ở nhà thờ xứ ghi chép số rửa tội, hôn nhân và mai táng, ít nhất kể từ thế kỉ XVII. Bởi thế Laplace giả định rằng tỉ số giữa dân số và số sinh là một hằng số, được ông gọi là số nhân sinh sản. Chính số nhân sinh sản này được ông đo gián tiếp bằng một phương pháp chọn mẫu tương tự với các cuộc điều tra chọn mẫu hiện đại của chúng ta, cho dù lúc bấy giờ chưa có thuật ngữ này. Nhằm làm việc đó, ông chọn một “mẫu” gồm vài giáo xứ để tiến hành tổng điều tra đầy đủ mà các kết quả đem so với số sinh trong một năm cũng của các giáo xứ ấy cho phép ước lượng “số nhân” nổi tiếng, con số này gần với 26 (tức một tỉ suất sinh sản 3,85 %). Tiếp đó chỉ cần nhân con số sinh sản của cả vương quốc, khoảng một triệu, một con số đã biết được, tức với 26 để suy ra ước lượng toàn dân số là khoảng 26 triệu người. Nhưng không chỉ có thế: Laplace còn ước lượng “sai số” do việc chỉ đo trực tiếp dân số của một phần nhỏ vương quốc để từ đó ngoại suy ra các kết quả, bằng lí thuyết xác suất gọi là “rút thăm trong một hũ Bernouilli”. Điều này cho phép ông trả lời nhà vua bằng những khái niệm khoảng tin cậy (cái “fourchette” nổi tiếng* trong biệt ngữ các viện điều tra chọn mẫu đương đại) hay trong ngôn ngữ thời bấy giờ là “sai lầm đáng ngại”. Do sai số này phụ thuộc vào cỡ của mẫu nên ngược lại ta có thể tính kích cỡ cần thiết để đạt một độ chính xác được chọn trước. Như vậy ta thấy rằng phần chủ yếu của lí thuyết về điều tra chọn mẫu đã được công thức hóa hai năm trước 1787, thời điểm ra đời của Hiến pháp Mĩ!
Thomas Jefferson (1743-1826)
Phần còn lại của câu chuyện mang nét truyện trinh thám hơn; có khả năng Jefferson, lúc bấy giờ đang ở Paris, gặp gỡ Laplace và như thế biết đến các công trình của nhà toán học không? Nếu câu trả lời là có thì điều này có thể cung cấp một “evidence” (yếu tố chứng cứ, theo nghĩa của luật Anh) trong phiên tòa.
Mặt khác, luận chứng trên có thể được bên này hay bên kia trong vụ kiện vận dụng, tùy theo đánh giá rằng phương pháp được giả định là đã được biết đến thời ấy có bị rõ ràng loại trừ bởi cụm từ “đếm con số thực tế” hay không. Nhóm làm việc đánh giá ít có khả năng có sự gặp gỡ Jefferson-Laplace trong thời gian từ 1785 đến 1787. Sự pha trộn giữa tính duy khoa học và tính hình thức pháp lí là một đặc thù Mĩ: các “chuyên gia” được các lawyer (luật sư) bảo vệ người khiếu kiện mời, rồi trình bày của họ được diễn dịch lại trong ngôn ngữ pháp luật, điều này khiến cho người không am hiểu tạo nên những chạm mạch đôi lúc đáng ngạc nhiên, như trong trường hợp này là giữa tính giao lưu của các phòng tiếp khách thuộc giới thượng lưu Paris ở cuối thế kỉ XVIII và thước đo dân số trong các khu biệt lập của người da đen trong trung tâm các thành phố Mĩ cuối thế kỉ XX. Nhưng vượt lên tính giai thoại, lịch sử của vai trò các cuộc điều tra chọn mẫu trong thống kê chính thức bộc lộ tiến hóa của những cách tư duy về vai trò của con số trong đời sống
Pierre Simon de Laplace
xã hội. Thật vậy, phương pháp do Laplace dề xuất năm 1785 sau đó bị bài bác suốt thế kỉ XIX và chỉ xuất hiện trở lại ở Na Uy trong những năm 1890. Thế mà, có thể thuật lại cuộc hồi sinh này theo hai cách, theo quan điểm của lịch sử các khoa học hay theo quan điểm của lịch sử về Nhà nước. Cách kể thứ nhất bao gồm Laplace, “số nhân” và “sai lầm đáng ngại” của ông ấy bằng những khái niệm xác suất. Việc phát minh lại là nhờ Anders Kiaer, nhà thống kê Đan Mạch năm 1895 trình bày (bằng tiếng Pháp) trước các nhà bác học do Viện quốc tế thống kê tập hợp một phương pháp đo các biến xã hội-kinh tế (thu nhập, một số chi tiêu, quy mô các nông trại …) bằng một cuộc điều tra trên mẫu, gọi là “đếm số đại diện”. Trình bày của ông không có biện minh mang tính xác suất, nhưng việc chọn mẫu là thuộc kiểu “lựa chọn có lập luận”, tương tự với “phương pháp quota” được các công ti điều tra ngày nay sử dụng, trong đó mẫu được xây dựng bằng cách gò nó trên một cấu trúc xã hội-dân số tiên nghiệm, xuất phát từ những cuộc tổng điều tra dân số (giới tính, tuổi, thành phần xã hội). “Kiểm định hiệu lực” được cung cấp bằng việc so sánh các độ đo trên một vài biến chung của, một mặt, cuộc điều tra chọn mẫu và mặt khác, của một cuộc tổng điều tra đầy đủ. Kiaer đánh giá các khác biệt là khá nhỏ để đảm bảo tính đúng đắn của độ đo các biến khác không có mặt trong cuộc tổng điều tra.
Tuy nhiên, năm 1901, nhà kinh tế Đức Ladislaus von Bortkiewicz phê phán cách biện minh trên. Bằng một lập luận xác suất, ông chỉ ra rằng những khác biệt giữa các kết quả của việc đếm số đại diện và của cuộc tổng điều tra đầy đủ không phải là không đáng kể như Kiaer nói vì những khác biệt này, nói như ngày nay, là “có ý nghĩa” (thống kê – ND). Trước phê phán có vẻ mạnh bạo này, Kiaer, cũng như không có nhà thống kê nào khác, không đáp trả: luận chứng xác suất dường như rơi vào chân không. Thời buổi chưa chín muồi cho việc toán học hóa xác suất thống kê chính thức. Điều này sẽ chỉ xảy ra trong những năm 1920 ở Liên Xô và 1930 ở Hoa kì, cho thống kê nông nghiệp và thống kê thất nghiệp, tiếp theo các công trình của người Nga Alexandre Kovalevski và người Ba Lan Jerzy Neyman. Năm 1936, kĩ thuật điều tra chọn mẫu đột phá trên mặt trận thông tin đại chúng trong một lĩnh vực khác, lĩnh vực các cuộc điều tra chọn mẫu trước bầu cử, với những cuộc điều tra dư luận của George Gallup. Sự tường thuật câu chuyện từ nay nổi tiếng này, như được Jean Stoetzel kể lại năm 1938 ở Pháp, nói đến một cuộc điều tra của Gallup trên một mẫu ngẫu nhiên, trước cuộc bầu tổng thống Hoa Kì năm 1936, đã dự báo đúng thắng lợi của Roosevelt trong lúc một tạp chỉ phỏng vấn độc giả của mình mà không chọn mẫu và với một số lớn hơn người trả lời đã dự báo thắng lợi của đối thủ thuộc đảng cộng hòa của ông ấy, và sau đó tạp chí này đã phá sản!
Chính những cuộc điều tra dư luận này đã đại chúng hóa phương pháp đến độ ngày nay thuật ngữ “điều tra chọn mẫu” đối với nhiều người đồng nghĩa với “điều tra dư luận” (trước một cuộc bầu, một số nhà báo còn kì lạ nói đến “điều tra chọn mẫu trên quy mô thật”). Đây là một sự chuyển dịch ngữ nghĩa vì thuật ngữ này chỉ một cách đo một đại lượng từ một mẫu, tiếp đến nội suy độ đo này cho toàn bộ tổng thể, bất luận bản chất của biến được nghiên cứu là thất nghiệp hay dự định bầu phiếu. Như vậy lịch sử sự tái sinh của các cuộc điều tra chọn mẫu thường được kể như sau: theo quan điểm của sự có mặt hay vắng mặt của luận chứng xác suất bằng ngôn ngữ của “công cụ chứng cứ” được nhà thống kê hiện đại ưa thích. Nhưng lịch sử này còn có một vế khác, bên phía lịch sử của Nhà nước, bằng ngôn ngữ của “công cụ phối hợp” được nhà xã hội học quan tâm. Trong thế kỉ XIX, phương pháp điều tra trên mẫu, như phương pháp của Laplace bị bác bỏ trong đà sự bác bỏ chung hơn những thao tác điêu luyện của các nhà số học chính trị của thế kỉ XIX. Các tác giả này bị tố cáo tái lập, bằng những số nhân khéo léo, cả một xã hội hay một nền kinh tế chỉ từ vài thông tin manh mún, như nhà cổ sinh vật học tái hiện lại một con khủng long từ một xương chày có nguồn gốc đáng ngờ. Khi nhà thống kê nổi tiếng người Bỉ Alphonse Quetelet, vào khoảng 1830, bắt đầu ủng hộ sự thành lập những “cơ quan thống kê chính thức”, những kiểu làm độc đáo trên không còn được chấp nhận nữa. Vì chúng liên quan đến tính nghiêm túc của Nhà nước và khoa học, và như thế là quá lớn. Duy chỉ các cuộc tổng điều tra đầy đủ mới có thể đặt cơ sở cho tính chính đáng của “khoa học” mới. Ngay cả phép tính xác suất, trong phiên bản chủ quan bằng các khái niệm “mức độ tin tưởng” vốn còn được Laplace và Thomas Bayes vận dụng, được xem là không mấy chính thống. Duy chỉ phiên bản khách quan do Quetelet và khái niệm “con người trung bình” của tác giả này là được dung thứ, nhưng cuối cùng ít được sử dụng. Như vậy ta hiểu sự khó khăn của việc đưa trở vào lập luận xác suất khi bước sang thế kỉ XX.
Đọc bài tham luận của Kiaer trước Viện quốc tế thống kê năm 1895, ta đoán được điều làm cho phương pháp điều tra chọn mẫu có thể quay trở lại: đó là những cuộc tranh luận chung quanh các “đạo luật xã hội” đầu tiên, phác thảo của Nhà nước phúc lợi tương lai. Ngay từ những dòng đầu, Kiaier giải thích rằng cách đếm số đại diện của ông nhằm mục đích “làm rõ những vấn đề khác nhau liên quan đến dự án thành lập một quỹ hưu trí và bảo hiểm tàn phế và tuổi già”. Như vậy, thống kê kể từ thời Quetelet từng tách ra khỏi Nhà nước để mô tả (dưới tên gọi “thống kê đạo đức”) những quy luật của xã hội nói chung, nay quay trở về một Nhà nước, từ nay mang tính “thống kê”, nhưng với cái giá phải trả là sự chuyển dịch nghĩa của thuật ngữ này sang ý “ngẫu nhiên”, nghĩa là triển khai phép tính xác suất và “luật số lớn”. Đây cũng là ý tưởng của vật lí thống kê mới của James Clerk Maxwell và của các nhà bảo hiểm, một tác nhân khác của lịch sử thống kê cho tới lúc bấy giờ còn đứng ngoài bộ trường thiên tiểu thuyết này. Nếu, trên phương diện nhận thức, mô hình cái hũ Bernouilli là thiết yếu cho lập luận xác xuất thì mô hình ấy cũng có một diễn giải chính trị: các gia đình được chọn theo phương pháp mới đủ để có thể so sánh với nhau và có tính “tương đương” để cùng được nghiên cứu và đo đạc chung. Và chính Kiaier nhấn mạnh đến sự kiện sau: “Trong khi trước đây các cuộc điều tra về thu nhập, nhà ở, và những điều kiện khác về kinh tế và xã hội, không được mở rộng một cách tương tự cho tất cả các giai cấp của xã hội […] thì từ nay, ngay cả khi chỉ xem xét vấn đề công nhân thôi, ta phải so sánh tình cảnh kinh tế, xã hội, đạo đức của công nhân với các tình cảnh ấy của các giai cấp trung lưu và giàu có”. Trong thực tế, các nghiên cứu thống kê về bất bình đẳng xã hội theo các loại xã hội-nghề nghiệp sẽ được phát triển rộng rãi nhờ các cuộc điều tra chọn mẫu, nhưng mãi về sau này, kể từ những năm 1940. Sự phát triển này đi cùng với sự phát triển của những hình thức phân phối lại khác nhau của Nhà nước phúc lợi. Năm 1895, trình bày của Kiaer là rất mới. Không thể diễn tả tốt hơn giả thiết về tính so sánh dân chủ mà sự hình thành Nhà nước phúc lợi kéo theo, nghĩa là một nhà nước đảm bảo những quyền xã hội giống nhau cho tất cả mọi công dân. Thế mà, các nhà cải cách từ thiện trong thế kỉ XIX, vốn là những nhà điều tra “chuyên khảo” như Villermé hay Le Play với những cuộc điều tra tập trung duy nhất vào người nghèo, không thể hình dung được giả thiết này. Người quan sát (tư sản) và người được quan sát (người nghèo) lúc bấy giờ thuộc về những hành tinh khác nhau trong khi, kể từ Kiaer, rồi sau đó kể từ Neyman, mọi người được tập hợp chung trong cùng một “hũ”, dù đó là hũ Bernouilli hay hũ của phổ thông đầu phiếu.
Do đó việc được công nhận hiệu lực về mặt khoa học, trong khía cạnh “công cụ chứng cứ” là chưa đủ, như điều được Neyman làm năm 1934. Công cụ còn phải được công nhận hiệu lực về mặt xã hội để có thể đóng vai trò của một “công cụ phối hợp”, nghĩa là như một ngôn ngữ chung được tất cả các tác nhân xã hội chấp nhận. Ta đã thấy một ví dụ a contrario, với những tranh luận gần đây ở Hoa Kì, do dự án của Census Bureau chỉnh sửa những ước lượng thấp của cuộc tổng điều tra dân số bằng những phương pháp điều tra xác suất.
Sự va chạm giữa những vấn đề tổng điều tra các khu vực nghèo với một cách đọc theo từng chữ lời văn của Hiến pháp 1787 làm nổi lên lại, trong khuôn khổ của những cuộc tranh luận chính trị-pháp lí ở Mĩ, những phản bác, mà ta có thể nghĩ là đã biến mất từ một thế kỉ, đối với phương pháp điều tra chọn mẫu. Như vậy, ở mỗi giai đoạn lịch sử, hai khía cạnh khác nhau của luận cứ thống kê được kết hợp một cách đặc biệt. Khía cạnh khoa học là khía cạnh của công cụ chứng cứ, quen thuộc với các nhà thống kê được đào tạo theo trường phái Neyman. Khía cạnh chính trị là khía cạnh của công cụ phối hợp được nhà xã hội học và chính trị học quan tâm. Chính vì thế mà ta không thể tách biệt lịch sử các khoa học và lịch sử Nhà nước, và chính sự kết hợp hai lịch sử này cung cấp hương vị và chất kích thích cho hai bộ môn ấy.            
Nguyễn Đôn Phước dịch.
 Nguồn: “Peut-on faire confiance aux sondages ?” của Alain Desrosières trong Lionel  Larqué và Dominique Pestre, Les sciences, Va nous regarde. Histoires surprenantes de nos rapports aux sciences et aux techniques, Paris, La Découverte, 2013, trang 131-138.

* “fourchette” trong tiếng Pháp có nghĩa là cái nĩa, ở đây là giá trị của hai cực mà dự báo hay ước lượng được cho là nằm trong khoảng hai cực ấy (ND).
Print Friendly and PDF