25.10.19

Mười giới hạn của phương pháp Duflo


MƯỜI GIỚI HẠN CỦA PHƯƠNG PHÁP DUFLO
Agnès Labrousse và Arthur Jatteau, hai nhà kinh tế nghiên cứu các thử nghiệm ngẫu nhiên, giải thích vì sao phải thận trọng với các cuộc thử nghiệm này.
Abhijit Banerjee (1961-)
Michael Kremer (1964-)
Việc trao giải kinh tế học của Ngân hàng Thuỵ Điển cho Abhijit Banerjee, Esther Duflo và Michaël Kremer thổi một ngọn gió hào hứng. Trao giải cho một phụ nữ, hơn thế nữa là một phụ nữ trẻ tuổi hơn tuổi trung bình của các khôi nguyên là một điều tuyệt vời vì ban giám khảo thường dè sẻn trên vấn đề này: đây là lần thứ hai trong vòng năm mươi năm qua. Đã thế, phần thưởng này đánh dấu một bước ngoặt thực nghiệm của kinh tế học thống trị mà ta có thể chào mừng. Cuối cùng, vấn đề nghèo khó – chủ đề nghiên cứu của ba nhà kinh tế này – quay trở lại đứng hàng đầu. Một điều mà ta chỉ có thể lấy làm vui mừng.
Các công trình của ba khôi nguyên nhắm vào những lĩnh vực cực kì khác nhau (dinh dưỡng, giáo dục, tiếp cận tín dụng, v.v.). Điểm chung của các công trình này là một phương pháp được họ mạnh mẽ góp phần đại chúng hoá và được Uỷ ban của Ngân hàng Thuỵ Điển đón nhận như là biện minh cho việc trao giải: các thử nghiệm ngẫu nhiên. Vậy các thử nghiệm này là gì?
Giống như các cuộc thử nghiệm lâm sàng được “ngẫu nhiên hoá”, người ta chia một tổng thể thành hai nhóm, được xác định bằng việc chọn ngẫu nhiên nhằm bảo đảm tính so sánh được – một khi số cá thể cấu thành mẫu là đủ nhiều thì có nhiều khả năng có được những nhóm giống nhau. Từ đó, để đo tác dụng của một “liệu pháp”, chỉ cần điều trị một nhóm duy nhất (gọi là nhóm kiểm định) và không dùng bất kì liệu pháp nào đối với nhóm kia (gọi là nhóm đối chứng). Sau một khoảng thời gian, so sánh hai nhóm cho phép xác định tác dụng của liệu pháp.
Phương pháp này, theo những người ủng hộ nó, các nhà randomista, có tham vọng cách mạng hoá các khoa học kinh tế và chính sách xã hội, đưa chúng thoát khỏi vòng kim cô ý thức hệ để đưa vào cõi thực tiễn và hiệu quả. Bằng cách kiểm định “điều gì là khả thi” với một sự chặt chẽ chưa từng có, kinh tế học phát triển sẽ bước vào thời đại của khoa học.
Tuy nhiên, một khi chú ý đến việc triển khai trong thực tiễn các thử nghiệm ngẫu nhiên trong kinh tế thì cần phải điều chỉnh nhiều những sắc thái của diễn ngôn này về tính mới mẻ và khoa học của phương pháp. Các thử nghiệm ngẫu nhiên có nhiều giới hạn. Chúng tôi sẽ đề cập mười trong số đó, mà không có tham vọng bao quát đầy đủ vấn đề[1].
1.  Phương pháp không có gì mới lắm
Ronald Fisher (1890-1962)
Khi ta giữ một độ lùi để xem lại lịch sử dài của những thử nghiệm ngẫu nhiên thì điều hiện lên là chính những nhà tâm lí học đã có vai trò tiên phong trong sự phát triển của những thử nghiệm ngẫu nhiên, trước cả những thử nghiệm của Ronald Fisher trong nông học trong những năm 1930 và trước sự đăng quang của những thử nghiệm lâm sàng trong y học kể từ những năm 1940. Ngay từ những năm 1920, việc ngẫu nhiên hoá đã được tiến hành trong các khoa học xã hội trước khi được biện minh về mặt thống kê hay trước khi các thử nghiệm lâm sàng làm tăng tính chính đáng khoa học của phương pháp này.
Nếu các thử nghiệm ngẫu nhiên không phải là điều gì mới trong các khoa học xã hội thì trong kinh tế học cũng thế. Ngay từ năm 1968, sự xuất hiện của chúng được chú ý trong kinh tế học với việc khởi động New Jersey Income Maintenance Experiment dưới sự thúc đẩy của một nghiên cứu sinh tiến sĩ ở MIT, Heather Ross. Nhiều nữ nghiên cứu sinh tiến sĩ sẽ tiếp nối, với những ngân sách quan trọng hơn, đến độ có người nói đến thời đại vàng của đánh giá ngẫu nhiên. Thời trang sẽ quay trở lại trong những năm 1980.
Ba mươi năm sau, một nữ nghiên cứu sinh tiến sĩ khác về kinh tế học, Esther Duflo sẽ góp phần đưa chúng thành siêu sao – và thành công đến cỡ nào! Nhưng làn sóng mới những thử nghiệm ngẫu nhiên này gần như không biết đến những thành quả về mặt phương pháp luận, đặc biệt về các giới hạn của chúng, mà làn sóng đầu tiên đã sở đắc.
© REA
2.  Vấn đề tính chính xác của dữ liệu
Trên giấy tờ, các thử nghiệm ngẫu nhiên có thể được giới thiệu như một điều bắt buộc để cô lập một cách chính xác tác động của một chương trình. Tuy nhiên, tuân thủ quy trình đòi hỏi những điều kiện vô cùng cứng nhắc khó hội tụ trong thực tiễn. Bị thử thách trên thực địa, các thử nghiệm ngẫu nhiên vấp phải nhiều vấn đề và phải cần đến những kế sách đẩy chúng xa khỏi sự thuần khiết của diễn ngôn về phương pháp luận của các nhà randomista: không chọn mẫu một cách ngẫu nhiên, sự dễ liên thông giữa các nhóm thẩm định và đối chứng, những vấn đề trầy trợt (nghĩa là sự bỏ cuộc của các thành viên các nhóm trong quá trình thử nghiệm) thường ảnh hưởng khác nhau đến các nhóm, sự can thiệp của một NGO trong một lĩnh vực gần có thể gây “nhiễm”... Những khó khăn và kế sách này không được đề cập hay bị giảm nhẹ trong các công bố hàn lâm vốn thường nêu bật tính chặt chẽ của phương pháp. Tuy không triệt tiêu lợi ích của phương pháp nhưng các khó khăn và kế sách này tra vấn tính ưu việt của phương pháp.
Thế mà các vấn đề trên không thuộc về những thử nghiệm được tiến hành tồi của vài con sâu làm rầu nồi canh: chúng mang tính cấu trúc. William Faulkner đã nghiên cứu kĩ ngọn cờ đầu của phong trào là thử nghiệm Progressa/Opportunidades của Mehico với quá trình chọn mẫu các nhóm là một tựa thử nghiệm, với hiện tượng trầy trợt rất mạnh và khác biệt có ý nghĩa thống kê giữa các nhóm kiểm định và đối chứng, và có thể làm rõ những dấu hiệu “lây nhiễm” quan trọng giữa các nhóm[2]. Quentin và Guérin cũng nhận thấy những vấn đề tương tự trong thử nghiệm Sky ở Campuchia do một êkíp nổi tiếng ở Berkeley tiến hành, Morvant Roux và các đồng tác giả làm rõ thêm vấn đề trong thử nghiệm ở Maroc về tín dụng nhỏ Al Amana do J-Pal triển khai. Cuối cùng, một cựu phụ tá của J-Pal nhấn mạnh là trong thực tiễn, các Randomized Controlled Trials (thử nghiệm ngẫu nhiên có kiểm soát) đã trở thành những Randomized Out of Control Trials (thử nghiệm ngẫu nhiên ngoài vòng kiểm soát)!
Khi các dữ liệu được những êkíp khác phân tích lại thì đôi lúc chúng cho ra những kết quả khác. Đó là trường hợp của thử nghiệm mẫu mực của J-Pal, thử nghiệm về thuốc tẩy giun, của Miguel và Kremer (khôi nguyên thứ ba). Cuộc thử nghiệm này dẫn đến việc phổ biến thuốc tẩy giun nhằm tăng sự có mặt của học sinh ở lớp học. Nó đã được các nhà dịch tễ học của London School of Hygiene and Tropical Medicine xem xét lại trong hai bài công bố trên Journal of International Epidemiology. Khi tính toán lại các dữ liệu, họ đã tìm ra nhiều điều mâu thuẫn. Và họ tìm ra kết quả là có một hiệu ứng gián tiếp nhỏ hơn hai lần (3,9%) của liệu pháp trên việc làm giảm sự vắng mặt của học sinh ở lớp, một hiệu ứng không có ý nghĩa thống kê. Thế mà hiệu ứng gián tiếp này là biện minh chính cho tính hiệu quả của các chương trình trên.
Cũng chính êkíp này chỉ ra những thiếu sót khác và sự có mặt của rủi ro cao có những thiên lệch. Đặc biệt êkíp nhấn mạnh việc khó xử khi quy việc sụt giảm của sự vắng mặt cho một hiệu ứng thuần tuý của thuốc tẩy giun vì liệu pháp này đi cùng với một chương trình cảnh báo những vấn đề sức khoẻ. Chương trình này có khả năng ở cội nguồn của hiệu ứng, một giả thiết khả tín khi trọng lượng và chiều cao của những đứa trẻ được điều trị không được cải thiện.
Trong trường hợp của thử nghiệm tín dụng nhỏ ở Al Amara, Maroc, việc lặp lại gần đây của thử nghiệm đặt lại vấn đề những kết quả do J-Pal công bố và cho thấy là chất lượng dữ liệu rất tồi tệ[3]. Như vậy tính hợp thức nội tại bị đặt thành nghi vấn, trong lúc đó vẫn là lập luận bán hàng chính của các nhà randomista.
3.   Khi các quá trình nhân quả trở thành những hộp đen
Angus Deaton (1945-)
Như Anton Deaton (ông cũng là khôi nguyên của giải thưởng của Ngân hàng Thuỵ Điển năm 2015) đã nhận xét, các thử nghiệm ngẫu nhiên có thể chỉ là một chương trình thành công hay không, nhưng không thể chỉ ra vì sao (và bằng cách nào) nó thành công. Vấn đề ở đây là phân biệt rõ sự khác nhau của những chứng cứ về tính hiệu quả, vốn liên quan đến tác động của một biện pháp, và những bằng chứng về tính nhân quả đưa ra ánh sáng những cơ chế dẫn đến sự tác động (hay không) của chương trình.
Lấy ví dụ một thử nghiệm ngẫu nhiên nhằm phân phối sách giáo khoa miễn phí cho học sinh. Chương trình này không thành công: nhóm kiểm định (được phân phối miễn phí) không đạt được những kết quả học tập tốt hơn nhóm đối chứng. Vì sao? Phải chăng vì sách không phù hợp với học sinh? Hay vì các giáo viên không được đào tạo việc dùng sách? Hay vì học sinh không biết cách sử dụng sách? Như ta thấy, có thể là vì nhiều nguyên do. Cách thực hành những thử nghiệm ngẫu nhiên của Esther Duflo và êkíp của bà không cho phép trả lời.
Thế mà đối với các chính trị gia hay những tác nhân xã hội là đối tượng đón nhận các kết quả của các cuộc thử nghiệm này thì làm lộ rõ các cơ chế nhân quả là một mục tiêu cũng quan trọng bằng việc chứng thực tính hiệu quả của chương trình. Chỉ như thế thì ta mới thật sự nắm bắt chuỗi nhưng hiệu ứng (chứ không chỉ kết quả cuối cùng) mà một chính sách công kéo theo. Trong trường hợp của ví dụ trên, có nhiều hướng có ích mở ra cho nhà hoạt định chính sách công: cải tiến tính sư phạm của sách giáo khoa, đào tạo giáo viên dùng sách hay giải thích cho học sinh cách dùng sách. Nhưng muốn làm được như thế thì những nhân tố khác nhau đó cần được làm rõ trước.
4.  Định lượng mà không có định tính là điêu tàn của giải thích nhân quả
Làm sao có thể giải thích là các nhà kinh tế thực hiện các thử nghiệm ngẫu nhiên lại ít được trang bị để nắm bắt sự vận động của các cơ chế nhân quả. Giả thiết có thể nêu là vì các nhà kinh tế này tự cách lí về mặt phương pháp luận với các bộ môn khác.
Thật vậy, chỉ có cách tiếp cận định lượng là nổi trội. Đối với Esther Duflo và các đồng nghiệp của bà, rõ ràng là tính khoa học của kinh tế học thể hiện qua việc sử dụng những “hard numbers” (“con số cứng”), tức là những con số chính xác mà các thử nghiệm thu được. Các phương pháp định tính bị phi chính đáng hoá và các nhà randomista chỉ sử dụng một phần các phương pháp này, điều này dẫn đến việc nắm bắt rất tương đối thực tế trên thực địa. Thế mà, để nắm bắt điều gì thật sự diễn ra trong một cuộc thử nghiệm ngẫu nhiên thì không gì hơn là “đi thực địa”, theo nghĩa mà các khoa học xã hội gán cho thuật ngữ này, tức là cho rằng bản thân thực địa cung cấp các tri thức, chứ không xem nó như một “sân chơi thống kê”.
Muốn làm được như vậy, ta có hai phương pháp chính được các khoa học xã hội biết rõ nhưng bị kinh tế học thống trị xem nhẹ: quan sát và trao đổi. Quan sát giúp nắm bắt tinh tế hơn bối cảnh và chính xác hơn diễn biến thật sự của thử nghiệm. “Liệu pháp” thật sự gồm những gì? Thử nghiệm diễn ra trong khuôn khổ và không khí nào? Đối thoại có khả năng làm tái hiện ý nghĩa mà các tác nhân gán cho những hành động và lời nói của họ, và đặc biệt là họ làm chủ hay không “liệu pháp”, và xem xét nó như thế nào, v.v.. Điều này cho phép thu được một mô tả tinh tế hơn là các bảng câu hỏi mà hầu hết các thử nghiệm ngẫu nhiên đều tự giới hạn vào.
Martin Ravallion (1952-)
Khi không có nghiên cứu định tính, các thử nghiệm có thể đưa đến những kiến giải không chắc đúng. Chuyên gia những vấn đề nghèo khó là nhà kinh tế Martin Ravallion nêu một ví dụ ấn tượng liên quan đến thử nghiệm Proemploi ở Mehico: “Những phiếu trợ cấp lương được phân phối ngẫu nhiên cho những cá nhân tham gia một chương trình hỗ trợ với điều kiện có nghĩa vụ lao động (workfare) với một nhóm đối chứng. Trên lí thuyết, tiền trợ cấp, bằng cách giảm chi phí lao động, phải làm cho việc tuyển dụng lao động hấp dẫn hơn. Thử nghiệm tự nhiên cho thấy là có một hiệu ứng tích cực. [...] Nhưng trong lúc theo dõi thử nghiệm, những cuộc trao đổi định tính với các doanh nghiệp và người lao động cho thấy là các phiếu trợ cấp, đối với số ít người lao động nhận được phiếu, có một giá trị chứng thực, như một kiểu “thư giới thiệu và gửi gắm” (ở cấp độ địa phương, không ai biết là các phiếu này được phân phối một cách ngẫu nhiên)”!
Trong thử nghiệm về tín dụng nhỏ ở Maroc, một nghiên cứu định tính độc lập đã cho thấy là tổ chức tín dụng nhỏ Al Amana được cảm nhận tuỳ theo vùng như là đồng nhất với Nhà nước trung ương, nguồn gốc của sự lo lắng ở nơi này, của sự bất hợp pháp ở nơi khác (“tiền của những đứa ăn cắp”), hay như một tổ chức từ thiện chứ không như một tổ chức cho vay. Hiểu được cảm nhận về tổ chức và cả những biểu trưng văn hoá của các tác nhân về tín dụng và nợ nần là cơ bản để nắm bắt vì sao và bằng cách nào một biện pháp thành công hay thất bại. Tất nhiên vấn đề ở đây không phải là đối lập định tính với định lượng nhưng là để cho thấy rằng việc coi nhẹ định tính và việc bị định lượng ám ảnh mà thường được Duflo và các đồng nghiệp của bà thể hiện khiến họ trở nên mù loà trước các quá trình nhân quả quan trọng.
5.  Kết quả các thử nghiệm phụ thuộc vào bối cảnh và khó chuyển dịch sang bối cảnh khác
Pascaline Dupas
Jessica Cohen
Một thử nghiệm ngẫu nhiên tất yếu nhắm vào một số tương đối giới hạn những cá thể (trường hợp tốt nhất là vài ngàn), trên một địa bàn nhất định, vào một thời kì nhất định... Do đó vấn đề đặt ra – xuyên suốt tất cả các khoa học xã hội – là việc khái quát hoá những kết luận mà ta có thể rút ra. Trong chừng mực ta có thể gặp lại các kết luận này trong một bối cảnh khác với bối cảnh mà ta đã thu được chúng? Ví dụ, thử nghiệm do Jessica Cohen và Pascaline Dupas tiến hành về việc phân phối màn chống muỗi đã cho những kết quả tích cực với mẫu được xem xét, nằm trong một vùng nhất định của Kenya, với một đối tượng đặc biệt (phụ nữ mang thai). Nhưng điều gì xảy ra năm năm sau? Trong một vùng khác của Kenya? Trong một nước khác? Đặt vấn đề này ra là tự hỏi rằng trong chừng mực nào những kết quả thu được trong một bối cảnh “đứng vững” được trong một bối cảnh khác: đó là điều được gọi là tính hợp thức ngoại tại.
Thế mà tính hợp thức ngoại tại là một giới hạn nghiêm trọng đối với các thử nghiệm ngẫu nhiên, vả lại đây không chỉ là giới hạn riêng của các thử nghiệm này. Liên quan đến ví dụ về màn chống muỗi, Dani Rodrik nhận xét là, một cách chặt chẽ, không có lí do gì để nghĩ rằng có thể khái quát hoá các kết quả này. Từ đó, đặt ra câu hỏi về lợi ích của kiểu phương pháp này và chúng có thể cho ta biết được những gì.
Dani Rodrik (1957-)
Trước phản bác này, các nhà randomista đáp trả bằng ý tưởng lặp lại nghiên cứu. Đó là lặp lại cùng một nghiên cứu trong một bối cảnh khác. Nếu một ý tưởng như thế có vẻ thú vị thì nó không thể nào là một phép mầu nhiệm cho vấn đề tính hợp thức ngoại tại. Thật vậy, nếu ta chấp nhận rằng việc lặp lại nghiên cứu về màn chống muỗi diễn ra trong một nước khác thì điều này cho ta biết được gì về một nước thứ ba? Việc lặp lại nghiên cứu có thể làm nổi lên những trực giác về tiềm năng của việc khái quát hoá nhưng không cung cấp một câu trả lời dứt điểm. Hơn nữa, các nhà randomista có xu hướng giả định trước rằng người nghèo có những hành vi đặc thù (một tính duy lí của người nghèo biện minh cho một kinh tế học về người nghèo) và tự nhiên hoá các hành vi này. Như vậy chỉ cần triển khai những biện pháp động viên tốt và những chiến lược tốt cho người nghèo ở khắp nơi trên thế giới. Giả định trước này đáng để tra vấn do có một sự đa dạng lớn về hành vi và logic của người nghèo ở phương Bắc lẫn ở phương Nam.
Người ta có thể trách các nhà randomista đã phi bối cảnh hoá quá đáng các thử nghiệm ngẫu nhiên, bứng đi gốc rễ của những dữ liệu của các thử nghiệm này, giống như nhiều nhà kinh tế mainstream (thuộc dòng chủ lưu - ND). Thế mà sự lồng kết trong những bối cảnh xã hội, văn hoá hay sinh-vật lí đặc thù là một yếu tố then chốt cho việc thấu hiểu các quá trình đang vận động và việc kiến giải những kết quả thực nghiệm.
6.  Một tính chặt chẽ yếu hơn so với các thử nghiệm lâm sàng
Khi những thực nghiệm lâm sàng ngẫu nhiên tiến hành trong y học đòi hỏi trong phần lớn các trường hợp việc phân phối một giả dược cho nhóm đối chứng thì điều này tế nhị hơn với những thử nghiệm ngẫu nhiên trong các khoa học xã hội. Nếu ta muốn đo hiệu ứng của việc phân phối sách giáo khoa cho học sinh hay của các khoản cho vay ưu đãi những doanh nghiệp nhỏ thì có thể tìm ra những giả dược gì? Ta không thể tạo ra sách giáo khoa giả hay phân phối những khoản cho vay giả!
Việc gần như không có giả dược trong khuôn khổ của những thử nghiệm ngẫu nhiên phải được xem xét một cách nghiêm túc vì điều này có thể giảm bớt hiệu lực của phương pháp. Hơn nữa, có thể là nội việc các cá nhân tham gia vào thử nghiệm cũng làm họ thay đổi hành vi của mình. Đó là điều mà các khoa học xã hội gọi là “hiệu ứng Hawthorne”. Đặc biệt một bài viết đã tìm cách chứng minh hiệu ứng này và kết luận rằng còn lâu hiệu ứng mới là không đáng kể.
Một điều kiện tiên quyết khác trong các thử nghiệm lâm sàng cũng không có mặt trong các thử nghiệm trong kinh tế học: người mù kép. Trong y học, chuẩn mực là người tham gia thử nghiệm không biết mình thuộc nhóm nào (kiểm định hay đối chứng). Điều này cho phép tránh một số thiên lệch trong hành vi (ví dụ, có thể muốn tham gia tích cực hay không). Hơn nữa thông lệ là nhân viên y tế và cận y tế liên quan đến thử nghiệm không biết cương vị của bệnh nhân mà mình chăm sóc. Điều này để tránh nhân viên bị ảnh hưởng vì điều thường xảy ra là người này mong muốn có những kết quả thuyết phục và do đó, có thể một cách vô ý thức, chú ý hơn đến nhóm kiểm định. Trong thực tế, với J-Pal, đôi lúc ta chứng kiến sự lẫn lộn vai trò của những người tiếp xúc với các đối tượng của cuộc thử nghiệm: họ là những nhà điều tra trung lập hay là những người lao động trong lĩnh vực nhân đạo thúc đẩy sự thành công của sự can thiệp? Ranh giới giữa hai vai trò này rất dễ thẩm thấu và có thể dễ dàng vượt qua khi ta biết cương vị (thuộc nhóm kiểm định hay nhóm đối chứng) của người đối diện.
7.  Từ vĩ mô đến vi mô, các thử nghiệm ngẫu nhiên đều câm lặng trước những vấn đề then chốt


Hãy lấy cuốn Poor Economics của Banerjee và Duflo, tác phẩm tổng hợp toàn bộ những thử nghiệm ngẫu nhiên do J-Pal tiến hành trong tất cả các lĩnh vực. Phân tích văn bản cho thấy rõ một loạt những từ không có mặt trong cuốn sách này. Ví dụ, không có những vấn đề liên quan đến các chính sách và các luồng kinh tế vĩ mô, cũng như không có những vấn đề liên quan đến môi trường, các bất bình đẳng và quan hệ Bắc-Nam, tuy đây là những vấn đề then chốt. Tương tự như thế đối với các vấn đề kinh tế trung mô (chuỗi giá trị, phát triển ngành và lãnh thổ, v.v.).
Đó không phải là điều ngạc nhiên vì các chủ đề này không phải là đối tượng của những thử nghiệm ngẫu nhiên: không thể kiểm định bằng thực nghiệm một chính sách điều chỉnh cơ cấu, những hiệu ứng tái phân phối của một chính sách giảm bất bình đẳng, một chính sách công nghiệp hay sự phát triển của một cluster. Cuối cùng, các thử nghiệm ngẫu nhiên không nói được gì nhiều cho chúng ta về, ví dụ, sự phát triển (xấu) của Trung Quốc, một đất nước do quy mô của nó đã đóng góp lớn vào việc giảm nghèo khó trên thế giới. Các thử nghiệm này cũng im lặng về những nguyên nhân sâu sắc của cuộc khủng hoảng tài chính năm 2007-2008 cũng như những hậu quả của nó trên các hộ nghèo. Nhưng đó cũng là trường hợp đối với những vấn đề kinh tế vi mô quan trọng: những vấn đề liên quan đến tổ chức sản xuất và doanh nghiệp, những cơ năng đổi mới và quá trình tập huấn ở cấp độ kinh tế vi mô. Các thử nghiệm ngẫu nhiên không thích hợp để nắm bắt những động thái của các luồng như là những quá trình phức tạp và đa nhân tố.
8.  Một phương pháp xác đáng chỉ đối với những biện pháp đơn giản
Các thử nghiệm ngẫu nhiên chỉ có khả năng đánh giá những biện pháp đơn giản, chứ không có khả năng đánh giá những chương trình hành động xã hội thật sự, kết hợp nhiều biện pháp khác nhau. Điều được kiểm định không phải là các chính sách mà là những biện pháp cụ thể, thường rất khác với những chương trình do chính quyền hay các NGO xây dựng, những chương trình mà hiệu quả thường là do sự kết hợp của nhiều yếu tố khác nhau.
Ví dụ trong lĩnh vực sức khoẻ, chính sự kết hợp những biện pháp tự củng cố, một cách tiếp cận tích hợp các hệ thống chăm sóc ở địa phương đã cho phép cải thiện đáng kể sức khoẻ của dân cư ở nông thôn[4]. Thế mà các thử nghiệm lâm sàng là một công cụ cô lập hiệu ứng thuần tuý của một hành động nhất định nhưng chúng không hay ít nắm bắt những tương tác của nhiều hành động khác nhau – một cách tương tự, các thử nghiệm này không thích hợp trong y học cho việc phân tích các tương tác của thuốc, ngoại trừ vài thử nghiệm lớn vô cùng tốn kém.
Khi không phải là những biện pháp nhỏ mà là những chương trình hơi phức tạp hơn được kiểm định (như trường hợp của tổ chức vi mô nhỏ ở vùng nông thôn Maroc) thì các thử nghiệm không giúp được gì nhiều. Thật vậy, ta không biết điều gì được thử nghiệm thật sự được kiểm định, đối tượng nào được nhắm đến và khó rút ra được những kết luận vững chắc. Quy trách nhiệm cho thất bại của chương trình Al Amana cho điều gì: cho quota ban đầu dành cho phụ nữ? cho việc cấp tín dụng cho các nhóm chứ không cho các cá nhân? cho lịch hoàn trả khoản vay sử dụng cho vùng đô thị vốn không mấy khớp với lịch sinh hoạt nông nghiệp? Hơn nữa việc thay đổi tổ chức trong quá trình thử nghiệm càng làm tăng thêm khó khăn.
Do đó, để vẫn có thể nói đến tính chặt chẽ, những thử nghiệm ngẫu nhiên phải giới hạn tính xác đáng ở những “chương trình đường hầm”. Bernard, Delarue và Naudet đã nghiên cứu kĩ các vấn đề này tại Cơ quan phát triển Pháp (AFD) và nêu như sau các điều kiện tiên quyết của việc ngẫu nhiên hoá: chương trình được kiểm định phải “(i) nhất quán với chuỗi nhân quả được giả định, (ii) một số ít những biện pháp đồng nhất và chính xác, (iii) một quá trình quản lí đã qua thử thách (iv) một chuỗi nhân quả ngắn và độc lập với những biến cố bên ngoài (v) những người thụ hưởng nhanh chóng làm chủ và ổn định trong thời gian kết quả của biện pháp (vi) những người thụ hưởng tham gia rộng rãi và ổn định trong thời gian (vii) một tập những hiệu ứng đo được trong ngắn và dài hạn bao phủ những khía cạnh chính của biện pháp.
Do nhiều hành động xã hội ở cách xa các điều kiện tiên quyết trên nên trường xác đáng của những thử nghiệm ngẫu nhiên cuối cùng rất bó hẹp, kể cả ở cấp độ vi mô. Đó là lí do vì sao AFD, sau thời kì phấn khởi ban đầu đối với các thử nghiệm ngẫu nhiên và sau khi thí nghiệm chúng trên thực địa (Al Amana là một trong các kiểm định này) đã quyết định từ bỏ chúng. Một nhân tố khác được tính đến là chi phí, thường cao, của các cuộc thử nghiệm.
9.  Thường là rất tốn kém
Chi phí thay đổi từ thử nghiệm ngẫu nhiên này sang thử nghiệm ngẫu nhiên khác, từ vài chục ngàn đến nhiều triệu euro cho những thử nghiệm tốn kém nhất, như đối với thử nghiệm về bằng lái xe. Còn phải đồng ý với nhau là “chi phí” gồm những gì. Phải chăng chỉ tính duy nhất chi phí của liệu pháp hay còn tính cả chi phí của tất cả những người tham gia vào quá trình đánh giá? Theo cách tính thứ hai thì chi phí của các thử nghiệm ngẫu nhiên cao hơn rất nhiều những gì thường được trình bày.
Điều này dẫn đến những tình thế đôi lúc phi lí khi việc đánh giá là tốn tiền hơn cả “liệu pháp”! Đến độ là sẽ có đủ tiền để phân phối rộng rãi hơn liệu pháp. Thế mà nếu chiều hướng của tác động của liệu pháp không cần phải bàn luận (trường hợp phân phối thuốc hay vắc xin hay việc tiếp cận trường học gần nhà), ta cũng có thể đặt vấn đề những biện minh đạo đức cho việc cố tình không cho một bộ phận dân số được hưởng liệu pháp khi không có sự liên quan của chi phí. Ràng buộc về chi phí này còn có một hệ quả khác quan trọng: trong thực tiễn, các cuộc thử nghiệm thường diễn ra trong một thời gian hạn chế (từ 6 tháng đến 3 năm) trong khi hiệu ứng của một số chiến lược cần thời gian mới phát huy tác dụng hay bị hụt hơi sau thời gian phấn khởi ban đầu.
10.      Một lối gia trưởng kiểu mới
Các thử nghiệm ngẫu nhiên tập trung vào những mục tiêu trung gian được tiếng là phục vụ sự phát triển, như việc khuyến khích nông dân gia tăng sử dụng phân hoá học, vì việc đo các mục tiêu này là dễ khách quan hoá. Như vậy việc kiểm định nhắm vào những biện pháp khác nhau thúc đẩy nông dân (Kenya) tăng việc sử dụng phân hoá học[5].
Người ta giả định là việc gia tăng sử dụng phân bón sẽ là một nhân tố phát triển đối với nông dân (mục tiêu cuối cùng) thông qua sự gia tăng của sản lượng, bản thân sự gia tăng năng suất này sẽ được thể hiện bằng một gia tăng của thu nhập. Thế mà không có quan hệ máy móc nào giữa việc hoàn thành mục tiêu trung gian và việc hoàn thành mục tiêu cuối cùng: ví dụ, gia tăng của cung sản phẩm nông nghiệp có thể được thể hiện bằng một sụt giảm của giá cả và do đó của thu nhập nông nghiệp, việc nhập khẩu những đầu vào tốn kém có thể sẽ là nguồn gốc của những mất cân bằng kinh tế và của sự phụ thuộc, việc sử dụng với cường độ cao phân bón có thể góp phần làm xuống cấp cân bằng vi sinh của đất đai.
Tính xác đáng của những mục tiêu trung gian không được tranh luận đầy đủ: chúng được (các chuyên gia) trình bày như là cho trước và những lựa chọn khác không được bàn luận (như các phương pháp nông sinh thái cùng pha với những thực tiễn nông học của người nông dân). Điều này thể hiện một lối gia trưởng nudge (cú hích) khi chính các chuyên gia biết tốt hơn các tác nhân có liên quan điều gì là tốt cho họ. Hiện tượng này được củng cố bằng việc những siêu quỹ như quỹ của Bill và Melinda Gates tài trợ cho J-Pal. Các quỹ này có một sự tin cậy tuyệt đối vào những giải pháp công nghệ, vào việc sử dụng phân bón hay GMO (sinh vật biến đổi gen) ở châu Phi mà không hình dung những đối chọn khác.
Vấn đề tính xác đáng của những “liệu pháp” đối với các “chủ thể” của các cuộc thử nghiệm là một vấn đề mấu chốt thường bị gạt sang một bên. Việc tìm kiếm những bài đăng được trên các tạp chí được xếp hạng tốt nhất có thể dẫn đến việc ưu tiên cho những liệu pháp “độc đáo”, “chưa từng có” có nhiều khả năng được các nhà xuất bản các tạp chí này lưu ý hơn. Như vậy xuất hiện một độ lệch về công bố trong việc lựa chọn các liệu pháp. Qua đó các tạp chí lớn (Mĩ) có thể gián tiếp góp phần chọn lọc những biện pháp được áp dụng cho dân chúng ở các địa phương của phương Nam.
Cần tránh hội chứng chiếc búa
Abraham Maslow (1908-1970)
Elinor Ostrom (1933-2012)
Như Martin Ravallion ghi nhận: “đối với J-Pal, các thử nghiệm ngẫu nhiên không chỉ đơn giản là đỉnh cao trong thực đơn những phương pháp được chấp nhận, vì không có gì khác trong thực đơn.”!
Sẽ là đáng tiếc nếu ngọn triều tsumani thực nghiệm mà ta đang chứng kiến ngày nay trong kinh tế học phát triển cuốn theo với nó những phương pháp đã được thử thách trong các khoa học xã hội và xem thường các công trình của nhiều thập niên dành cho các vấn đề này, viện cớ rằng tất cả các công trình này, theo định nghĩa, là không chặt chẽ bằng.
Agnès Labrousse
Arthur Jatteau
Những chủ đề trung tâm không thuận tiện cho các thử nghiệm sẽ bị bỏ hoang, những chủ đề khác sẽ được đề cập qua lăng kính ngẫu nhiên hoá một cách nông cạn, phiến diện và hẹp hòi. Abraham Maslow từng cảnh báo: “Nếu bạn có một công cụ duy nhất là chiếc búa, thì tất cả, cuối cùng, sẽ giống một cái đinh”. Và điều này có thể gây đau đớn. Trong kinh tế học, cũng như trong các bộ môn khác, về mặt phương pháp luận không có thuốc trị bách bệnh. Đó là điều mà nhà thực hành lớn các phương pháp hỗn hợp và nghiên cứu liên ngành, người phụ nữ đầu tiên nhận được giải của Ngân hàng Thuỵ Điển đã xuất sắc chỉ ra: Elinor Ostrom.
Arthur Jatteau
Phó giáo sư kinh tế học và xã hội học (Clersé, Đại học Lille)
Agnès Labrousse
Phó giáo sư kinh tế học (CRIISEA, Đại học Picardie-Jules Verne
Nguyễn Đôn Phước dịch
Nguồn:Les 10 limites de la méthode Duflo”, Alternatives économiques, 18.10.2019
----
Có thể tham khảo:What randomization can and cannot do: the 2019 Nobel prize”, A Fine Theorem, October 17.2019




Chú thích:

[1] Đặc biệt, chúng tôi để sang một bên các vấn đề đạo đức, vốn đặc biệt gai góc.

[2] Faulkner, William N., “A critical analysis of a randomized controlled trial evaluation in Mexico: Norm, mistake or exemplar?”, Evaluation, 2014, vol. 20, n02, pp. 230-246.

[3] Bédécarrats, Florent, Isabelle Guérin, Solène Morvant-Roux và François Roubaud, “Estimating micro credit impact with low take-up, contamination and inconsistent data. A replication study of Crépon, Devoto, Duflo and Pariente (American Economic Journal: Applied Economics, 2015)”, International Journal for Re-Views in Empirical Economics, 2019, vol. 3, n027. Công trình lặp lại này được Crépon, Bruno, Florencia Devoto, Esther Duflo và William Pariente trả lời trong “Verifying the internal validity of a flagship RCT: A review of Crepon, Devoto, Duflo and Pariente: A Rejoinder”, Working Paper, 2019. Đến lượt các tác giả của thử nghiệm lặp lại trả lời và bảo lưu phần chính yếu của phê phán của họ: Bédécarrats, Florent, Isabelle Guérin, Solène Morvant-Roux và François Roubaud, “Verifying the internal validity of a flagship RCT: A review of Crepon, Devoto, Duflo and Pariente. Rebutting the Rebuttal”, Working Paper, 2019.

[4] Garchitorena, Andres, Megan Murray, Bethany Hedt-Gauthier, Paul Farmer và Mathew Bonds, “Reducing the knowledge gap in global heath delivery: contributions and limitations of randomized controlled trials” trong Florence Bédécarrats, Isabelle Guerrin và François Roubaud (chủ biên), Randomized Controlled Trials in the Field of Development, Oxford University Press, sắp xuất bản.

[5] Duflo, Esther, Michael Kremer và Jonathan Robinson, “How High Are Rates of Return to Fertilizer? Evience from Field Experiments in Kenya”, American Economic Review, 2008, vol.98, n02, p. 482-488; Duflo, Esther, Michael Kremer và Jonathan Robinson, “Nudging Farmers to Use Fertilizer: Theory and Experimental Evidence from Kenya”, American Economic Review, 2011, vol.101, n06, p. 2350-2390.

Print Friendly and PDF