11.8.15

Thế lưỡng nan của người tù

Thế lưỡng nan của người tù

Prisoners dilemma
® Giải Nobel: NASH, 1994
Trò chơi đối xứng với hai đấu thủ và tổng không, được biết dưới tên thế lưỡng nan của người tù do A. W. Tucker đề xuất. Lúc đầu được biết đến như một phương thức biểu trưng một xung đột tượng trưng giữa răn đe và tin tưởng, trò chơi này cuối cùng được dùng để làm rõ tính không tương thích có thể của cân bằng theo nghĩa của Nash với tính tối ưu Pareto. Xét hai người tù, AB, từng phạm tội chung. Điều tra viên phụ trách vụ án không đủ yếu tố khách quan để truy tố họ tức thì khiến người này thiết kế một thủ tục đủ sức thuyết phục để hai người tù thú tội. Trước tiên, hai nghi can bị giam riêng nhằm tránh mọi liên lạc và như thế tránh mọi sự thông đồng giữa hai người. Tiếp đó, điều tra viên quyết định lần lượt thẩm vấn họ, trình bày chi tiết của mỗi hậu quả đặc thù (tính bằng năm tù giam) của hai chiến lược có thể (tự thú và tố cáo người kia hay không tự thú) trong mỗi trạng thái có thể do chiến lược của người tù kia xác định (người tù này tố cáo hay không). Tóm tắt thủ tục này tương ứng với ma trận sau (những con số in đậm in nghiêng là bản án, theo thứ tự của A và của B):


B tự thú
B không tự thú
A tự thú
A không tự thú
(2, 2)
(3, 0)
(0, 3)
(1, 1)
Một cách khách quan, kết cục tốt nhất của trò chơi (kết cục mà ta sẽ gọi là tối ưu Pareto trong nghĩa là không thể làm tăng sự thoả mãn của một người tù thoả mãn của một người tù giảm dần với số năm tiềm năng người tù phải gỡ lịch mà không làm xấu đi sự thoả mãn của người tù kia) tương ứng với việc lựa chọn đồng thời không tự thú mà chi trả (payoff) đi kèm là (1, 1). Thế mà, vào chính lúc mà mỗi người tù nghĩ đến việc không tự thú thì lại nhận thức là nếu đồng phạm của mình không làm như mình thì mình sẽ phải lãnh thêm hai năm nữa   Như thế ta nói rằng kết cục (không tự thú, không tự thú) không phải là một cân bằng (một cân bằng Nash tương ứng với một kết cục mà mỗi đấu thủ được khuyến khích tuân thủ chiến lược mà mình thông báo trong nghĩa là đấu thủ có rủi ro bị trừng phạt nếu đi chệch khỏi chiến lược của mình; đó là một cân bằng bằng răn đe). Đồng thời mỗi đấu thủ nhận thức rằng tự thú là khá quyến rũ trong nghĩa là đấu thủ có thể được tự do nếu đấu thủ kia quyết định không tự thú. Cuối cùng sự thận trọng, tức là tối thiểu hoá những tổn thất tiềm tàng (min [max {2, 0}, max {3, 1}] = 2) được xem là sẽ dẫn một cách duy lí mỗi tù nhân phải tự thú. Kết cục được chọn, nghĩa là (tự thú, tự thú) quả thật là một cân bằng Nash nhưng ngược lại cân bằng này không phải là một tối ưu Pareto.
Nhiều công trình, lí thuyết và thực nghiệm, đã đào sâu logic ngầm ẩn của thế lưỡng nan này trong nghĩa là nó cho phép làm rõ nhiều tình thế chiến lược gắn, ví dụ, với cuộc chạy đua vũ trang, cạnh tranh bằng quảng cáo hay chủ nghĩa bảo hộ. Hardin (1968) đã khái quát hoá thế lưỡng nan này ra khuôn khổ những trò chơi mà số đấu thủ là nhiều hơn hai, rồi, dưới sự thúc đẩy của Axelrod (1984), đã xuất hiện ý tưởng theo đó, sự thiếu hợp tác, hiển nhiên trong trường hợp lựa chọn tĩnh cân bằng (tự thú, tự thú) có thể được giải quyết bằng việc lặp lại trò chơi (xem Myerson, 1991, chương 7 về mô hình tổng quát những trò chơi lặp lại). Thật thế, nếu trò chơi được lặp lại đến vô tận thì hành vi chiến lược thù dai dựa trên việc tôn trọng sự hợp tác (không có ai tự thú cả) cho đến khi có thể có một người bội ước thì người kia cam kết sẽ luôn tự thú, có thể sinh ra điều được gọi là một cân bằng hợp tác hoàn hảo trong trò chơi con (một cân bằng hoàn hảo trong trò chơi con tương ứng với một dãy không bị gián đoạn của những cân bằng gắn với việc lặp lại trò chơi). Để có được cân bằng này thì cả hai đấu thủ phải hợp tác với nhau ngay từ đầu trò chơi và luôn lo ngại răn đe tiềm tàng của đấu thủ kia để không bao giờ bị sự bội ước quyến rũ (trong trường hợp hữu hạn, lập luận bằng truy toán lùi củng cố cân bằng Nash (không hợp tác) như là cân bằng hoàn hảo duy nhất trong trò chơi con). Như thế, một khi các đấu thủ có một ưa thích hiện tại yếu (răn đe nhằm vào những kết cục tương lai của trò chơi lặp lại) thì có một cân bằng hợp tác, kết quả này là một trường hợp đặc biệt của định lí dân gian nổi tiếng).
AXELROD R., The Evolution of Cooperation, New York, Basic Book, 1984; bản dịch tiếng Pháp: Donnant, donnant, Odile Jacob, Paris, 1992. HARDIN G., The Tragedy of Commons, Science, 1968, 162, p. 1243-1248. MYERSON R. B., Game Theory: Analysis of Conflict, Cambridge, Harvard University Press, 1991.
Antoine BILLOT
Giáo sư đại học Panthéon-Assas (Paris 2) và Viện đại học Pháp
Nguyễn Đôn Phước dịch 
® Cân bằng Nash; Duy lí tân cổ điển (tính); Lí thuyết trò chơi; Thông tin và hiểu biết.
Nguồn: Dictionnaire des sciences économiques, sous la direction de Claude Jessua, Christian Labrousse, Daniel Vitry, PUF, Paris, 2001
Print Friendly and PDF