28.7.15

Lí thuyết trò chơi

Lí thuyết trò chơi

Game theory
® Giải Nobel: DEBREU, 1983 – HARSANYI, 1994 – NASH, 1994 – SELTEN, 1994.

“Ngay từ 1838, với tác phẩm Recherches sur les principes mathématiques de la théorie des richesses, lí thuyết kinh tế có được … một khái niệm cân bằng, khái niệm này không gì khác hơn là việc áp dụng vào một trường hợp đặc biệt lời giải của một trò chơi không hợp tác mà sau này được Nash hình thức hoá -và cũng có một công cụ để xác định sự tồn tại của cân bằng và tính toán những trạng thái thực hiện cân bằng này: hàm phản ứng”. Nhận định trên của Dos Santos Ferreira (1991) bộc lộ và biện minh cho tính chất gần như là một tiên đề của cách các nhà kinh tế đánh giá tác phẩm của Cournot như là điểm xuất phát của lí thuyết trò chơi. Hợp thành bởi toàn bộ những phương pháp toán học thích hợp cho việc nghiên cứu việc ra quyết định của những tác nhân duy lí và thông minh đứng trước một tình thế có sự tương hỗ lẫn nhau, lí thuyết này có hai mảng: những trò chơi hợp tác và những trò chơi không hợp tác. Trong trường hợp đầu những đấu thủ có thể kí kết những thoả thuận và/hoặc hứa hẹn và/hoặc đe doạ có hiệu lực, những dữ liệu cơ bản là các nhóm và những vấn đề được tìm hiểu là sự hình thành những liên minh và việc phân chia những thu hoạch. Trong trường hợp thứ hai, những đấu thủ không thể lấy những cam kết có tính ràng buộc trước khi hành động và điều được nhấn mạnh là chiến lược của họ. Minh hoạ cho sự phân biệt trên mà tác giả là Nash (1951), người đã đề nghị và gợi ý vượt qua sự phân biệt này bằng cách trình bày lại những trò chơi hợp tác dưới dạng những trò chơi không hợp tác (“chương trình Nash”). Có thể kể một lịch sử nhỏ của lí thuyết trò chơi (Weintraub, 1992).

Augustin Cournot (1801-1877)
Tất cả bắt đầu vào năm 1928 khi von Neumann chứng minh, cho các trò chơi không hợp tác có hai đấu thủ và tổng bằng không và với một số lớn chiến lược nhưng hữu hạn, định lí minimax (maximum minimorum = minimorum maximorum). Định lí này là “hòn đá tảng” (Auman, 1987) của lí thuyết trò chơi. Rồi von Neumann và Morgenstern (VNM) làm việc với nhau tại Princeton và kết quả của sự hợp tác này là tác phẩm, công bố năm 1944, The Theory of Games and Economic Behavior. Tiếp đó, bỏ qua những kết quả cơ bản thu được về những trò chơi hợp tác có hai đấu thủ, các nhà kinh tế quan tâm đến những trò chơi hợp tác có n đấu thủ. Khái niệm cái lõi của nền kinh tế, kết quả của những nghiên cứu này bắt nguồn từ tác phẩm của Edgeworth, Mathematical Psychics xuất bản năm 1881, nổi lên vào cuối những năm 1950 như một khái niệm lời giải cho những vấn đề kinh tế và cho phép, thông qua những định lí tương đương, củng cố lí thuyết cân bằng chung. Sau đó, những vấn đề do thông tin không đối xứng đặt ra phục hồi lại tất cả tầm quan trọng ngày nay được dành cho cân bằng Nash (1951). Dưới ánh sáng của những bài tổng hợp của Aumann (1987), Dimand và Dimand (1996), Schmidt (1990, 1995) và Weintraub (1992) cũng như những tuyển tập do Dimand và Dimand (1997) và Rubinstein (1990) tập hợp, có thể tu chỉnh vài điểm bản phác thảo lịch sử trên.

Dos Santos Ferreira
Về những nguồn gốc của lí thuyết trò chơi, dù không phải tìm ngược lên đến Thánh kinh (Brams, 1980) cần nói rõ là lời giải minimax đầu tiên với chiến lược hỗn hợp của một trò chơi (trò chơi bài tây có tên là Le Her) có hai đấu thủ và tổng không là do Waldegrave tìm ra vào năm 1713 và những công trình của Borel, xuất bản suốt những năm 1920, định nghĩa một cách chặt chẽ khái niệm chiến lược hỗn hợp và bổ sung định lí Zermelo (có từ 1913 về trò chơi cờ vua và vận dụng những chiến lược thuần tuý) vừa báo trước những kết quả của von Neumann được Ville khái quát hoá. Còn đối với thời kì được Weintraub (1992) nghiên cứu, cần nêu, một mặt, việc thực hiện “chương trình Nash” do lí thuyết mặc cả cung cấp, trong đó cách tiếp cận tiên đề hoá (Nash, 1950) và cách tiếp cận chiến lược (Rubinstein, 1982) được kết hợp và, mặt khác, sự xuất hiện của một tính đối ngẫu mới – chuẩn tắc, thực chứng – do sự nở rộ, như một đối trọng của những mô hình lí thuyết, của những công trình của kinh tế học thực nghiệm về trò chơi. Cuối cùng về thời kì gần đây, phải kể đến giải Nobel về kinh tế học năm 1994 được đồng thời trao cho Harsanyi, Nash và Selten. Sự kiện này, đặc biệt được các tạp chí International Journal of Game TheoryGames and Economic Behavior chào mừng, đã làm rõ ưu thế hiện nay của lí thuyết trò chơi không hợp tác lẫn sự nở rộ, trong lí thuyết này, của ba ý tưởng (Gul, 1997): cân bằng, tính đáng tin và thông tin không đối xứng. Những sách giáo khoa mới đây (có thể thấy một danh sách có phân tích trong Binmore, 1992), sách cơ bản (Gibbons, 1992) hay sách mũi nhọn (Fudenberg & Tirole, 1991, và bằng tiếng Pháp, Gremaq, 1988 và Demange & Ponsard, 1994) phản ảnh tình hình này. Thật vậy, ngoài hai ngoại lệ đặc biệt là những sách của Moulin, như Cooperative Microeconomics, 1995 và ba tập Handbook of Game Theory with Economic Applications do Aumann và Hart chủ biên trong những năm 1990, những tác phẩm trên có đặc điểm kép là bỏ qua lí thuyết trò chơi hợp tác để dành chỗ cho lí thuyết trò chơi không hợp tác và trình bày lí thuyết này bằng cách chéo hai phân biệt cơ bản: động và tĩnh; thông tin đầy đủ và thông tin không đầy đủ. Dàn trình bày điển hình này được dùng lại trong những phát triển dưới đây mà mục đích là, không quay lại những định nghĩa toán học của những khái niệm chính về cân bằng nhưng chỉ ra, thông qua những ví dụ, bằng cách nào tìm ra những cân bằng này.

Edgeworth (1845-1926)

Trò chơi tĩnh

Xét hai sinh viên – Camille (C) và Dominique (D) – ngày mai sẽ thi môn lí thuyết trò chơi. Để chuẩn bị ôn thi, cả hai đều cần đến quyển Games and Information của Ramusen mà thư viện chỉ có hai ấn bản: bản in lần đầu (R89) chỉ có thể tham khảo tại chỗ; bản in lần thứ hai (R94), đầy đủ hơn bản in lần thứ nhất, có thể mượn được về nhà. Do đó, đêm trước kì thi cả hai sinh viên đều giáp mặt với một đối chọn: ôn thi tại thư viện (B) hay mượn R94 (E) về ôn thi ở nhà. Nếu C và D đều chọn B thì họ sẽ cùng sử dụng R89 và R94 và cả hai đều ôn thi tốt. Nếu một trong hai chọn B và người kia chọn E thì người sử dụng một mình R94 sẽ làm bài thi tốt và người kia học trong R89 sẽ có một kết quả trung bình. Cuối cùng nếu C và D đều chọn E thì họ sẽ cãi nhau và bị đuổi ra khỏi thư viện. C và D phải lấy quyết định đồng thời. Như thế trò chơi số 1 như vừa được xác định là có thông tin đầy đủ nhưng không hoàn hảo vì mỗi đấu thủ biết tất cả những phần tử của cấu trúc của trò chơi nhưng, vào lúc ra quyết định, không biết người kia sẽ làm gì. Do đó, ta có trò chơi dưới dạng chiến lược và dưới dạng mở rộng:

Về mặt biểu đồ, dạng chiến lược có vẻ ngoài là một ma trận: C có những dòng, D có những cột và, trong mỗi ô, là chi trả (lợi ích VNM) của C và D được lần lượt xác định. Dạng mở rộng được biểu trưng bằng một cây mà mỗi mắt không cuối cùng được gán cho mỗi đấu thủ cho biết là đối thủ phải lấy một quyết định ở giai đoạn này của trò chơi, và những nhánh xuất phát từ cùng một mắt là những hành động có thể của đối thủ mà mắt này được gán cho đấu thủ ấy. Tập những mắt trong đó một đấu thủ không biết phân biệt mắt nào khi phải ra một quyết định vào một thời điểm của trò chơi, được lồng trong một viền tượng trưng cho tập thông tin của đấu thủ này. Bằng trò chơi này (trò chơi “kẻ nhát gan”), có thể minh hoạ hai khái niệm cơ bản về cân bằng: cân bằng Nash (1951) với chiến lược thuần tuý (được đánh dấu hoa thị * trong ma trận những thu hoạch) và với chiến lược hỗn hợp và cân bằng tương quan của Aumann (1974). Cân bằng đầu là một dạng những chiến lược sao cho chiến lược của mỗi đấu thủ là đáp trả tốt nhất cho những chiến lược được các đấu thủ khác chọn. Cân bằng thứ hai nằm trong sự tiếp nối của cân bằng Nash với chiến lược hỗn hợp: trong cả hai trường hợp, hành động của mỗi đấu thủ tuỳ thuộc vào thông điệp mà Tự nhiên gởi cho mỗi đấu thủ nhưng, trong trường hợp thứ nhất, những thông điệp là riêng tư và độc lập với nhau trong lúc trong trường hợp thứ hai các thông điệp có tương quan với nhau. Về khái niệm đầu, có thể phân biệt ba trường hợp được minh hoạ theo thứ tự bởi “thế lưỡng nan của người tù”, “cặp đôi tiền bạc” và trò chơi “kẻ nhát gan” (Walisser, 1988). Trong trò chơi đầu (theo thứ tự, thứ hai) chỉ có duy nhất một cân bằng Nash với chiến lược thuần tuý (theo thứ tự, chiến lược hỗn hợp). Trong trường hợp thứ ba, có hai cân bằng Nash với chiến lược thuần tuý và một cân bằng Nash với chiến lược hỗn hợp. Có một phương pháp sơ đẳng để tìm ra ba cân bằng này trong trò chơi số 1. Kí hiệu bằng (q, 1 - q) chiến lược hỗn hợp theo đó D chơi B với xác suất q và bằng (p, 1 - p) chiến lược hỗn hợp theo đó C chơi B với xác suất p. Nếu D chơi (q, 1 - q) thì những chi trả dự kiến của C là 3q + 1 (1 - q) = 2q + 1 nếu C chơi B và 4q nếu C chơi E. Do đó, nếu q > 1/2 thì đáp trả tốt nhất của C (MRC) là E (p = 0). Ngược lại, nếu q < 1/2 thì MRC là B (p = 1). Cuối cùng nếu q = 1/2 thì bất kì giá trị nào của p cũng là một MRC. Tương tự như vậy, nếu D chơi (p, 1 - p) thì những chi trả dự kiến của D là 2p + 1 nếu D chơi B và bằng 4p nếu D chơi E. Do đó nếu p > 1/2 thì đáp trả tốt nhất của D (MRD) là E (q = 0). Ngược lại, nếu p > 1/2 thì MRD là B (q = 1). Cuối cùng nếu p = 1/2 thì bất kì giá trị nào của q cũng là một MRD (xem biểu đồ dưới đây).

MRC và MRD cắt nhau tại ba điểm: (p = 1/2, q = 1/2), (p = 0, q = 1), và (p = 1 q = 0). Điểm đầu là cân bằng Nash với chiến lược hỗn hợp của trò chơi số 1: mục đích mỗi đấu thủ nhắm đến thông qua việc sử dụng những xổ số này là đặt mỗi đấu khủ khác vào một tình thế bàng quan trong đó đấu thủ đó không có chiến lược nào được ưa thích trong số những chiến lược được đấu thủ này gán cho một xác suất không bằng không. Hai điểm còn lại tương ứng với hai cân bằng Nash với chiến lược thuần tuý: (E, B) và (B, E). Để nhanh chóng tìm ra hai cân bằng này, chỉ cần so sánh theo hàng và theo cột thể theo định nghĩa của cân bằng Nash và gạch bên trên những chi trả tương ứng với những đáp trả tốt nhất. Mọi dạng chiến lược nào gắn với một ô trong đó có hai chi trả được gạch trên là một cân bằng Nash với chiến lược thuần tuý. Để giải thích sự trồi lên của một cân bằng như thế, có thể nêu bốn luận chứng cạnh tranh nhau: có liên lạc trao đổi trước, những dự kiến tự hoàn thành, lí thuyết mặc điểm và tập huấn (xem mục cân bằng Nash). Giải thích thứ nhất đặt cơ sở cho khái niệm cân bằng tương quan. Một cách nôm na, định nghĩa một cân bằng tương quan qui lại là tìm một xổ số trên những kết cục của trò chơi sao cho mỗi đấu thủ tối đa hoá lợi ích của bản thân có tính đến những chỉ thị mình nhận được. Kí hiệu bằng r1, r2, r3, r4 những xác suất của (B, B), (B, E), (E, B), và (E, E). Nếu C được lệnh chơi B (theo thứ tự E) thì quyền lợi của C là tuân thủ nếu 3r1 + r2 ³ 4r1 (theo thứ tự 4r3 + r2 ³ 3r3 + r4), nghĩa là r2 ³ r1 (theo thứ tự r3 ³ r4). Tương tự như thế, nếu D nhận chỉ thị chơi B (hay E) thì quyền lợi của D là tuân thủ nếu r3 ³ r1 (theo thứ tự r2 ³ r4). Do đó để cho (r1, r2, r3, r4) hợp thành một cân bằng tương quan thì r1 + r2 + r3 + r4 = 1 và Min (r2, r3) ³ Max (r1, r4). Điều này xác định một continuum những cân bằng tương quan trong đó ta thấy có ba cân bằng Nash được định nghĩa như trên, mọi tổ hợp lồi của những cân bằng Nash với chiến lược thuần tuý và những cân bằng tương quan khác, như (1/3, 1/3, 1/3, 0). Có thể thu được cân bằng cuối này nhờ cơ chế phối hợp sau: một người thứ ba (A) ném một con súc sắc có sáu mặt; nếu mặt con súc sắc là 1 hay 2 thì A nói với C và D phải chơi B; nếu mặt con súc sắc là 3 hay 4 thì A nói với C (theo thứ tự D) phải chơi B (theo thứ tự E); và nếu mặt con súc sắc là 5 hay 6 thì A nói với C (theo thứ tự D) phải chơi E (theo thứ tự B). Thông điệp gởi cho mỗi đấu thủ không cho biết lệnh ra cho đấu thủ kia. Nếu C và D đồng ý với nhau thực hiện cơ chế phối hợp này, thì thoả thuận tự có hiệu lực: quyền lợi của mỗi đấu thủ là tuân thủ những chỉ thị mình nhận được; làm như thế mỗi đấu thủ sẽ nhận được một chi trả kì vọng bằng với 8/3 và do đó lớn hơn 2, vốn là chi trả kì vọng gắn với cân bằng Nash với chiến lược hỗn hợp. Đặc điểm cơ bản của cân bằng này là mỗi đấu thủ không biết chắc chắn lựa chọn của mỗi đấu thủ khác. Sự không chắc chắn này sinh ra từ tính ít nhiều không đầy đủ của thông tin mỗi đấu thủ có được.

John Nash (1928-2015)
Để nghiên cứu loại tình thế này, xét trò chơi số 2. Chris (C), một sinh viên nước ngoài, trình độ tiếng Pháp trung bình, phải chuẩn bị, giống như D, một bài trình bày về lí thuyết trò chơi. Hoặc là C khá (b) hoặc là yếu (m) tiếng Anh. C biết chính xác kiểu của mình; ngược lại D chỉ biết rằng có 90 % là C thuộc kiểu b (p = 0,9). Đối chọn C phải giáp mặt là như sau: lấy trên kệ sách hoặc là từ điển tiếng Anh Harraps (A) hoặc là từ điển tiếng Pháp Le Petit Robert (F). Còn D, giống như trong trò chơi số 1, phải lựa chọn giữa B hoặc E. Trong mọi trường hợp, phải học ở thư viện và càng chuẩn bị tốt nếu có được R94. Một cách thứ yếu, C càng có hiệu quả khi lựa từ điển có ích nhất đối với mình tuỳ theo kiểu của bản thân. D, có trình độ tiếng Anh trung bình, có một cái nhìn lưỡng phân về tình hình: thích chuẩn bị ở thư viện với C nếu C thuộc kiểu b; trường hợp ngược lại thích tự chuẩn bị ở nhà một mình. C và D phải lấy quyết định đồng thời. Hai tình thế này, dưới dạng chiến lược, là như sau:


Nhờ Harsanyi (1967-1968), có thể biến đổi một trò chơi như thế với thông tin không đầy đủ thành một trò chơi với thông tin không hoàn hảo trong đó Tự nhiên (N) đi trước và chọn kiểu của C:
Trong biểu trưng dưới dạng chiến lược, mỗi chiến lược của C làm rõ lần lượt hành động của C là thuộc kiểu b và thuộc kiểu m: nếu C chơi, ví dụ, FA thì có nghĩa là, nếu hành động của C là thuộc kiểu b thì chơi F và nếu hành động của C là thuộc kiểu m thì C chơi A. Trong mỗi ô, những thu hoạch lần lượt được ghi là những thu hoạch của C nếu C thuộc kiểu b, nếu C thuộc kiểu m và D (có tính đến p). Bằng trò chơi này, ta có thể minh hoạ cân bằng bayesian, tức là một cân bằng Nash của trò chơi bayesian trong đó mỗi đấu thủ ước tính thu hoạch của mình bằng kì vọng lợi ích bị điều kiện hoá bởi thông tin riêng của mình. Trong trường hợp này, ở thế cân bằng, C chơi FA và D chơi B. Một cách tiên nghiệm điều này là hiển nhiên vì F và A là những chiến lược khống chế của C khi C thuộc, theo thứ tự, kiểu b và m. Đương nhiên, nếu p nhỏ hơn 0,5 thì D sẽ chọn E. Vấn đề trở thành ít tầm thường hơn nếu ta cho C khả năng chơi trước D.

Trò chơi động

Để thấy điều này, trước hết xét trò chơi số 1’, trò chơi này là phiên bản động của trò chơi số 1 trong đó C đi trước:


Oscar Morgenstern (1902-1977)
Bằng trò chơi này, vốn là một trò chơi có thông tin không chỉ đầy đủ mà còn là hoàn hảo vì D khi phải ra một quyết định biết C đã làm những gì, có thể minh hoạ hai khái niệm cân bằng: cân bằng Nash động và cân bằng Nash động hoàn hảo (Selten, 1965). Khái niệm sau chỉ đơn giản khái quát hoá cân bằng Nash. Trong trò chơi số 1’, những so sánh theo dòng và theo cột làm nổi lên ba cân bằng loại này: (B, EE), (E, BB)* và (E, EB). Khi D chọn chiến lược EE (theo thứ tự BB) thì D quyết định chơi E (theo thứ tự B) bất luận quyết định của C là gì đi nữa và khi D chọn EB thì D quyết định chơi E (theo thứ tự B) nếu C chơi B (theo thứ tự E). Trong hai trường hợp đầu, D có lời đe doạ nhưng sẽ không thực hiện đe doạ này nếu bị thách thức: quả thế, D không có quyền lợi gì để chơi E (theo thứ tự B) nếu C chơi E (theo thứ tự B). Trong trường hợp cuối, D là đáng tin vì nếu C chơi B (hay theo thứ tự E), thì quyền lợi của D là phải chơi E (theo thứ tự B). Ý tưởng này về tính đáng tin tạo cơ sở cho khái niệm cân bằng Nash động hoàn hảo (trong trò chơi con), khái niệm này là một dạng những chiến lược sao cho những hành động được những chiến lược này chủ trương hợp thành một cân bằng Nash trong tất cả những trò chơi con, một trò chơi con trong một trò chơi với thông tin hoàn hảo, là mọi cây trò chơi có được bằng cách lấy một mắt bất kì của cây ban đầu như điểm gốc. Để tìm ra một cân bằng như thế, phương pháp đơn giản nhất – thuật toán Kuhn - là xuất phát từ cuối trò chơi và tiến hành truy toán lùi. Như vậy đối với trò chơi số 1’, lập luận là như sau: nếu C chơi B thì D chọn E (vì 4 > 3); nếu C chơi E thì D chọn B (vì 1 > 0); biết được điều này nên quyền lợi của C là nên chơi E (vì 4 > 3); do đó (E, EB) là cân bằng hoàn hảo của trò chơi số 1’. Được định nghĩa và minh hoạ như thế, tiêu chuẩn tính hoàn hảo tỏ ra là xác đáng trong một trò chơi động với thông tin đầy đủ, không chỉ khi thông tin là hoàn hảo mà cả khi thông tin là không hoàn hảo, nghĩa là khi, ví dụ, một trò chơi tĩnh được lặp lại.

Von Neumann (1903-1957)
Để nghiên cứu trường hợp này, trước hết giả sử là trò chơi số 1 không còn được chơi một lần mà là hai lần. Trong trường hợp này C và D có thể thay phiên nhau chơi E. Như thế, kế hoạch đầy đủ của C (theo thứ tự D) là, trong lần đầu, chơi E (theo thứ tự B), và lần thứ nhì, bất luận lịch sử của trò chơi là như thế nào, chơi B (theo thứ tự E). Những chiến lược được xác định như thế hợp thành một cân bằng hoàn hảo. Thu hoạch trung bình của mỗi đấu thủ là 5/2. Tất nhiên có thể hoán đổi vai trò của các đấu thủ. Hơn nữa, ba cân bằng Nash của trò chơi cấu thành có thể được lặp lại. Cuối cùng có thể luân phiên chơi cân bằng Nash với chiến lược hỗn hợp và một trong hai cân bằng Nash với chiến lược thuần tuý. Nếu trò chơi số 1 không chỉ được chơi một lần mà T (T ³ 3) lần, thì xuất hiện một một cân bằng hoàn hảo mới trong đó C và D trước hết đồng thời chơi B, T - 2 lần, tiếp đấy rồi mỗi người lần lượt chơi B (người kia chơi E); nếu C (theo thứ tự D) chơi E (theo thứ tự E) ở một trong những T - 2 thời kì đầu, thì trong tất cả những thời kì sau đó sẽ chơi (B, E) (theo thứ tự (B, E)). Nếu các đấu thủ chọn những chiến lược này thì tổng thu hoạch của mỗi người là 3 (T - 2) + 5 = 3T - 1. Nếu một đấu thủ đi chệch khỏi chiến lược này tại thời điểm t £ T - 2 thì tổng thu hoạch sẽ là 3 (t - 1) + 4 + 1 (T - 1) £ 3T - 3 < 3T – 1. Những chiến lược này hợp thành một cân bằng Nash hoàn hảo vì những trừng phạt là việc lập lại những cân bằng Nash của trò chơi cấu thành. Một cách tổng quát hơn, người ta có thể chứng minh là nếu một trò chơi được lặp lại một số hữu hạn lần và không hiện tại hoá, trong phiên bản cơ bản của trò chơi, có một vectơ chi trả trung bình cân bằng khống chế vectơ min-max thì mọi vectơ chi trả duy lí cá thể ngặt và thực hiện được, tới giới hạn, là một vectơ chi trả trung bình của một cân bằng hoàn hảo. Trong một trò chơi có hai đấu thủ, một chi trả duy lí cá thể ngặt là, đối với một đấu thủ, một chi trả cao hơn hay bằng chi trả min-max của đấu thủ đó khi tìm cách tối đa hoá thu hoạch của bản thân với chiến lược của đấu thủ kia là cho trước và đối thủ này chọn chiến lược của mình sao cho tối thiểu hoá thu hoạch tối đa của đối thủ của mình. Phiên bản này của “định lí dân gian” cho phép chứng minh là, trong trò chơi số 1 lặp lại, với vectơ chi trả min max là (1, 1), thì có thể gắn một cân bằng hoàn hảo cho mọi điểm của vùng tô đậm trong biểu đồ dưới đây:


Khi số lần lặp lại trò chơi cấu thành là hữu hạn thì không nhất thiết là tính bội của những cân bằng, như đã được làm rõ, hiện ra: ví dụ, nếu trò chơi cấu thành được đặc trưng, như trong “thế lưỡng nan của người tù”, bởi tính đơn nhất của cân bằng thì trò chơi lặp lại không hiện tại hoá có một cân bằng hoàn hảo duy nhất, tức là việc lặp lại cân bằng của trò chơi cấu thành. Ngược lại, khi số lần lặp lại trò chơi cấu thành là vô hạn thì việc mở rộng tập những vectơ chi trả trung bình thực hiện được dưới dạng cân bằng hoàn hảo là qui tắc phổ biến. Tính bội này của những cân bằng cũng thường đặc trưng cho những trò chơi động với thông tin không đầy đủ.

Để thấy điều này, xét trò chơi số 2’, là một phiên bản động của trò chơi số 2 trong đó C chơi trước:
Trong biểu trưng dưới dạng mở rộng của trò chơi này, q, 1 - q, r và 1 - r là những tin tưởng hậu nghiệm của D. Ví dụ, đối với D, q là xác suất rằng C thuộc kiểu b khi biết là C đã chơi F. Ở cuối mỗi nhánh, con số nằm trên (theo thứ tự nằm dưới) chỉ thu hoạch của C (theo thứ tự của D). Trò chơi tín hiệu này (đối lập với trò chơi có lọc đòi hỏi là đấu thủ không được thông tin chơi đầu), trong đó C là người phát tín hiệu và D là người nhận tín hiệu có hai cân bằng (Nash động) bayesian: (FF, BE, q = 0,9, r) và (AA, EB, q, r = 0,9). Đây là hai cân bằng pha trộn: trong mỗi trường hợp, người phát tín hiệu vẫn chơi theo cùng một cách bất luận mình thuộc kiểu nào và do đó những tin tưởng của người nhận tín hiệu bằng với những tin tưởng tiên nghiệm: p = 0,9 và 1 - p = 0,1. Giữa hai cân bằng này có thể thử lựa chọn bằng cách vận dụng nguyên lí truy toán lùi (nguyên lí đặt cơ sở cho tính hoàn hảo) theo đó phải loại trừ những cân bằng có một đe doạ không đáng tin. Trong vấn đề được nghiên cứu, bộ lọc được Kreps và Wilson (1982) xây dựng tỏ ra là quá thô thiển để ngăn chặn một trong hai cân bằng bất kì nào vừa được xác định trên đây: trong cả hai trường hợp, những đáp trả của người nhận tín hiệu nằm ngoài quĩ đạo cân bằng đều tương hợp với ít nhất một phân phối xác suất có điều kiện. Chính xác hơn, (FF, BE, q = 0,9, r £ 0,5) và (AA, EB, q £ 0,5, r = 0,9) là hai cân bằng bayesian hoàn hảo, nghĩa là những tổ hợp chiến lược và tin tưởng sao cho những chiến lược này là tối ưu với những tin tưởng cho trước và những tin tưởng này được xét lại theo qui tắc Bayes. Trong cân bằng đầu (theo thứ tự cân bằng thứ hai) r (theo thứ tự q) phải nhỏ hơn hay bằng 0,5 vì với điều kiện này thì răn đe của D định chơi E (theo thứ tự E) ở ngoài đường cân bằng mới đáng tin. Để lựa chọn giữa hai cân bằng bayesian hoàn hảo được xác định như trên, phải vận dụng nguyên lí truy toán tiến đặt cơ sở cho tiêu chuẩn trực giác của Cho và Kreps (1987). Tiêu chuẩn này tinh vi hoá tiêu chuẩn trước hơn nữa bằng cách kéo theo là nếu tập thông tin theo một thông điệp nằm ngoài quĩ đạo cân bằng và nếu ở thế cân bằng thông điệp này không bị khống chế cho tất cả các kiểu, thì người nhận tín hiệu phải gán một xác suất bằng không cho kiểu được xem xét. Trong trò chơi đuợc nghiên cứu, tiêu chuẩn này cho phép loại trừ (AA, EB, q £ 0,5, r = 0,9): từ cân bằng này, quyền lợi của một người nhận tín hiệu thuộc kiểu b có thể là nên đi chệch khỏi quĩ đạo cân bằng (như vậy, người này có thể thu hoạch hoặc 2 hoặc 4 thay vì 3,5), ngược lại một người nhận tín hiệu thuộc kiểu m không bao giờ có lợi khi hành động như thế (vì 4 > 3 và 4 > 1); do đó D phải gán một xác suất (1 - q) bằng không cho kiểu m. Do điều kiện này và điều kiện đảm bảo tính hoàn hảo của cân bằng (q £ 0,5) là không tương hợp nên (AA, EB, q £ 0,5, r = 0,9) là không thoả đáng một cách trực giác. Ngược lại, dễ dàng chứng minh rằng (FF, BE, q = 0,9, r £ 0,5) là thoả đáng theo trực giác và ổn định (phổ cập), để nêu lên những tiêu chuẩn tinh vi hoá chính (đặc biệt được trình bày trong Fudenberg & Tirole, 1991) bổ sung cho những tiêu chuẩn được dùng trên đây. Cuối cùng, xin nhấn mạnh là trong trò chơi số 2’, không có cân bằng tách, nghĩa là sao cho C chơi theo một cách nếu thuộc kiểu b và theo một cách khác nếu thuộc kiểu m. Tuy nhiên, nếu p có một giá trị nhỏ hơn 0,5, ví dụ như 0,1, sao cho lời giải nổi lên là một cân bằng nửa tách; nếu C thuộc kiểu b thì bao giờ C cũng chơi F, và nếu thuộc kiểu m thì chơi F với xác suất 1/9 và chơi A với xác suất 8/9; nếu C chơi F, thì D chơi B hay E theo đồng xu xấp ngửa và, nếu C chơi A thì D bao giờ cũng chơi E.

Được trình bày như trên, lí thuyết trò chơi không hợp tác, dựa trên giả thiết kép về tính duy lí và tính vị kỉ của các đấu thủ, tỏ ra đặc biệt phong phú: lí thuyết cho phép đổi mới không chỉ “kinh tế học công nghiệp”, để lấy lại tựa một tác phẩm của Tirole, và của hầu hết những nhánh của khoa học kinh tế mà còn cả những khoa học xã hội khác, như luật học (Baird, Gerner & Picker, 1994) và khoa học chính trị (Ordeshook, 1992). Tính phong phú rõ rệt này đã không loại trừ những công trình đặt lại vấn đề về mặt lí thuyết. Dưới góc độ này, có thể nêu hai khái niệm mới: cân bằng ổn định theo quan điểm tiến hoá của Maynard Smith và Price (1973) và cân bằng phù hợp với công lí của Rabin (1993). Trong trường hợp sau mỗi đấu thủ được giả định không phải là vị kỉ nhưng sẵn sàng hi sinh một phần thu hoạch của mình để thưởng sự tử tế hay phạt sự ác độc cuả người khác, hai động cơ này càng mạnh khi sự hi sinh tài chính để công bằng ngự trị càng yếu. Trong trường hợp đầu, các đấu thủ được xem là không phản ứng một cách duy lí: họ lựa chọn không ý thức hành động của mình nhưng thừa hưởng hành vi của những người đi trước họ. Trò chơi số 1 cho phép minh hoạ hai khái niệm mới này: nếu C và D được giả định là quan tâm đến công bằng và nếu những thu hoạch tiền tệ được thay thế cho những chi trả (không làm thay đổi cấu hình của trò chơi) thì (B, B) và (E, E) nổi lên như những cân bằng Rabin; nếu C và D được xem như hai phần tử bất kì của một tập những sinh viên và nếu chơi E (hay B) là có một hành vi “diều hâu” (hay “bồ câu”) thì cân bằng Nash với chiến lược hỗn hợp trở thành cân bằng Maynard Smith và Price. Để tìm hiểu thêm về cách tiếp cận sau này và cách tiếp cận gắn với tập huấn thích nghi, có thể tham khảo Kreps và Wallis (1997).

▶ AUMANN R. J., “Subjectivity and correlation in randomized strategies”, Journal of Mathematical Economics, 1974, n0 1, p. 67-96; “Game Theory” trong EATWELL J. MILGATE M. & NEWMAN P. chủ biên, The New Palgrave: A Dictionary of Economics, vol.2, London, Macmillan, 1987. – BAIRD E. G., GERTNER R. H. & PICKER R. C., Game Theory and the Law, Cambridge, Harvard University Press, 1994. – BINMORE K., Fun and Games: a Text on Game Theory, Lexington (DC), Heath, 1992. – BRAMS S., Biblical Games: A Strategic Analysis of Stories in the Old Testament, Cambridge, MIT Press, 1980. – CHO I. K. & KREPS D. M., “Signaling games and stable equilibria”, Quarterly Journal of Economics, 1987, n0 2, p. 179-221. – DEMANGE G. & PONSARD, Théorie des jeux et analyse économique, Paris, PUF, 1994. – DIMAND M. A. & DIMAND R. W., The History of Game Theory, London, Routledge, vol. 1, 1996; The Foundations of Game Theory, vol. I, II và III, Cheltenham, Edward Elgar, 1997. – DOS SANTOS FERREIRA R., “Introduction”, Revue économique, 1991, n0 6, p. 959-966. – FUDENBERG D. & TIROLE J., Game Theory, Cambridge, MIT Press, 1991. – GIBBONS R., A Primer in Game Theory, New York, Harvester Wheatsheaf, 1992. – GREMAQ A.-A., Dynamique, information incomplète, stratégies industrielles, Paris, Economica, 1988. – GUL F., “A Nobel prize for game theorists: the contribution of Harsanyi, Nash and Selten”, Journal of Economic Perspectives, 1997, n0 3, p. 159-174. – HARSANYI J. C., “Games with incomplete information played by “bayesian“ players”, Management Science, 1967-1968, vol. 14, 3, p. 159-182, n0 5, p. 320-334, n0 7, p. 486-502; “Games with randomly disturbed payoffs a new rationale for mixed-strategy equilibrium points”, International Journal of Game Theory, 1973 n0 1, p. 1-23. – KREPS D. M. & WALLIS K. F., Advances in Economics and Econometrics: Theory and Applications, vol. I, Cambridge, University Press, 1997. – KREPS D. M. & WILSON R., “Sequential equilibria”, Econometrica, 1982, n0 4, p. 863-894. – MAYNARD SMITH J & PRICE G. R., “The logic of animal conflict”, Nature, 1973, vol. 246, p. 15-18. – NASH J. F., “The Bargaining Problem”, Econometrica, 1950, n0 2, 155-162m; “Non cooperative games”, Annals of Mathematics, 1951, n0 2, 286-295. – ORDESHOOK P. C., A Political Theory Primer, New York, Routledge, 1992.- RABIN M., “Incorporating fairness into game theory and economics”, American Economic Review, 1993, n0 5, p. 1281-1302. – RUBINSTEIN A., “Perfect equilibrium in a bargaining model”, Econometrica, 1982, n0 1, p. 97-109; Game Theory in Economics, Aldershot, Edward Elgar, 1990. – SCHMIDT C., “Game theory and economics: an historical survey”, Revue déconomie politique, n0 5, p. 589-618; “Présentation”, n0 4, p. 529-538. – SELTEN R., “Spieltheoretische Behandlung eines Oligopolmodells mit Nachfrageträgheit”, Zeitchrift für die gesamte Staatwissenschaft, 1965, vol. 121, p. 301-324 và 667-689. – WALISER B., “A simplified taxonomy of 2 x 2 games”, Theory and Decision, 1988, n0 2, p. 163-191, – WEINTRAUB E. R. chủ biên, Toward a History of Game Theory, Durnham, Duke University Press, 1992.

Régis Deloche
Giáo sư đại học Franche-Comté (BesanVon)
Nguyễn Đôn Phước dịch

Nguồn: Dictionnaire des sciences économiques, sous la direction de Claude Jessua, Christian Labrousse, Daniel Vitry, PUF, Paris, 2001.

® Cân bằng Nash; Kinh tế học thực nghiệm; Kinh tế toán học; Lí thuyết mặc cả; Thế lưỡng nan của người tù; Thông tin không đối xứng.

Print Friendly and PDF