Lí thuyết trò chơi

Lí thuyết trò chơi

(Nguồn: phantichkinhte123.com)

Game theory

® Giải Nobel: DEBREU, 1983 – HARSANYI, 1994 – NASH, 1994 – SELTEN, 1994.
“Ngay từ 1838, với tác phẩm Recherches sur les principes mathématiques de la théorie des richesses, lí thuyết kinh tế có được … một khái niệm cân bằng, khái niệm này không gì khác hơn là việc áp dụng vào một trường hợp đặc biệt lời giải của một trò chơi không hợp tác mà sau này được Nash hình thức hoá -và cũng có một công cụ để xác định sự tồn tại của cân bằng và tính toán những trạng thái thực hiện cân bằng này: hàm phản ứng”. Nhận định trên của Dos Santos Ferreira (1991) bộc lộ và biện minh cho tính chất gần như là một tiên đề của cách các nhà kinh tế đánh giá tác phẩm của Cournot như là điểm xuất phát của lí thuyết trò chơi. Hợp thành bởi toàn bộ những phương pháp toán học thích hợp cho việc nghiên cứu việc ra quyết định của những tác nhân duy lí và thông minh đứng trước một tình thế có sự tương hỗ lẫn nhau, lí thuyết này có hai mảng: những trò chơi hợp tác và những trò chơi không hợp tác. Trong trường hợp đầu những đấu thủ có thể kí kết những thoả thuận và/hoặc hứa hẹn và/hoặc đe doạ có hiệu lực, những dữ liệu cơ bản là các nhóm và những vấn đề được tìm hiểu là sự hình thành những liên minh và việc phân chia những thu hoạch. Trong trường hợp thứ hai, những đấu thủ không thể lấy những cam kết có tính ràng buộc trước khi hành động và điều được nhấn mạnh là chiến lược của họ. Minh hoạ cho sự phân biệt trên mà tác giả là Nash (1951), người đã đề nghị và gợi ý vượt qua sự phân biệt này bằng cách trình bày lại những trò chơi hợp tác dưới dạng những trò chơi không hợp tác (“chương trình Nash”). Có thể kể một lịch sử nhỏ của lí thuyết trò chơi (Weintraub, 1992).

Augustin Cournot (1801-1877)
Tất cả bắt đầu vào năm 1928 khi von Neumann chứng minh, cho các trò chơi không hợp tác có hai đấu thủ và tổng bằng không và với một số lớn chiến lược nhưng hữu hạn, định lí minimax (maximum minimorum = minimorum maximorum). Định lí này là “hòn đá tảng” (Auman, 1987) của lí thuyết trò chơi. Rồi von Neumann và Morgenstern (VNM) làm việc với nhau tại Princeton và kết quả của sự hợp tác này là tác phẩm, công bố năm 1944, The Theory of Games and Economic Behavior. Tiếp đó, bỏ qua những kết quả cơ bản thu được về những trò chơi hợp tác có hai đấu thủ, các nhà kinh tế quan tâm đến những trò chơi hợp tác có n đấu thủ. Khái niệm cái lõi của nền kinh tế, kết quả của những nghiên cứu này bắt nguồn từ tác phẩm của Edgeworth, Mathematical Psychics xuất bản năm 1881, nổi lên vào cuối những năm 1950 như một khái niệm lời giải cho những vấn đề kinh tế và cho phép, thông qua những định lí tương đương, củng cố lí thuyết cân bằng chung. Sau đó, những vấn đề do thông tin không đối xứng đặt ra phục hồi lại tất cả tầm quan trọng ngày nay được dành cho cân bằng Nash (1951). Dưới ánh sáng của những bài tổng hợp của Aumann (1987), Dimand và Dimand (1996), Schmidt (1990, 1995) và Weintraub (1992) cũng như những tuyển tập do Dimand và Dimand (1997) và Rubinstein (1990) tập hợp, có thể tu chỉnh vài điểm bản phác thảo lịch sử trên.
Dos Santos Ferreira
Về những nguồn gốc của lí thuyết trò chơi, dù không phải tìm ngược lên đến Thánh kinh (Brams, 1980) cần nói rõ là lời giải minimax đầu tiên với chiến lược hỗn hợp của một trò chơi (trò chơi bài tây có tên làLe Her) có hai đấu thủ và tổng không là do Waldegrave tìm ra vào năm 1713 và những công trình của Borel, xuất bản suốt những năm 1920, định nghĩa một cách chặt chẽ khái niệm chiến lược hỗn hợp và bổ sung định lí Zermelo (có từ 1913 về trò chơi cờ vua và vận dụng những chiến lược thuần tuý) vừa báo trước những kết quả của von Neumann được Ville khái quát hoá. Còn đối với thời kì được Weintraub (1992) nghiên cứu, cần nêu, một mặt, việc thực hiện “chương trình Nash” do lí thuyết mặc cả cung cấp, trong đó cách tiếp cận tiên đề hoá (Nash, 1950) và cách tiếp cận chiến lược (Rubinstein, 1982) được kết hợp và, mặt khác, sự xuất hiện của một tính đối ngẫu mới – chuẩn tắc, thực chứng – do sự nở rộ, như một đối trọng của những mô hình lí thuyết, của những công trình của kinh tế học thực nghiệm về trò chơi. Cuối cùng về thời kì gần đây, phải kể đến giải Nobel về kinh tế học năm 1994 được đồng thời trao cho Harsanyi, Nash và Selten. Sự kiện này, đặc biệt được các tạp chí International Journal of Game TheoryGames and Economic Behavior chào mừng, đã làm rõ ưu thế hiện nay của lí thuyết trò chơi không hợp tác lẫn sự nở rộ, trong lí thuyết này, của ba ý tưởng (Gul, 1997): cân bằng, tính đáng tin và thông tin không đối xứng. Những sách giáo khoa mới đây (có thể thấy một danh sách có phân tích trong Binmore, 1992), sách cơ bản (Gibbons, 1992) hay sách mũi nhọn (Fudenberg & Tirole, 1991, và bằng tiếng Pháp, Gremaq, 1988 và Demange & Ponsard, 1994) phản ảnh tình hình này. Thật vậy, ngoài hai ngoại lệ đặc biệt là những sách của Moulin, nhưCooperative Microeconomics, 1995 và ba tập Handbook of Game Theory with Economic Applications do Aumann và Hart chủ biên trong những năm 1990, những tác phẩm trên có đặc điểm kép là bỏ qua lí thuyết trò chơi hợp tác để dành chỗ cho lí thuyết trò chơi không hợp tác và trình bày lí thuyết này bằng cách chéo hai phân biệt cơ bản: động và tĩnh; thông tin đầy đủ và thông tin không đầy đủ. Dàn trình bày điển hình này được dùng lại trong những phát triển dưới đây mà mục đích là, không quay lại những định nghĩa toán học của những khái niệm chính về cân bằng nhưng chỉ ra, thông qua những ví dụ, bằng cách nào tìm ra những cân bằng này.
Edgeworth (1845-1926)

Trò chơi tĩnh

Xét hai sinh viên – Camille (C) và Dominique (D) – ngày mai sẽ thi môn lí thuyết trò chơi. Để chuẩn bị ôn thi, cả hai đều cần đến quyển Games and Information của Ramusen mà thư viện chỉ có hai ấn bản: bản in lần đầu (R89) chỉ có thể tham khảo tại chỗ; bản in lần thứ hai (R94), đầy đủ hơn bản in lần thứ nhất, có thể mượn được về nhà. Do đó, đêm trước kì thi cả hai sinh viên đều giáp mặt với một đối chọn: ôn thi tại thư viện (B) hay mượn R94 (E) về ôn thi ở nhà. Nếu C và D đều chọn B thì họ sẽ cùng sử dụng R89 và R94 và cả hai đều ôn thi tốt. Nếu một trong hai chọn B và người kia chọn E thì người sử dụng một mình R94 sẽ làm bài thi tốt và người kia học trong R89 sẽ có một kết quả trung bình. Cuối cùng nếu C và D đều chọn E thì họ sẽ cãi nhau và bị đuổi ra khỏi thư viện. C và D phải lấy quyết định đồng thời. Như thế trò chơi số 1 như vừa được xác định là có thông tin đầy đủ nhưng không hoàn hảo vì mỗi đấu thủ biết tất cả những phần tử của cấu trúc của trò chơi nhưng, vào lúc ra quyết định, không biết người kia sẽ làm gì. Do đó, ta có trò chơi dưới dạng chiến lược và dưới dạng mở rộng:
 
Về mặt biểu đồ, dạng chiến lược có vẻ ngoài là một ma trận: C có những dòng, D có những cột và, trong mỗi ô, là chi trả (lợi ích VNM) của C và D được lần lượt xác định. Dạng mở rộng được biểu trưng bằng một cây mà mỗi mắt không cuối cùng được gán cho mỗi đấu thủ cho biết là đối thủ phải lấy một quyết định ở giai đoạn này của trò chơi, và những nhánh xuất phát từ cùng một mắt là những hành động có thể của đối thủ mà mắt này được gán cho đấu thủ ấy. Tập những mắt trong đó một đấu thủ không biết phân biệt mắt nào khi phải ra một quyết định vào một thời điểm của trò chơi, được lồng trong một viền tượng trưng cho tập thông tin của đấu thủ này. Bằng trò chơi này (trò chơi “kẻ nhát gan”), có thể minh hoạ hai khái niệm cơ bản về cân bằng: cân bằng Nash (1951) với chiến lược thuần tuý (được đánh dấu hoa thị * trong ma trận những thu hoạch) và với chiến lược hỗn hợp và cân bằng tương quan của Aumann (1974). Cân bằng đầu là một dạng những chiến lược sao cho chiến lược của mỗi đấu thủ là đáp trả tốt nhất cho những chiến lược được các đấu thủ khác chọn. Cân bằng thứ hai nằm trong sự tiếp nối của cân bằng Nash với chiến lược hỗn hợp: trong cả hai trường hợp, hành động của mỗi đấu thủ tuỳ thuộc vào thông điệp mà Tự nhiên gởi cho mỗi đấu thủ nhưng, trong trường hợp thứ nhất, những thông điệp là riêng tư và độc lập với nhau trong lúc trong trường hợp thứ hai các thông điệp có tương quan với nhau. Về khái niệm đầu, có thể phân biệt ba trường hợp được minh hoạ theo thứ tự bởi “thế lưỡng nan của người tù”, “cặp đôi tiền bạc” và trò chơi “kẻ nhát gan” (Walisser, 1988). Trong trò chơi đầu (theo thứ tự, thứ hai) chỉ có duy nhất một cân bằng Nash với chiến lược thuần tuý (theo thứ tự, chiến lược hỗn hợp). Trong trường hợp thứ ba, có hai cân bằng Nash với chiến lược thuần tuý và một cân bằng Nash với chiến lược hỗn hợp. Có một phương pháp sơ đẳng để tìm ra ba cân bằng này trong trò chơi số 1. Kí hiệu bằng (q, 1 – q) chiến lược hỗn hợp theo đó D chơi B với xác suất q và bằng (p, 1 – p) chiến lược hỗn hợp theo đó C chơi B với xác suất p. Nếu D chơi (q, 1 – q) thì những chi trả dự kiến của C là 3q + 1 (1 – q) = 2q + 1 nếu C chơi B và 4q nếu C chơi E. Do đó, nếu q > 1/2 thì đáp trả tốt nhất của C (MRC) là E (p = 0). Ngược lại, nếu q < 1/2 thì MRC là B (p = 1). Cuối cùng nếu q = 1/2 thì bất kì giá trị nào của p cũng là một MRC. Tương tự như vậy, nếu D chơi (p, 1 – p) thì những chi trả dự kiến của D là 2p + 1 nếu D chơi B và bằng 4p nếu D chơi E. Do đó nếu p > 1/2 thì đáp trả tốt nhất của D (MRD) là E (q = 0). Ngược lại, nếu p > 1/2 thì MRD là B (q = 1). Cuối cùng nếu p = 1/2 thì bất kì giá trị nào của q cũng là một MRD (xem biểu đồ dưới đây).
MRC và MRD cắt nhau tại ba điểm: (p = 1/2, q = 1/2), (p = 0, q = 1), và (p = 1 q = 0). Điểm đầu là cân bằng Nash với chiến lược hỗn hợp của trò chơi số 1: mục đích mỗi đấu thủ nhắm đến thông qua việc sử dụng những xổ số này là đặt mỗi đấu khủ khác vào một tình thế bàng quan trong đó đấu thủ đó không có chiến lược nào được ưa thích trong số những chiến lược được đấu thủ này gán cho một xác suất không bằng không. Hai điểm còn lại tương ứng với hai cân bằng Nash với chiến lược thuần tuý: (E, B) và (B, E). Để nhanh chóng tìm ra hai cân bằng này, chỉ cần so sánh theo hàng và theo cột thể theo định nghĩa của cân bằng Nash và gạch bên trên những chi trả tương ứng với những đáp trả tốt nhất. Mọi dạng chiến lược nào gắn với một ô trong đó có hai chi trả được gạch trên là một cân bằng Nash với chiến lược thuần tuý. Để giải thích sự trồi lên của một cân bằng như thế, có thể nêu bốn luận chứng cạnh tranh nhau: có liên lạc trao đổi trước, những dự kiến tự hoàn thành, lí thuyết mặc điểm và tập huấn (xem mục cân bằng Nash). Giải thích thứ nhất đặt cơ sở cho khái niệm cân bằng tương quan. Một cách nôm na, định nghĩa một cân bằng tương quan qui lại là tìm một xổ số trên những kết cục của trò chơi sao cho mỗi đấu thủ tối đa hoá lợi ích của bản thân có tính đến những chỉ thị mình nhận được. Kí hiệu bằng r1, r2, r3, r4 những xác suất của (B, B), (B, E), (E, B), và (E, E). Nếu C được lệnh chơi B (theo thứ tự E) thì quyền lợi của C là tuân thủ nếu 3r1 + r2 ³ 4r1 (theo thứ tự 4r3 + r2 ³ 3r3 + r4), nghĩa là r2 ³ r1 (theo thứ tự r3 ³ r4). Tương tự như thế, nếu D nhận chỉ thị chơi B (hay E) thì quyền lợi của D là tuân thủ nếu r3 ³ r1 (theo thứ tự r2 ³ r4). Do đó để cho (r1, r2, r3, r4) hợp thành một cân bằng tương quan thì r1 + r2 + r3 + r4 = 1 và Min (r2, r3) ³ Max (r1, r4). Điều này xác định một continuum những cân bằng tương quan trong đó ta thấy có ba cân bằng Nash được định nghĩa như trên, mọi tổ hợp lồi của những cân bằng Nash với chiến lược thuần tuý và những cân bằng tương quan khác, như (1/3, 1/3, 1/3, 0). Có thể thu được cân bằng cuối này nhờ cơ chế phối hợp sau: một người thứ ba (A) ném một con súc sắc có sáu mặt; nếu mặt con súc sắc là 1 hay 2 thì A nói với C và D phải chơi B; nếu mặt con súc sắc là 3 hay 4 thì A nói với C (theo thứ tự D) phải chơi B (theo thứ tự E); và nếu mặt con súc sắc là 5 hay 6 thì A nói với C (theo thứ tự D) phải chơi E (theo thứ tự B). Thông điệp gởi cho mỗi đấu thủ không cho biết lệnh ra cho đấu thủ kia. Nếu C và D đồng ý với nhau thực hiện cơ chế phối hợp này, thì thoả thuận tự có hiệu lực: quyền lợi của mỗi đấu thủ là tuân thủ những chỉ thị mình nhận được; làm như thế mỗi đấu thủ sẽ nhận được một chi trả kì vọng bằng với 8/3 và do đó lớn hơn 2, vốn là chi trả kì vọng gắn với cân bằng Nash với chiến lược hỗn hợp. Đặc điểm cơ bản của cân bằng này là mỗi đấu thủ không biết chắc chắn lựa chọn của mỗi đấu thủ khác. Sự không chắc chắn này sinh ra từ tính ít nhiều không đầy đủ của thông tin mỗi đấu thủ có được.
John Nash (1928-2015)
Để nghiên cứu loại tình thế này, xét trò chơi số 2. Chris (C), một sinh viên nước ngoài, trình độ tiếng Pháp trung bình, phải chuẩn bị, giống như D, một bài trình bày về lí thuyết trò chơi. Hoặc là C khá (b) hoặc là yếu (m) tiếng Anh. C biết chính xác kiểu của mình; ngược lại D chỉ biết rằng có 90 % là C thuộc kiểu b (p = 0,9). Đối chọn C phải giáp mặt là như sau: lấy trên kệ sách hoặc là từ điển tiếng Anh Harraps (A) hoặc là từ điển tiếng Pháp Le Petit Robert(F). Còn D, giống như trong trò chơi số 1, phải lựa chọn giữa B hoặc E. Trong mọi trường hợp, phải học ở thư viện và càng chuẩn bị tốt nếu có được R94. Một cách thứ yếu, C càng có hiệu quả khi lựa từ điển có ích nhất đối với mình tuỳ theo kiểu của bản thân. D, có trình độ tiếng Anh trung bình, có một cái nhìn lưỡng phân về tình hình: thích chuẩn bị ở thư viện với C nếu C thuộc kiểu b; trường hợp ngược lại thích tự chuẩn bị ở nhà một mình. C và D phải lấy quyết định đồng thời. Hai tình thế này, dưới dạng chiến lược, là như sau:
 
Nhờ Harsanyi (1967-1968), có thể biến đổi một trò chơi như thế với thông tin không đầy đủ thành một trò chơi với thông tin không hoàn hảo trong đó Tự nhiên (N) đi trước và chọn kiểu của C:
Trong biểu trưng dưới dạng chiến lược, mỗi chiến lược của C làm rõ lần lượt hành động của C là thuộc kiểu b và thuộc kiểu m: nếu C chơi, ví dụ, FA thì có nghĩa là, nếu hành động của C là thuộc kiểu b thì chơi F và nếu hành động của C là thuộc kiểu m thì C chơi A. Trong mỗi ô, những thu hoạch lần lượt được ghi là những thu hoạch của C nếu C thuộc kiểu b, nếu C thuộc kiểu m và D (có tính đến p). Bằng trò chơi này, ta có thể minh hoạ cân bằng bayesian, tức là một cân bằng Nash của trò chơi bayesian trong đó mỗi đấu thủ ước tính thu hoạch của mình bằng kì vọng lợi ích bị điều kiện hoá bởi thông tin riêng của mình. Trong trường hợp này, ở thế cân bằng, C chơi FA và D chơi B. Một cách tiên nghiệm điều này là hiển nhiên vì F và A là những chiến lược khống chế của C khi C thuộc, theo thứ tự, kiểu b và m. Đương nhiên, nếu p nhỏ hơn 0,5 thì D sẽ chọn E. Vấn đề trở thành ít tầm thường hơn nếu ta cho C khả năng chơi trước D.

Trò chơi động

Để thấy điều này, trước hết xét trò chơi số 1’, trò chơi này là phiên bản động của trò chơi số 1 trong đó C đi trước:
 
Oscar Morgenstern (1902-1977)
Bằng trò chơi này, vốn là một trò chơi có thông tin không chỉ đầy đủ mà còn là hoàn hảo vì D khi phải ra một quyết định biết C đã làm những gì, có thể minh hoạ hai khái niệm cân bằng: cân bằng Nash động và cân bằng Nash động hoàn hảo (Selten, 1965). Khái niệm sau chỉ đơn giản khái quát hoá cân bằng Nash. Trong trò chơi số 1’, những so sánh theo dòng và theo cột làm nổi lên ba cân bằng loại này: (B, EE), (E, BB)* và (E, EB). Khi D chọn chiến lược EE (theo thứ tự BB) thì D quyết định chơi E (theo thứ tự B) bất luận quyết định của C là gì đi nữa và khi D chọn EB thì D quyết định chơi E (theo thứ tự B) nếu C chơi B (theo thứ tự E). Trong hai trường hợp đầu, D có lời đe doạ nhưng sẽ không thực hiện đe doạ này nếu bị thách thức: quả thế, D không có quyền lợi gì để chơi E (theo thứ tự B) nếu C chơi E (theo thứ tự B). Trong trường hợp cuối, D là đáng tin vì nếu C chơi B (hay theo thứ tự E), thì quyền lợi của D là phải chơi E (theo thứ tự B). Ý tưởng này về tính đáng tin tạo cơ sở cho khái niệm cân bằng Nash động hoàn hảo (trong trò chơi con), khái niệm này là một dạng những chiến lược sao cho những hành động được những chiến lược này chủ trương hợp thành một cân bằng Nash trong tất cả những trò chơi con, một trò chơi con trong một trò chơi với thông tin hoàn hảo, là mọi cây trò chơi có được bằng cách lấy một mắt bất kì của cây ban đầu như điểm gốc. Để tìm ra một cân bằng như thế, phương pháp đơn giản nhất – thuật toán Kuhn – là xuất phát từ cuối trò chơi và tiến hành truy toán lùi. Như vậy đối với trò chơi số 1’, lập luận là như sau: nếu C chơi B thì D chọn E (vì 4 > 3); nếu C chơi E thì D chọn B (vì 1 > 0); biết được điều này nên quyền lợi của C là nên chơi E (vì 4 > 3); do đó (E, EB) là cân bằng hoàn hảo của trò chơi số 1’. Được định nghĩa và minh hoạ như thế, tiêu chuẩn tính hoàn hảo tỏ ra là xác đáng trong một trò chơi động với thông tin đầy đủ, không chỉ khi thông tin là hoàn hảo mà cả khi thông tin là không hoàn hảo, nghĩa là khi, ví dụ, một trò chơi tĩnh được lặp lại.
Von Neumann (1903-1957)
Để nghiên cứu trường hợp này, trước hết giả sử là trò chơi số 1 không còn được chơi một lần mà là hai lần. Trong trường hợp này C và D có thể thay phiên nhau chơi E. Như thế, kế hoạch đầy đủ của C (theo thứ tự D) là, trong lần đầu, chơi E (theo thứ tự B), và lần thứ nhì, bất luận lịch sử của trò chơi là như thế nào, chơi B (theo thứ tự E). Những chiến lược được xác định như thế hợp thành một cân bằng hoàn hảo. Thu hoạch trung bình của mỗi đấu thủ là 5/2. Tất nhiên có thể hoán đổi vai trò của các đấu thủ. Hơn nữa, ba cân bằng Nash của trò chơi cấu thành có thể được lặp lại. Cuối cùng có thể luân phiên chơi cân bằng Nash với chiến lược hỗn hợp và một trong hai cân bằng Nash với chiến lược thuần tuý. Nếu trò chơi số 1 không chỉ được chơi một lần mà T (T ³ 3) lần, thì xuất hiện một một cân bằng hoàn hảo mới trong đó C và D trước hết đồng thời chơi B, T – 2 lần, tiếp đấy rồi mỗi người lần lượt chơi B (người kia chơi E); nếu C (theo thứ tự D) chơi E (theo thứ tự E) ở một trong những T – 2 thời kì đầu, thì trong tất cả những thời kì sau đó sẽ chơi (B, E) (theo thứ tự (B, E)). Nếu các đấu thủ chọn những chiến lược này thì tổng thu hoạch của mỗi người là 3 (T – 2) + 5 = 3T – 1. Nếu một đấu thủ đi chệch khỏi chiến lược này tại thời điểm t £ T – 2 thì tổng thu hoạch sẽ là 3 (t – 1) + 4 + 1 (T – 1) £ 3T – 3 < 3T – 1. Những chiến lược này hợp thành một cân bằng Nash hoàn hảo vì những trừng phạt là việc lập lại những cân bằng Nash của trò chơi cấu thành. Một cách tổng quát hơn, người ta có thể chứng minh là nếu một trò chơi được lặp lại một số hữu hạn lần và không hiện tại hoá, trong phiên bản cơ bản của trò chơi, có một vectơ chi trả trung bình cân bằng khống chế vectơ min-max thì mọi vectơ chi trả duy lí cá thể ngặt và thực hiện được, tới giới hạn, là một vectơ chi trả trung bình của một cân bằng hoàn hảo. Trong một trò chơi có hai đấu thủ, một chi trả duy lí cá thể ngặt là, đối với một đấu thủ, một chi trả cao hơn hay bằng chi trả min-max của đấu thủ đó khi tìm cách tối đa hoá thu hoạch của bản thân với chiến lược của đấu thủ kia là cho trước và đối thủ này chọn chiến lược của mình sao cho tối thiểu hoá thu hoạch tối đa của đối thủ của mình. Phiên bản này của “định lí dân gian” cho phép chứng minh là, trong trò chơi số 1 lặp lại, với vectơ chi trả min max là (1, 1), thì có thể gắn một cân bằng hoàn hảo cho mọi điểm của vùng tô đậm trong biểu đồ dưới đây:
 
Khi số lần lặp lại trò chơi cấu thành là hữu hạn thì không nhất thiết là tính bội của những cân bằng, như đã được làm rõ, hiện ra: ví dụ, nếu trò chơi cấu thành được đặc trưng, như trong “thế lưỡng nan của người tù”, bởi tính đơn nhất của cân bằng thì trò chơi lặp lại không hiện tại hoá có một cân bằng hoàn hảo duy nhất, tức là việc lặp lại cân bằng của trò chơi cấu thành. Ngược lại, khi số lần lặp lại trò chơi cấu thành là vô hạn thì việc mở rộng tập những vectơ chi trả trung bình thực hiện được dưới dạng cân bằng hoàn hảo là qui tắc phổ biến. Tính bội này của những cân bằng cũng thường đặc trưng cho những trò chơi động với thông tin không đầy đủ.
Để thấy điều này, xét trò chơi số 2’, là một phiên bản động của trò chơi số 2 trong đó C chơi trước:
Trong biểu trưng dưới dạng mở rộng của trò chơi này, q, 1 – q, r và 1 – r là những tin tưởng hậu nghiệm của D. Ví dụ, đối với D, q là xác suất rằng C thuộc kiểu b khi biết là C đã chơi F. Ở cuối mỗi nhánh, con số nằm trên (theo thứ tự nằm dưới) chỉ thu hoạch của C (theo thứ tự của D). Trò chơi tín hiệu này (đối lập với trò chơi có lọc đòi hỏi là đấu thủ không được thông tin chơi đầu), trong đó C là người phát tín hiệu và D là người nhận tín hiệu có hai cân bằng (Nash động) bayesian: (FF, BE, q = 0,9, r) và (AA, EB, q, r = 0,9). Đây là hai cân bằng pha trộn: trong mỗi trường hợp, người phát tín hiệu vẫn chơi theo cùng một cách bất luận mình thuộc kiểu nào và do đó những tin tưởng của người nhận tín hiệu bằng với những tin tưởng tiên nghiệm: p = 0,9 và 1 – p = 0,1. Giữa hai cân bằng này có thể thử lựa chọn bằng cách vận dụng nguyên lí truy toán lùi (nguyên lí đặt cơ sở cho tính hoàn hảo) theo đó phải loại trừ những cân bằng có một đe doạ không đáng tin. Trong vấn đề được nghiên cứu, bộ lọc được Kreps và Wilson (1982) xây dựng tỏ ra là quá thô thiển để ngăn chặn một trong hai cân bằng bất kì nào vừa được xác định trên đây: trong cả hai trường hợp, những đáp trả của người nhận tín hiệu nằm ngoài quĩ đạo cân bằng đều tương hợp với ít nhất một phân phối xác suất có điều kiện. Chính xác hơn, (FF, BE, q = 0,9, r £ 0,5) và (AA, EB, q £ 0,5, r = 0,9) là hai cân bằng bayesian hoàn hảo, nghĩa là những tổ hợp chiến lược và tin tưởng sao cho những chiến lược này là tối ưu với những tin tưởng cho trước và những tin tưởng này được xét lại theo qui tắc Bayes. Trong cân bằng đầu (theo thứ tự cân bằng thứ hai) r (theo thứ tự q) phải nhỏ hơn hay bằng 0,5 vì với điều kiện này thì răn đe của D định chơi E (theo thứ tự E) ở ngoài đường cân bằng mới đáng tin. Để lựa chọn giữa hai cân bằng bayesian hoàn hảo được xác định như trên, phải vận dụng nguyên lí truy toán tiến đặt cơ sở cho tiêu chuẩn trực giác của Cho và Kreps (1987). Tiêu chuẩn này tinh vi hoá tiêu chuẩn trước hơn nữa bằng cách kéo theo là nếu tập thông tin theo một thông điệp nằm ngoài quĩ đạo cân bằng và nếu ở thế cân bằng thông điệp này không bị khống chế cho tất cả các kiểu, thì người nhận tín hiệu phải gán một xác suất bằng không cho kiểu được xem xét. Trong trò chơi đuợc nghiên cứu, tiêu chuẩn này cho phép loại trừ (AA, EB, q £ 0,5, r = 0,9): từ cân bằng này, quyền lợi của một người nhận tín hiệu thuộc kiểu b có thể là nên đi chệch khỏi quĩ đạo cân bằng (như vậy, người này có thể thu hoạch hoặc 2 hoặc 4 thay vì 3,5), ngược lại một người nhận tín hiệu thuộc kiểu m không bao giờ có lợi khi hành động như thế (vì 4 > 3 và 4 > 1); do đó D phải gán một xác suất (1 – q) bằng không cho kiểu m. Do điều kiện này và điều kiện đảm bảo tính hoàn hảo của cân bằng (q £ 0,5) là không tương hợp nên (AA, EB, q £ 0,5, r = 0,9) là không thoả đáng một cách trực giác. Ngược lại, dễ dàng chứng minh rằng (FF, BE, q = 0,9, r £ 0,5) là thoả đáng theo trực giác và ổn định (phổ cập), để nêu lên những tiêu chuẩn tinh vi hoá chính (đặc biệt được trình bày trong Fudenberg & Tirole, 1991) bổ sung cho những tiêu chuẩn được dùng trên đây. Cuối cùng, xin nhấn mạnh là trong trò chơi số 2’, không có cân bằng tách, nghĩa là sao cho C chơi theo một cách nếu thuộc kiểu b và theo một cách khác nếu thuộc kiểu m. Tuy nhiên, nếu p có một giá trị nhỏ hơn 0,5, ví dụ như 0,1, sao cho lời giải nổi lên là một cân bằng nửa tách; nếu C thuộc kiểu b thì bao giờ C cũng chơi F, và nếu thuộc kiểu m thì chơi F với xác suất 1/9 và chơi A với xác suất 8/9; nếu C chơi F, thì D chơi B hay E theo đồng xu xấp ngửa và, nếu C chơi A thì D bao giờ cũng chơi E.
Được trình bày như trên, lí thuyết trò chơi không hợp tác, dựa trên giả thiết kép về tính duy lí và tính vị kỉ của các đấu thủ, tỏ ra đặc biệt phong phú: lí thuyết cho phép đổi mới không chỉ “kinh tế học công nghiệp”, để lấy lại tựa một tác phẩm của Tirole, và của hầu hết những nhánh của khoa học kinh tế mà còn cả những khoa học xã hội khác, như luật học (Baird, Gerner & Picker, 1994) và khoa học chính trị (Ordeshook, 1992). Tính phong phú rõ rệt này đã không loại trừ những công trình đặt lại vấn đề về mặt lí thuyết. Dưới góc độ này, có thể nêu hai khái niệm mới: cân bằng ổn định theo quan điểm tiến hoá của Maynard Smith và Price (1973) và cân bằng phù hợp với công lí của Rabin (1993). Trong trường hợp sau mỗi đấu thủ được giả định không phải là vị kỉ nhưng sẵn sàng hi sinh một phần thu hoạch của mình để thưởng sự tử tế hay phạt sự ác độc cuả người khác, hai động cơ này càng mạnh khi sự hi sinh tài chính để công bằng ngự trị càng yếu. Trong trường hợp đầu, các đấu thủ được xem là không phản ứng một cách duy lí: họ lựa chọn không ý thức hành động của mình nhưng thừa hưởng hành vi của những người đi trước họ. Trò chơi số 1 cho phép minh hoạ hai khái niệm mới này: nếu C và D được giả định là quan tâm đến công bằng và nếu những thu hoạch tiền tệ được thay thế cho những chi trả (không làm thay đổi cấu hình của trò chơi) thì (B, B) và (E, E) nổi lên như những cân bằng Rabin; nếu C và D được xem như hai phần tử bất kì của một tập những sinh viên và nếu chơi E (hay B) là có một hành vi “diều hâu” (hay “bồ câu”) thì cân bằng Nash với chiến lược hỗn hợp trở thành cân bằng Maynard Smith và Price. Để tìm hiểu thêm về cách tiếp cận sau này và cách tiếp cận gắn với tập huấn thích nghi, có thể tham khảo Kreps và Wallis (1997).
▶ AUMANN R. J., “Subjectivity and correlation in randomized strategies”, Journal of Mathematical Economics, 1974, n0 1, p. 67-96; “Game Theory” trong EATWELL J. MILGATE M. & NEWMAN P. chủ biên, The New Palgrave: A Dictionary of Economics, vol.2, London, Macmillan, 1987. – BAIRD E. G., GERTNER R. H. & PICKER R. C., Game Theory and the Law, Cambridge, Harvard University Press, 1994. – BINMORE K., Fun and Games: a Text on Game Theory, Lexington (DC), Heath, 1992. – BRAMS S., Biblical Games: A Strategic Analysis of Stories in the Old Testament, Cambridge, MIT Press, 1980. – CHO I. K. & KREPS D. M., “Signaling games and stable equilibria”, Quarterly Journal of Economics, 1987, n0 2, p. 179-221. – DEMANGE G. & PONSARD, Théorie des jeux et analyse économique, Paris, PUF, 1994. – DIMAND M. A. & DIMAND R. W., The History of Game Theory, London, Routledge, vol. 1, 1996; The Foundations of Game Theory, vol. I, II và III, Cheltenham, Edward Elgar, 1997. – DOS SANTOS FERREIRA R., “Introduction”, Revue économique, 1991, n0 6, p. 959-966. – FUDENBERG D. & TIROLE J., Game Theory, Cambridge, MIT Press, 1991. – GIBBONS R., A Primer in Game Theory, New York, Harvester Wheatsheaf, 1992. – GREMAQ A.-A., Dynamique, information incomplète, stratégies industrielles, Paris,Economica, 1988. – GUL F., “A Nobel prize for game theorists: the contribution of Harsanyi, Nash and Selten”, Journal of Economic Perspectives, 1997, n0 3, p. 159-174. – HARSANYI J. C., “Games with incomplete information played by “bayesian“ players”, Management Science, 1967-1968, vol. 14, 3, p. 159-182, n0 5, p. 320-334, n0 7, p. 486-502; “Games with randomly disturbed payoffs a new rationale for mixed-strategy equilibrium points”,International Journal of Game Theory, 1973 n0 1, p. 1-23. – KREPS D. M. & WALLIS K. F.,Advances in Economics and Econometrics: Theory and Applications, vol. I, Cambridge, University Press, 1997. – KREPS D. M. & WILSON R., “Sequential equilibria”, Econometrica, 1982, n0 4, p. 863-894. – MAYNARD SMITH J & PRICE G. R., “The logic of animal conflict”,Nature, 1973, vol. 246, p. 15-18. – NASH J. F., “The Bargaining Problem”, Econometrica, 1950, n0 2, 155-162m; “Non cooperative games”, Annals of Mathematics, 1951, n0 2, 286-295. – ORDESHOOK P. C., A Political Theory Primer, New York, Routledge, 1992.- RABIN M., “Incorporating fairness into game theory and economics”, American Economic Review, 1993, n0 5, p. 1281-1302. – RUBINSTEIN A., “Perfect equilibrium in a bargaining model”,Econometrica, 1982, n0 1, p. 97-109; Game Theory in Economics, Aldershot, Edward Elgar, 1990. – SCHMIDT C., “Game theory and economics: an historical survey”, Revue déconomie politique, n0 5, p. 589-618; “Présentation”, n0 4, p. 529-538. – SELTEN R., “Spieltheoretische Behandlung eines Oligopolmodells mit Nachfrageträgheit”, Zeitchrift für die gesamteStaatwissenschaft, 1965, vol. 121, p. 301-324 và 667-689. – WALISER B., “A simplified taxonomy of 2 x 2 games”, Theory and Decision, 1988, n0 2, p. 163-191, – WEINTRAUB E. R. chủ biên, Toward a History of Game Theory, Durnham, Duke University Press, 1992.
Régis Deloche
Giáo sư đại học Franche-Comté (BesanVon)
Nguyễn Đôn Phước dịch
Nguồn: Dictionnaire des sciences économiques, sous la direction de Claude Jessua, Christian Labrousse, Daniel Vitry, PUF, Paris, 2001.
® Cân bằng Nash; Kinh tế học thực nghiệm; Kinh tế toán học; Lí thuyết mặc cả; Thế lưỡng nan của người tù; Thông tin không đối xứng.
————-&&————

Tuyển sinh đại học và Sự ổn định của hôn nhân

“Gale-Shapley’s 1962 paper  on the stable marriage problem provides the first formal statement and proof of a problem that has far-reaching implications in many matching markets and is currently being applied in New York and Boston public school systems in assigning students to schools. In 2012 The Nobel Prize in Economics was awarded to Shapley for this work.”

Về việc áp dụng thuật toán DAA của Gale-Shapley trong xét tuyển

(Tác giả: Nhóm Đối Thoại Giáo Dục – Nguồn: hocthenao.vn)

BÁO CÁO SƠ BỘ VỀ KHẢ NĂNG ÁP DỤNG THUẬT TOÁN DAA (DEFERRED-ACCEPTANCE ALGORITHM) CỦA GALE-SHAPLEY TRONG TUYỂN SINH ĐẠI HỌC

I. Lý thuyết ‘xe duyên’ (matching) và thuật toán Gale-Shapley

Thuật toán stable matching (kết duyên bền vững) Gale-Shapley được Lloyd Shapley và David Gale giới thiệu từ những năm 1960. Đến những năm 1980, Alvin Roth đã có những nỗ lực liên tục để sử dụng thuật toán này tìm ra các giải pháp thực tiễn nhằm giải quyết các vấn đề thực trong cuộc sống thường ngày.

Thành công của Alvin Roth mang lại cho Roth và Shapley giải Nobel kinh tế năm 2012.

Các ứng dụng từ Roth và Shapley có thể mở rộng từ phân công tân bác sĩ vào các bệnh viện, ghép các tú tài vào các trường đại học phù hợp và phân phối (theo cơ chế bao cấp) nội tạng đến các bệnh nhân cần ghép.

Thuật toán “xe duyên” Gale – Shapley có thể giải quyết được bài toán kinh tế truyền thống “cung và cầu gặp nhau” nhưng không cần cơ chế “giá”. Ví dụ phía cung (các trường đại học) sẽ kết duyên ổn định với phía cầu (các tân tú tài muốn học đại học) mà không cần có một cơ chế giá mua/bán.

Thuật toán này hoạt động trên một tiên đề chung (common notion) về tính ổn định của hệ thống và năng lực nhận thức thuần lý của người tham gia hệ thống bên cầu (thí sinh). Thí sinh  được giả định có lý tính tốt, biết rõ mình muốn gì và hành vi lựa chọn (chọn trường) của họ tuân theo lý tính. Thí sinh sẽ tham gia việc chọn và được chọn trường, được thay đổi lựa chọn của mình, cho đến khi họ có dược kết quả tốt nhất.  Tình trạng khi mà thí sinh  tiếp tục có thay đổi lựa chọn trường, nhưng không làm họ có kết quả tốt hơn, được gọi là ổn định (stable).

Trạng thái “kết duyên bền vững” (stable matching) sẽ đạt được “khi tất cả thí sinh vào được trường cao nhất có thể”. Lúc đó cung (các trường đại học) đáp ứng cầu (thí sinh) ở trạng thái ổn định bền vững.

Giải pháp của Gale-Shapley, được biết với tên gọi thuật toán deferred acceptance”, là một bộ các quy tắc đơn giản luôn đi trực tiếp đến trạng thái kết duyên bền vững (stable matching) trong môt số điêu kiện nhất định. Có hai cách thiết kế thuật toán: phía cung (các trường đại học) chủ động chọn (thí sinh); hoặc phía cầu (các thí sinh) chủ động nộp đơn (tới các trường mình muốn học).

II. Ứng dụng vào kỳ Thi quốc gia ở Việt Nam

2.1 Một vài vấn đề cần cân nhắc

Triết lý giáo dục đại học của nhóm VED, như đã thể hiện trong Đề xuất cải cách đại học VED 2015, là ủng hộ tự do đại học trong đó đề cao tính tự chủ của đại học.

Các trường tự chủ trong tuyển sinh là một trong những đề xuất quan trọng của VED.

Như vậy một hệ thống xét tuyển tập trung có thể đi ngược với quan điểm và triết lý của VED, đồng thời tạo ra một e ngại là hệ thống xét tuyển tập trung sẽ làm mất đi tính cạnh tranh cần phải có giữa các đại học.

Bên cạnh đấy, việc sử dụng một hệ thống xét tuyển tập trung có thể sẽ làm các trường đại học nhỏ mất đi phần lớn cơ hội tuyển được thí sinh khá giỏi .

Về việc triển khai ứng dụng của thuật toán Gale-Shapley cho một hệ thống xét tuyển tập trung phục vụ thí sinh và các trường đại học trên toàn quốc chắc chắn sẽ có ảnh hưởng đến hàng triệu con người. Vì vậy rất cần những nghiên cứu khoa kỹ lưỡng trước khi đi đến một bản thiết kế tốt nhất để đem vào ứng dụng trong thực tiễn.

Ứng dụng thực tiễn nổi tiếng nhất của thuật toán phát triển lên từ Gale-Shapley là “xe duyên” các bác sĩ mới tốt nghiệp chọn bệnh viện để thực tập (bang NY).  Ứng dụng này khác với việc tuyển sinh nhiều mặt.

a) Thứ nhất đây là người đã trưởng thành, đi tìm việc, tâm lý thái độ khác với hs đi học đại học. Nếu để so sánh, thì so sánh chính xác phải là ứng dụng Gale-Shapley cho sinh viện sư phạm tốt nghiệp đi tìm việc ở Việt Nam.

b) Ngoải ra các bác sĩ đã được interview trước, nên biết khả năng mình sẽ được vào nhưng trường cỡ nào, nên việc lựa chọn bản thân nó đã tự chính xác.

Một năm việc tuyển sinh đại học ở Mỹ tốn kém chừng 10 tỷ dollar. Câu hỏi là sao họ không ứng dụng G-S vào việc tuyển sinh chung? Nhất là khi các trường ở Mỹ có xếp hạng (ranking) rất rõ ràng. Một lý do hiển nhiên là không trường nào muốn làm như thế cả vì có lẽ nó làm giảm tính cạnh tranh.

Nếu muốn ứng dụng Gale-Shapley vào xét tuyển chung cho Việt Nam, ta cần làm rõ giải pháp này để tối ưu hóa cái gì? Có thể tính ổn định không chưa phải là ưu tiên. Mục đích của giải pháp, nên chăng, là tối ưu hóa số lượng thí sinh thỏa mãn (hoặc gần thỏa mãn) với trường đại học mình được nhận vào. Tính ổn định và tối ưu hóa số lượng thí sinh thỏa mãn nguyện vọng của mình là những bài toán khác nhau, sẽ dẫn đến những kết quả khác nhau.

2.2 Từ thực tiễn tuyển sinh năm nay

Tuy nhiên với thực tiễn Việt Nam, có nhiều trường đại học vì nhiều lý do đã không tự tổ chức thi đầu vào riêng cho mình. Thay vào đó những trường này sử dụng kết quả của kỳ thi THPT quốc gia cho xét tuyển.

Kỳ thi quốc gia 2 trong 1 năm nay tuy có nhiều sự cố, nhưng lợi ích (chi phí) xã hội của kỳ thi này tương đối rõ: thi phân tán và sử dụng kết quả của một kỳ thi cho các mục đích khác nhau, dẫn đến giảm bớt phí tổn xã hội.

Như vậy một kỳ thi quốc gia với kết quả  được sử dụng như một công cụ tập trung hóa cao độ để xét tuyển đại học tuy trái ngược với chủ trương của VED, nhưng VED cố gắng thực hiện các thảo luận và tranh luận nội bộ để trả lời câu hỏi: nếu sử dụng các công cụ toán và kinh tế hiện đại vào hình thức tuyển sinh tập trung hiện nay có cải thiện được hiệu quả của hệ thống này hay không.

III. Một vài phân tích.

3.1 Về tính tự chủ của đại học

Việc tuyển sinh đã từng liên quan đến những cuộc thảo luận của VED trước đây. Khi so sánh với phương pháp tuyển sinh ở các nước phát triển, cũng có mức độ đa dạng đáng kể. Ở Mỹ hệ thống hoàn toàn phân tán (decentralized) và ngoại trừ khớp thời gian thì hoàn toàn không thống nhất (uncoordinated).

Nhưng ở một số nước châu Âu như Pháp lại có hệ thống thi cử quy mô lớn.

Tại sao các đại học Mỹ không áp dụng G-S?

Lý do đầu tiên là do Mỹ không có cơ quan quản lý và điều phối chung cho tất cả các trường đại hoc (không có Bộ giáo dục và đào tạo như ở Việt Nam). Để áp dụng G-S cần phải có một hệ thống đại học tập trung hóa (centralized) như VN hoặc các đại học phải có tính phối hợp (coordination) rất cao, cùng từ chối – nhận học (defer-offer) vào cùng một thời điểm.

Lý do thứ hai là các đại học Mỹ tuyển sinh dựa vào nhiều tiêu chí chứ không chỉ dựa vào duy nhất điểm thi đại học như VN. Nhiều tiêu chí phi định lượng (non-quantitative) nên không thể/khó có thể thực hiện nhiều vòng từ chối – nhận học (defer-offer) vì sẽ rất tốn kém và mất thời gian cho cả đại học lẫn thí sinh.

Trong hệ thống của Pháp (hệ thống Trường Lớn), thí sinh thi rất nhiều môn, có cả thi vấn đáp và phỏng vấn, để sau đó được đánh giá bởi một điểm tổng hợp (composite) các thành tích gộp lại. Sau khi hình thành điểm composite thì trường không còn tự chủ nữa: họ tự động nhận thí sinh từ trên xuống dưới cho đến khi đủ số. Trong nhiều trường hợp, vì không có hệ thống matching tốt, có những trường cuối cùng phải chọn thí sinh yếu hơn, vì thí sinh giỏi đã trót nhận trường khác, v.vv.

Nhìn ở tầm dài hạn hơn, việc tuyển sinh Đại học ở Mỹ (chủ yếu theo triết lý giáo dục liberal arts) nhằm vào một *lớp/class* chứ không phải chỉ là mức ưu tiên trên mỗi cá nhân (preference over individuals). Nghĩa là họ muốn đảm bảo trong class phải có sinh viên đa dạng, mang lại trải nghiệm đại học (college experience) đặc sắc cho các bạn. Theo triết lý này thì các phương pháp như DAA của Gale-Shapley không có chỗ ứng dụng: Triết lý này đánh giá cao ngoại tác qua lại (externalities) giữa sinh viên với nhau, và dựa vào xếp hạng mức ưu tiên (preference ranking) giữa các tập sinh viên (sets of students) chứ không phải chỉ là so sánh giữa các cá nhân. Trong khi phương pháp như DAA hoàn toàn dựa vào preference giữa các cá nhân (thậm chí còn phải là ưu tiên chặt chẽ strict preference nữa). Đây là điểm mấu chốt để nhận xét xem môi trường nào thích hợp cho DAA, môi trường nào không.

Câu hỏi là, Việt Nam nên theo triết lý này của các Đại học ở Mỹ, hay theo một triết lý khác, ví dụ đi theo các trường lớn ở Pháp?

Trả lời câu hỏi này rất quan trọng nhưng cần lưu ý rằng hiện nay Việt Nam phần nào vẫn đang thực hiện theo triết lý Pháp, xét tuyển chỉ dựa vào điểm thi đại học (ngoại trừ một số trường hợp nhỏ được ưu tiên bằng hình thức cộng điểm). Vấn đề là hệ thống hiện nay (kỳ tuyển sinh 2015 vừa rồi) có nhiều điểm bất cập mà chỉ cần áp dụng G-S thuần tuý cũng đã cải thiện thêm nhiều.

3.2 Về tính cạnh tranh của toàn hệ thống đại học

Hệ thống “xe duyên” tập trung (matching system) có thể sẽ không làm hỏng tính cạnh tranh của đại học. Trong hệ thống matching, các trường vẫn cạnh tranh để được nhiều thí sinh tốt chọn mức ưu tiên (prefer). Chuyện này trong hệ thống nào cũng có, và vẫn được đề cao. Thực chất là khi thí sinh được thoải mái ghi ra toàn bộ nguyện vọng (list of preference) của mình, chứ không phải chỉ chọn ra một vài trường, thì sức ép về competition còn cao hơn trước.

Song song với mối lo mất tính cạnh tranh là mối lo các trường nhỏ bị thiệt.

Sử dụng  G-S hay một hệ thống tuyển sinh tập trung hóa (centralized) nào khác chưa chắc đã làm hỏng tính cạnh tranh giữa các trường, nhưng có thể sẽ làm giảm đa dạng hóa (diversification) giữa các trường và trong nội bộ từng trường, ví dụ vấn đề công bằng (equality). Ví dụ như thí sinh giỏi vào hết trường ở tốp đầu..

Đây là mối lo hợp lý, chủ yếu là do cạnh tranh (theo nghĩa trường nào tốt hơn sẽ được nhiều thí sinh tốt hơn) luôn là việc phải đánh đổi (trade-off) với công bằng. Các trường nhỏ, yếu cũng mong có thí sinh tốt. Một hệ thống xếp hạng dựa vào danh hiệu và uy tín (meritocratic) nặng hơn (giữa các trường) có thể dẫn đến việc các trường yếu hơn chịu thiệt hơn.

Đối nghịch với một hệ thống cạnh tranh ác liệt sẽ là một hệ thống thiên về công bằng, san sẻ toàn bộ: thí sinh chọn ngẫu nhiên vào các trường, bất kể là trường tốt hay yếu.

Như vậy có thêm một câu hỏi: về dài hạn, hệ thống nào sẽ tốt hơn cho sự phát triển của xã hội?

Về lâu dài, sự cạnh tranh bắt các trường phải tự cải thiện để thu hút thí sinh. Họ cũng có thể đưa ra chính sách nhắm vào một nhóm học sinh giỏi đặc biệt bằng cách đưa ra đối xử tốt hơn, không chỉ dựa vào điểm thi. Việc này có thể đưa vào hệ thống matching được. Ví dụ, trường A thuộc loại làng nhàng, những thí sinh trên 27 điểm sẽ được thêm tiền học bổng nếu chọn vào A. Như thế vẫn có thể ảnh hưởng lên nguyện vọng (preference) của thí sinh giỏi, và có thể thu hút một nhóm thí sinh giỏi có cảm tình với trường.

Hơn nữa, nguyện vọng (nhìn từ phía các trường đại học ở Việt Nam) từ trước đến giờ tương đối đơn giản (chỉ dựa theo điểm thi), nên có thể dự đoán là “kết quả tệ nhất” cho các trường cũng sẽ không quá tệ.

3.3 Nguyện vọng của thí sinh và chiến lược chọn trường

Mỗi thí sinh đưa ra danh sách nguyện vọng cá nhân của mình, hoàn toàn không phụ thuộc vào cơ hội trúng tuyển hay không. Nói cách khác, danh sách này là nguyện vọng của thí sinh nếu như được nhận tất cả các trường.

Nếu sử dụng thuật toán DAA của Gale Shapley với hướng thí sinh là bên “cầu hôn” (student proposer) thì cũng đồng nghĩa chiến lược chọn trường tốt nhất (best strategy) mà mỗi thí sinh nên làm là nộp danh sách nguyện vọng thực sự của mình. Đây là đặc tính nói thật (truth telling), hay là manipulation-proof, của phương pháp này.

Nếu chọn phương pháp khác, thì không đảm bảo đấy là best strategy, nên các thí sinh có thể chọn cách nộp danh sách không phải là nguyện vọng thực sự để tìm cách can thiệp (manipulate) vào kết quả cuối cùng. Đây cũng là một điểm quan trọng để chọn phương pháp “xe duyên”.

Việc mỗi thí sinh đưa ra một danh sách các trường theo nguyện vọng thực của mình còn tạo ra một sản phẩm phái sinh có ích. Đó là xếp hạng (ranking) các trường đại học dựa vào nguyện vọng được công bố (revealed preference).

Việc so sánh trực tiếp được 2 trường với nhau (bao nhiêu thí sinh thích trường A hơn B, so với bao nhiêu thí sinh thích trường B hơn A) có thể làm thước đo trực tiếp để các trường, khoa giống nhau có thể cạnh tranh và phấn đấu. Hiện giờ cũng có thể nhìn chút ít vào điểm chuẩn, nhưng thông tin từ đây rất ít so với dang sách nguyện vọng.

Ví dụ, trường A có thể có điểm chuẩn thấp hơn trường B, nhưng không phải vì A ít được ưa thích hơn so với B, mà lý do có thể là vì A nhận nhiều sinh viên hơn B, hoặc thậm chí cùng nhận 500 sinh viên, nhưng A nhận 400 em điểm trên 28 và 100 em điểm tầm 20 đến 21 (nên điểm chuẩn là 20), trong khi B nhận 400 em điểm từ 21 đến 22 (nên điểm chuẩn là 21). Đây không phải là cách duy nhất để xếp hạng các trường. Trước đây nhóm VED cũng đã bàn nhiều đến các cách xếp hạng dựa vào nội dung học, nhận xét của sinh viên, nhận xét của nhà tuyển dụng, khả năng sinh viên có việc vv. Ý tưởng ở đây là nguyện vọng được công bố (revealed preference) là một thông tin rất có giá trị cho việc đánh giá so sánh, nhất là về lâu dài, khi sinh viên có dự kiến và tự đánh giá tốt được vào mỗi trường sẽ như thế nào.

Lưu ý: để thực sự có được “revealed preference”, thì cách xe duyên (match) phải bảo đảm tính chất nói thật (truth telling), tức là thí sinh không can thiệp vào thứ tự nguyện vọng (manipulate preference order) của mình. Vì thế thuật toán DAA student-proposer lại có lợi thế nữa ở đây.

3.4 Tính ổn định và độ thỏa dụng xã hội của hệ thống

Đúng là không có phương pháp lựa chọn có được tất cả các yếu tố ưu việt nhưng trong trường hợp này DAA có vẻ như có nhiều yếu tố ưu việt quan trọng.

Vệc chọn kết quả tối ưu cho phe “cầu hôn” (thí sinh) là tương đối hợp lý nhìn từ quan điểm tối ưu cho người đề xuất (suitor-optimal) và bất lợi cho bên xét duyệt đề xuất (reviewer-pessimal). Trong ngữ cảnh các trường đại học công, phía thí sinh vào vai suitor sẽ không có vấn đề gì nghiêm trọng. Đại học công phục phụ cộng đồng, không phải là ngược lại.

Ví dụ gần với tuyển sinh cho đại học công của  Việt Nam nhất là đóng góp của Roth trong việc chọn trường trung học ở New York.  Xem thêm:http://www.nytimes.com/2014/12/07/nyregion/how-game-theory-helped-improve-new-york-city-high-school-application-process.html

Tính ổn định (stability) là một yếu tố rất quan trọng, vì nó quyết định tính khả thi trong thực tế. Nếu không có tính ổn định, thì sẽ có những thí sinh  không chấp nhận mối kết duyên (match) của mình. Ví dụ thí sinh chỉ được nhận vào trường B, trong khi thích trường A hơn, mà có các bạn khác điểm thấp hơn vẫn được vào trường A. Đây là yếu tố có thể dẫn đến chuyện sụp đổ hoàn toàn hệ thống, dù cho có nhiều thí sinh được nguyện vọng số 1.

Về thỏa dụng xã hội (social utility). Rất khó để định nghĩa rõ ràng các lựa chọn xã hội (social choices). Có thể nhìn thấy rất nhiều trạng thái kết duyên không ổn định (non-stable matches) có giá trị hơn trạng thái cân bằng khi sử dụng DAA (student-proposer). Dựa vào trật tự Pareto (Pareto-order) trong các thí sinh  với nhau: trạng thái cân bằng DAA (student-proposer) chính là tối ưu Pareto. Có thể có nhiều trạng thái kết duyên không ổn định cũng là tối ưu Pareto, nhưng giữa các kết duyên ổn định thì  cân bằng DAA (student-proposer) hoàn toàn vượt trội.

Một đặc tính ưu việt của DAA (student-proposer) đó là việc thí sinh không thể can thiệp được vào kết quả. Đây là một tính chất rất đáng cân nhắc. Hiện nay rất nhiều thí sinh ở Việt Nam lựa chọn trường chỉ dựa vào khả năng được trường đó nhận học (thi đỗ) mà không quan tâm nhiều đến giá trị của ngành mình sẽ học, trường mình sẽ học. Hệ thống xét tuyển sử dụng DAA sẽ hiệu quả nếu các thí sinh nộp đơn với danh sách nguyện vọng thực tâm của mình.

IV. Đề xuất: Một số ý kiến

Nếu ứng dụng DAA vào xét tuyển đại học tập trung cho toàn quốc, cần phải có một trung tâm xét tuyển tập chung (centralized matching maker), tốt nhất là một cơ quan độc lập.

Hệ thống matching hoàn toàn có thể chỉ là một dạng định chế (institution), tức là một hệ quy tắc (system of rules) để thực hiện theo cách phi tập trung (decentralized). Tính ổn định của hệ thống giúp việc thực hiện phi tập trung hóa).

Yếu tố quan trọng nhất là  công bố thông tin trung thực (reveal truthful information) toàn bộ nguyện vọng của thí sinh. Trong dài hạn, đây là điểm cải thiện tính minh bạch trong xã hội.

Đề xuất các bước tiến hành:

a) Tìm hiểu xem liệu chính phủ và Bộ GD ĐT có mong muốn và có khả năng cải hiện hệ thống matching hiện nay giữa các đại học và thí sinh.

b) Nếu câu trả lời là có, mời thêm các nhà nghiên cứu đầu ngành về “matching markets” và các lĩnh vực liên quan để thành lập một nhóm nghiên cứu (study group) để nghiên cứu kỹ lưỡng các khả năng khác nhau. Mở rộng thảo luận ra nhiều đối tượng khác nhau, kể cả ra xã hội, về các ưu tiên của một hệ thống được coi là tốt.

c) Về chuyên gia, VED có thể mời sang cùng làm việc với MoET và Chính phủ: Giáo sư Parag Pathak (MIT) , Giáo sư Alvin Roth (Stanford, Giải Nobel Kinh Tế). Những cá nhân như Parag Pathak có kinh nghiệm vượt trội trong việc thiết kế một hệ thống matching cho thế giới thực cũng như đánh giá được hệ thống hiện tại. Có thể kể thêm một số nhà kinh tế khác đang nghiên cứu về matching markets: Fuhito Kojima (Stanford), Mihai Manea (MIT), Alfred Galichon (Sciences Po).

d) Chính phủ và MOET tổ chức hội thảo khoa học với các diễn giả quốc tế nói trên, để đánh giá hệ thống hiện tại và các cách tiếp cận để cải thiện hệ thống này. .

Ý kiến đề xuất trên đây chỉ có thể thực hiện được nếu nó gắn liền với mong muốn và trở thành một phần trong sáng kiến của MOET về cải cách xét tuyển chung. Nếu những nghiên cứu có thể đi đến một kết luận (nội bộ) cụ thể, MOET có thể sử dụng kết luận nội bộ này để xây dựng một nhóm chuyên trách trách (special team) bao gồm các chuyên gia của nhóm nghiên cứu.

Nhóm chuyên trách sẽ nghiên cứu thiết kế tốt nhất (best design) và trình lên MOET để đưa vào triển khai thử nghiệm (pilot), cũng như kiểm tra với dữ liệu (backtest) của kết quả thi 2015.

Quá trình thực hiện trong thực tế cần được theo dõi (monitor) và đánh giá (evaluation). Thành công trong dài hạn phụ thuộc nhiều vào việc đánh giá triển khai.

V. Nhóm Đối Thoại GIáo Dục

1. Đỗ Quốc Anh (Học viện Nghiên cứu Chính trị Sciences Po, Paris, Pháp)

2. Ngô Bảo Châu (Đại học Chicago, Hoa Kỳ và Viện nghiên cứu cao cấp về toán, Việt Nam)

3. Lê Hồng Giang (Brisbane, Úc)

4. Ngô Quang Hưng (Đại học bang New York ở Buffalo, Hoa Kỳ)

5. Vũ Hà Văn (Đại học Yale, Hoa Kỳ)

và các thành viên khác trong nhóm Đối Thoại Giáo Dục

Phụ Lục

Năm 2014, từ thuật toán DAA, Đại học Thăng Long và Giáo Sư Hà Huy Khoái đã phát triển một thuật toán tuyển sinh và đã giới thiệu giải pháp này (đã được lập trình) tới Cục Khảo Thí.

HTN trích đăng phần giới thiệu giải pháp từ bản proposal của GS Hà Huy Khoái:

ĐỀ XUẤT MỘT PHƯƠNG ÁN TUYỂN SINH MỚI

Việc xét tuyển sẽ được thực hiện trên máy tính, theo một chương trình có nền tảng là thuật toán CHẤP NHẬN TRÌ HOÃN (DEFERED ACCEPTANCE ALGORITHM) do Gale và Shapley đưa ra năm 1964 [1] . (GS A. Roth.đã phát triển thuật toán này và áp dụng trong việc tuyển sinh các trường trung học ở Mỹ, điều tiết thị trường bác sĩ mới tại Mỹ, Anh và nhiều nước khác; nhờ đó đã được nhận giải Nobel về kinh tế năm 2012 cùng với  Shapley [2])

Cách tuyển sinh này có các điểm ưu việt sau:

Thí sinh được vào học trường tốt nhất có thể đối với kết quả thi của họ (được vào học trường cao nhất có thể theo thứ tự ưu tiên của họ, tương quan với số điểm mà họ có). Thí sinh có thể bày tỏ nguyện vọng thật sự của mình về việc chọn trường mà không cần thông tin về kết quả thi của mình và người khác;

Các trường có được danh sách trúng tuyển tốt nhất theo nguyện vọng của thí sinh;

Loại bỏ triệt để các trường hợp ‘ảo” (mỗi thí sinh chỉ trúng tuyển chính thức tối đa 1 nguyện vọng);

Tiết kiệm công sức của các trường và của thí sinh;

Tiết kiệm tiền cho gia đình thí sinh, giảm một khoản chi lớn cho xã hội;

Rút ngắn rất nhiều thời gian xét tuyển.

Theo phương án này, Ban tuyển sinh của Bộ sẽ chạy “chương trình xét tuyển” (mục 4) để xác định danh sách trúng tuyển cho từng “đơn vị xét tuyển” (mục 1) trên cơ sở công thức tính  “điểm xét tuyển” của các trường (mục 2), với dữ liệu từ “hồ sơ đăng ký tuyển sinh” của thí sinh (mục 3) và điểm thi của thí sinh.

Khái niệm “đơn vị xét tuyển”

Trong một kỳ tuyển sinh (theo phương thức “ba chung”), một cơ sở tuyển sinh (đại học, trường đại học, trường cao đẳng) sẽ được chia thành một hay nhiều “đơn vị xét tuyển” sao cho:

Mỗi đơn vị xét tuyển

chỉ tuyển sinh theo một khối thi duy nhất (có thể có nhiều ngành);

có một chỉ tiêu tuyển sinh chung, không quy định riêng cho từng ngành;

có cách tính điểm xét tuyển chung (xem phần sau), không phân biệt theo ngành.

Ví dụ 1: Trường X tuyển sinh 6 ngành: a, b, c, d, e và g. Ngành a thi khối A với  chỉ tiêu tuyển sinh là 100; ngành  b thi khối A với  chỉ tiêu tuyển sinh là 150; ngành c thi khối A với  chỉ tiêu tuyển sinh là 200; ngành d thi khối B với chỉ tiêu tuyển sinh là 100; ngành e thi khối B với chỉ tiêu tuyển sinh là 150; ngành g thi khối C với chỉ tiêu tuyển sinh là 200.

Hội đồng tuyển sinh trường quyết định tuyển sinh chung cho cả 3 ngành thi khối A với tổng chỉ tiêu là 450 rồi phân ngành sau, còn 2 ngành thi khối B thì tuyển riêng. Khi đó trường X sẽ được chia thành 4 đơn vị xét tuyển: đơn vị 1 phụ trách khối A của ba ngành a, b, c; đơn vị 2 phụ trách khối B của ngành d; đơn vị 3 phụ trách khối B của ngành e; đơn vị 4 phụ trách khối C của ngành g.

Ví dụ 2: Trường Y tuyển sinh 3 ngành: a, b và c. Ngành a nhận 200 thí sinh thi khối A và 200 thí sinh thi khối D1; ngành b nhận 150 thí sinh thi khối A và 250 thí sinh thi khối D1; ngành c nhận 300 thí sinh thi khối D1 và 100 thí sinh thi khối C.

Hội đồng tuyển sinh trường quyết định tuyển chung 450 chỉ tiêu khối D1 cho cả 2 ngành a, b; tuyển riêng 200 chỉ tiêu khối A cho ngành a, 150 chỉ tiêu khối A cho ngành b, 300 chỉ tiêu khối D1 cho ngành c và 100 chỉ tiêu khối C cho ngành c. Khi đó trường X sẽ được chia thành 5 đơn vị xét tuyển: đơn vị 1 phụ trách khối D1 của hai ngành a, b; đơn vị 2 phụ trách khối A của ngành a; đơn vị 3 phụ trách khối A của ngành b; đơn vị 4 phụ trách khối D1 của ngành c, đơn vị 5 phụ trách khối C của ngành c.

Chú ý: Đơn vị xét tuyển là “ảo” về mặt nhân sự. Nói cách khác, không cần có nhân sự nào cho các đơn vị xét tuyển.

Khái niệm “Điểm xét tuyển”

Mỗi đơn vị xét tuyển có một cách tính “Điểm xét tuyển” theo quy định của Hội đồng tuyển sinh trường.

Điểm xét tuyển là tổng của điểm thi  và một số điểm cộng.

Điểm thi là tổng điểm các môn thi tuyển sinh của thí sinh (có thể có môn được nhân hệ số).

Các điểm cộng gồm: điểm ưu tiên khu vực (bắt buộc), điểm ưu tiên đối tượng (bắt buộc), điểm ưu tiên nguyện vọng 1 (không bắt buộc). Sau này, khi điều kiện thuận lợi hơn, một số trường có thể đưa thêm các điểm cộng mới như: điểm thành tích học tập ở bậc trung học. điểm thành tích về thể thao, hoạt động xã hội…

Ví dụ 1: Điểm thi của đơn vị xét tuyển α của trường X được tính như sau:

Điểm thi = 2*Điểm môn Toán + Điểm môn Lý + Điểm môn Hóa.

Ví dụ 2: Điểm thi của đơn vị xét tuyển β của trường Y được tính như sau:

Điểm thi = Điểm môn Toán + Điểm môn Lý + Điểm môn Hóa.

Việc đăng ký nguyện vọng của thí sinh

Trước kỳ thi tuyển sinh 3 – 4 tháng, các trường đại học công bố các ngành tuyển sinh, các khối thi, chỉ tiêu tuyển sinh và cách xác định điểm xét tuyển của các đơn vị xét tuyển của trường trên các phương tiện thông tin đại chúng và chuyển các dữ liệu đó cho Ban Tuyển sinh của Bộ GD và ĐT.

Trên cơ sở các thông tin của các trường, điều kiện và nguyện vọng của bản thân, mỗi thí sinh sẽ đăng ký dự thi tuyển sinh.

Phương án 1

Thí sinh thực hiện đăng ký dự thi tuyển sinh trên giấy theo mẫu mới của Bộ Giáo dục và Đào tạo. Điểm khác cơ bản của mẫu mới so với mẫu cũ là thí sinh có thể đăng ký tới 10 nguyện vọng theo thứ tự ưu tiên từ 1 đến 10 (số 10 là số tạm đề xuất, có thể thay bởi 1 số khác lớn hơn hay nhỏ hơn). Thí sinh không nhất thiết phải đăng ký đủ 10 nguyện vọng, nhưng bắt buộc phải đăng ký nguyện vọng 1. Nơi tiếp nhận hồ sơ đăng ký dự thi của thí sinh có trách nhiệm kiểm tra và xác nhận tính chính xác của các dữ liệu thí sinh kê khai trong hồ sơ, đặc biệt là các dữ liệu liên quan đến việc cộng điểm.

Cũng như trước đây, hồ sơ đăng ký dự thi của thí sinh được chuyển về trường nơi thí sinh sẽ dự thi để trường đó nhập vào máy tính và chuyển dữ liệu cho Bộ GD và ĐT.

Phương án 2

Thí sinh thực hiện đăng ký dự thi tuyển sinh như trước đây. Sau khi các trường công bố kết quả chấm thi, thí sinh sẽ đăng ký các nguyện vọng bổ sung theo thứ tự ưu tiên từ 2 đến 10 (cũng như trên, số 10 là số tạm đề xuất, và thí sinh không bắt buộc phải điền đủ cả 9 nguyện vọng bổ sung). Cách đăng ký nguyện vọng bổ sung cần phải nghiên cứu kỹ thêm, có thể qua các trường trung học phổ thông và các Sở Giáo dục và Đào tạo, hoặc qua đường bưu điện, hay qua mạng máy tính …

So sánh 2 phương án:

Phương án 1 thuận tiện trong việc đăng ký các nguyện vọng bổ sung và không làm tăng thời gian xét tuyển, tuy nhiên phương án này có nhược điểm: thí sinh thiếu dữ liệu quan trọng là điểm thi để lựa chọn các nguyện vọng bổ sung.

Phương án 2 gặp phải rắc rối trong việc đăng ký các nguyện vọng bổ sung và làm tăng thời gian xét tuyển nhưng lại có ưu điểm là thí sinh đã biết  điểm thi khi lựa chọn các nguyện vọng bổ sung.

Như sẽ thấy sau đây, việc biết điểm thi không quá quan trọng đối với thí sinh để đưa ra nguyện vọng. Điều cốt yếu là thí sinh phải đưa đúng nguyện vọng THẬT, không phụ thuộc kết quả của mình so với người khác. Nếu thí sinh không nêu đúng nguyện vọng thật của mình thì chính họ là người bị thiệt thòi. Vì thế có thể chỉ cần Phương án 1.

—————–&&——————

Bài toán tuyển sinh trong Mechanism Design và Game Theory

(Tác giả: Nguyễn An Nguyên – Nguồn: hocthenao.vn)

***

1. Vấn đề thiết kế cơ chế tuyển sinh thuộc lớp bài toán kinh điển (1), đã giải xong từ những năm 1960s.

Lời giải cho bài toán này khá đơn giản, và đã được áp dụng thành công ở các tình huống tương tự. Chẳng hạn như chương trình tuyển bác sỹ nội trú ở Mỹ (2).

Đúng ra, đây phải là điểm khởi đầu của đề án cải cách tuyển sinh của Bộ GD, và trung tâm của cuộc tranh luận. Vì thế, tôi ngạc nhiên vì các bên quan tâm vẫn chưa đề cập tới.

***

2a. Phương án tối ưu là thu thập thông tin về thứ tự ưu tiên từng trường (school preference) của các học sinh, và đưa về một trung tâm xử lý cho cả nước (3).

Ví dụ, Bộ, thông qua các trường THCS, phát phiếu đăng ký tuyển sinh đến từng học sinh, với 10 – 20 lựa chọn theo thứ tự ưu tiên (ví dụ, 1. ĐH Quốc gia HN, ngành Máy tính; 2. Đại học Bách khoa HN, ngành Tự động hoá .v.v.). Các phiếu đăng ký này được gom về trung tâm xử lý.

Trung tâm này nhập liệu, kết hợp với thông tin về chỉ tiêu của từng bộ môn của các trường, dùng thuật toán để sắp xếp học sinh vào các trường.

Phương án này là công bằng và tối ưu (xem chú thích 1), đồng thời tiết kiệm nhất, vì chỉ cần khớp tuyển một lần (xem chú thích 2).

2b. Phương án hiện nay không hiệu quả là vì cả Bộ và các trường ĐH không biết thông tin về sở thích trường của học sinh (private information), cho đến khi họ nộp và rút đơn nhiều lần.

Tình trạng nộp/rút nhiều lần (“unstable marriage”) không những là kết quả, mà còn là cơ chế để hệ thống tìm ra thông tin về sở thích trường của các em học sinh.

Ngoài việc tốn kém, thì kết quả chung cuộc của cơ chế này vẫn không tối ưu.

Đấy là điều đáng tiếc.

***

3. Tuy thế, tôi vẫn trân trọng việc Bộ Giáo dục nhận thức được việc cần thay đổi cơ chế tuyển sinh, và đã thử nghiệm.

Học kỹ để làm nhanh thì tất nhiên là tốt hơn. Nhưng làm trước học sau, gắng chịu búa rìu dư luận để sửa chữa thì vẫn hơn là không làm gì.

Xin chia sẻ với các vị phụ huynh và các em học sinh phải chạy đôn chạy đáo trong những ngày hè nóng nực này. Hi vọng là từ 2016, chuyện này sẽ chỉ còn là một ký ức, như thời xếp hàng mua gạo.

—————————————

(1) Bài toán Tuyển sinh có thể được quy về Stable Marriage Problem, một chủ đề yêu thích của sinh viên ngành Mechanism Design và Game Theory.

Đề bài như sau: cho tập N trường học với chỉ tiêu c1, …, cN. Mỗi trường đều ưu tiên học sinh có điểm cao. Cho tập M học sinh i với thứ tự ưu tiên i1 > i2 >… > iM. Hãy ghép học sinh với các trường sao cho không tồn tại:
– học sinh H không được nhập học, hoặc thích trường T mà không vào được, trong khi
– trường T vẫn còn thừa chỗ, hoặc là đang nhận học sinh H’ có điểm thấp hơn H.

Tiêu chí này chính là tối ưu Pareto trong bài toán này.

Bạn nào hứng thú tìm lời giải thì có thể đọc từ Gale & Shapley-1962 (College Admissions and the Stability of Marriage) trở đi. Tiếc là tôi không chuyên về Mechanism Design, và từ lâu không nghiên cứu Kinh tế học nên không còn cập nhật.

Các bạn sinh viên ngành toán và computer science thì nên tự giải.

P/S: Các bạn giải xong thì nên nói chuyện với Trusting Social. smile emoticon Đây là startup dùng Big Data để giải quyết bài toán giúp người nghèo vay tiền, do tôi đồng sáng lập.

(2) https://goo.gl/B9AguK. Bài toán này còn đơn giản hơn là National Resident Matching Program như ví dụ trên, vì hiện tại các trường ĐH ở Việt Nam chỉ dựa trên điểm thi để nhận học sinh mà không cần xét tuyển từng học sinh. Trung tâm Xử lý có thể khớp học sinh/trường ĐH không cần đợi điểm chuẩn từ các trường.

(3) Trung tâm có thể là một công ty tư nhân, như https://natmatch.com/

——————-&&——————

TS Lương Hoài Nam đề xuất dùng thuật toán tuyển sinh

(Tác giả: Lương Hoài Nam – Nguồn: vnexpress.net)

Trong một kỳ tuyển sinh đại học, cao đẳng, dù ở nước ta hay các nước khác, số lượng thí sinh luôn lớn, từ hàng chục nghìn đến hàng trăm nghìn, thậm chí hàng triệu. Trong thâm tâm, mỗi thí sinh có nhiều nguyện vọng đại học, mỗi nguyện vọng lại có mức độ ưu tiên khác nhau, kiểu như “Tôi ao ước nhất là được vào trường này để học ngành này, còn bét ra thì vào trường kia để học ngành kia”. Có nguyện vọng cao nhất, có nguyện vọng thấp nhất và giữa chúng là các nguyện vọng khác.

Trong một kỳ tuyển sinh, số lượng trường tuyển sinh cho các ngành đào tạo cũng là một số lớn, với số lượng các cặp “trường – ngành” từ hàng trăm đến hàng nghìn, thậm chí đến hàng chục nghìn. Trường nào cũng muốn thu hút được học sinh giỏi cho các ngành đào tạo để có chất lượng đầu ra tốt và tạo được uy tín đào tạo đại học tốt.

Tuyển sinh đại học là một việc khó. Để làm tốt nó, phải sử dụng các thuật toán để biến nó từ khó trở nên dễ.

Trong lịch sử tuyển sinh đại học, nước ta từng sử dụng một thuật toán rất đơn giản nhưng khá được việc. Đó là cho phép mỗi thí sinh đăng ký duy nhất một ngành ở duy nhất một trường và xét chọn theo điểm từ trên xuống dưới, cho đến khi lấy đủ chỉ tiêu vào ngành đó của trường đó. Các thí sinh không được nhận vào trường duy nhất đó mặc nhiên trượt đại học. Thuật toán này dễ hiểu, dễ dùng, có thể làm bằng tay, không cần có phần mềm tuyển sinh. Excel đã là xa xỉ.

Nhưng thuật toán tuyển sinh đơn giản đó bất cập ở chỗ làm cho không ít thí sinh giỏi bị trượt đại học vì đăng ký thi vào cặp trường – ngành có mức cạnh tranh cao (mà thí sinh không thể biết trước). Trong khi đó, các học sinh yếu hơn lại đậu đại học vào các cặp trường – ngành có điều kiện tuyển sinh dễ hơn. Một số em giỏi hơn bị trượt đại học có thể vui vẻ vào học ở các trường – ngành tuyển sinh dễ hơn, nhưng thuật toán tuyển sinh áp dụng đã loại bỏ cơ hội của em ngay từ đầu.

Để giải quyết bất cập trên, hầu hết các nước đã cho phép thí sinh đăng ký nhiều nguyện vọng xét tuyển đại học trong một kỳ tuyển sinh. Việc tuyển sinh đại học trở nên phức tạp hơn nhiều và phải dùng thuật toán khác. Đó là thuật toán “Hôn nhân ổn định” (Stable Marriage) do Gale và Shapley (Mỹ) đưa ra vào năm 1962. Đối với cách tuyển sinh tập trung (Bộ Giáo dục chủ trì) và cách tuyển sinh phân tán (mỗi trường tự thực hiện), thuật toán này được sử dụng theo các cách khác nhau.

Trong trường hợp tuyển sinh tập trung, tôi xin mượn bảng tính Excel để mô tả một cách trực quan khả năng sử dụng thuật toán của Gale và Shapley, theo hình dung của tôi, như sau:

Ký hiệu một cặp “trường – ngành” là TxNy, trong đó T là mã trường, N là mã ngành. Trên một hàng của bảng Excel, điền tất cả cặp TxNy cho tất cả các trường, ngành tuyển sinh trong kỳ. Phía trên mỗi cặp TxNy, ghi tất cả điều kiện tuyển sinh vào cặp “trường – ngành” đó (khối thi, điểm thi tối thiểu của từng môn thi, tổng điểm thi tối thiểu của các môn thi, tổng số chỉ tiêu tuyển sinh…). Cho tất cả thí sinh cùng với kết quả thi của họ, tất cả nguyện vọng tuyển sinh của họ và thứ tự ưu tiên của mỗi nguyện vọng vào một “Đám mây thí sinh”. Kết thúc việc nhập thông tin đầu vào ở đây.

Chạy một bộ lệnh trên Nguyện vọng thứ nhất để “nhặt” từ Đám mây thí sinh vào mỗi một cột và tất cả các cột TxNy các thí sinh đạt điều kiện tuyển sinh, theo kết quả thi từ cao xuống thấp, cho đến khi mỗi cột đạt đủ chỉ tiêu tuyển sinh (hoặc cho đến khi không tìm được thêm thí sinh đạt điều kiện tuyển sinh theo Nguyện vọng thứ nhất nữa). Lập một Danh sách trúng tuyển sơ bộ cho mỗi cột TxNy, đồng thời, đánh đấu “Từ chối” tất cả các thí sinh khác có Nguyện vọng thứ nhất vào các cột.

Chạy một bộ lệnh trên Nguyện vọng thứ hai của Những người bị từ chối ở Nguyện vọng thứ nhất theo cách tương tự như trên và điều chỉnh Danh sách trúng tuyển sơ bộ ở mỗi cột trên cơ sở Danh sách trúng tuyển sơ bộ được lập theo Nguyện vọng thứ nhất và các thí sinh mới đạt điều kiện tuyển sinh theo Nguyện vọng thứ hai, xếp theo kết quả thi của các thí sinh từ cao xuống thấp, cho đến khi mỗi cột đạt đủ chỉ tiêu tuyển sinh (hoặc cho đến khi không tìm được thêm thí sinh đạt điều kiện tuyển sinh theo Nguyện vọng thứ hai trong số Những người bị từ chối ở Nguyện vọng thứ nhất).

Tiếp tục làm tương tự theo Nguyện vọng thứ ba, Nguyện vọng thứ tư,… và kết thúc ở nguyện Nguyện vọng thứ “n”. Đó là khi mà mỗi một thí sinh hoặc là đã nằm ở các Danh sách trúng tuyển sơ bộ, hoặc đã bị tất cả các cặp TxNy, mà thí sinh đó đăng ký đánh dấu “Từ chối”. Sau bước thứ “n”, các Danh sách trúng tuyển sơ bộ ở các cột sẽ trở thành các Danh sách trúng tuyển chính thức. Tất cả các thí sinh còn lại trong Đám mây thí sinh là những thí sinh trượt đại học trong kỳ tuyển sinh.

Để kiểm tra tính chính xác của việc tuyển sinh, cần “chạy” chương trình nhiều lần và đối chiếu kết quả giữa các lần. Về nguyên tắc, kết quả tuyển sinh trong tất cả các lần thực hiện phải tuyệt đối giống nhau. Mặc dù vậy, khi sử dụng thuật toán tuyển sinh này, vẫn có thể phát sinh một số trường hợp ngoại lệ, cần sự cân nhắc và can thiệp của con người.

Trong trường hợp tuyển sinh phân tán (các trường tự tuyển sinh, Bộ Giáo dục không can thiệp), việc áp dụng thuật toán này phức tạp hơn. Lý do là mỗi trường biết việc thí sinh đăng ký vào một hoặc một số cặp TxNy của trường mình, nhưng lại không biết thí sinh còn đăng ký tuyển sinh vào những trường khác, cũng không biết mức độ ưu tiên của từng nguyện vọng của thí sinh. Việc tuyển sinh trong trường hợp đó không thể kết thúc ngay trong một đợt, mà phải qua nhiều đợt.

Tôi xin sử dụng ngôn ngữ mô tả rất sinh động và thú vị của GS Vũ Hà Văn trong bài viết “Lấy người mình yêu và… không bỏ được”: “Trong bước thứ nhất, mỗi anh chàng sẽ ngỏ lời với cô gái mà anh ta thích nhất. Tất nhiên, cô nào sáng giá sẽ có nhiều cây si. Mỗi cô gái sẽ trả lời một cách lửng lơ “Để tớ xem!”, với anh chàng sáng giá nhất trong những cây si, và đá đít thẳng thừng những chàng còn lại. Sau bước này, nàng coi như có hẹn ước với cây si cao nhất đó, và chàng cũng coi như có hẹn ước với nàng.

Trong những vòng tiếp theo, mỗi chàng trai chưa có hẹn ước sẽ ngỏ lời với cô gái mà anh ta thích nhất vẫn còn nằm trong danh sách những cô chưa đá đít anh ấy. Anh chàng sẽ không quan tâm là cô gái đó đã có hẹn ước hay chưa. (Chiến thuật mặt dày này được ứng dụng tương đối hiệu quả sau khi thuật toán “bố mẹ đặt đâu con ngồi đấy” trở nên lỗi thời trong một số năm gần đây.) Về phần các cô gái, nếu được một anh chàng mới ngỏ lời, nàng sẽ cân nhắc so sánh với cây si hiện có (nếu có), và sẽ giữ lại cây cao điểm hơn”.

Chúng ta có thể thay các chàng bằng các thí sinh, còn các nàng bằng các trường đại học. Tất nhiên, trong trường hợp tuyển sinh phân tán, các trường đại học còn sử dụng các phương pháp tuyển sinh khác. Do trường toàn quyền quyết định việc tuyển sinh, họ hoàn toàn có thể xét và xác nhận kết quả tuyển sinh với từng thí sinh đăng ký vào trường mình, mà không quá phụ thuộc vào thuật toán tuyển sinh như trong trường hợp tuyển sinh tập trung.

——————–&&——————-

“Cha đẻ” của lý thuyết trò chơi giải bài toán khó “nợ công Hy Lạp”

“Cha đẻ” của lý thuyết trò chơi giải bài toán khó “nợ công Hy Lạp”

(Nguồn: cafef.vn)

Cuộc gặp gỡ giữa Bộ trưởng Tài chính Hy Lạp, người đàn ông ngang tàng Yanis Varoufakis, và các quan chức cấp cao châu Âu mặc áo motor jacket đi kèm với một chiếc sơ mi cổ hở có lẽ sẽ thu hút được John F. Nash Jr., “cha đẻ” của lý thuyết trò chơi và là nhà Toán học từng đạt giải Nobel vừa qua đời tháng trước.

Bản thân Yanis Varoufakis cũng là một nhà lý thuyết trò chơi rất đáng chú ý, ông là tác giả của cuốn: “Game Theory: a Critical Introduction” (tạm dịch Lý thuyết trò chơi: lời giới thiệu then chốt), và ông cũng là người hâm mộ lâu năm của Tiến sĩ Nash. Hai người đã từng gặp nhau tại Athens hồi tháng 6 năm 2000 sau khi Tiến sĩ Nash thuyết giảng về tiền tệ. Sau khi biết tin về cái chết của Tiến sĩ Nash, ông Varoufakis đã viết trên Twitter : “Đọc những tác phẩm của ông là niềm cảm hứng của tôi, gặp ông và dành thời gian bên ông như một phần thưởng chúa ban, vĩnh biệt John Nash Jr”.

Những cuộc đàm phán căng thẳng, quyết liệt giữa Hy Lạp và các chủ nợ ròng rã nhiều tháng trời đã khuẩy đảo thị trường tài chính toàn cầu và có vẻ như đang lên đến đỉnh điểm. Chúng chính là một phần trong trò chơi sinh tử đã hấp dẫn Tiến sĩ Nash, người đạt giải Nobel kinh tế học và cống hiến hết mình cho những nghiên cứu mà ông đi tiên phong.

Tác giả của cuốn “A Beautiful Mind” – cuốn tiểu sử cuối cùng của nhà Nobel kinh tế học Nash và cũng là tiền đề cho một số bộ phim đoạt giải Oscar, bà Sylvia Nasar nói rằng : “Đây chính xác là kiểu trò chơi win – win mà Nash đã có trong tâm trí. Hai người chơi đều có cả lợi ích chung và lợi ích đối lập”.

Thật không may cho tương lai thị trường tài chính Liên minh Châu Âu, không có một đảm bảo nào cho Hy Lạp và các chủ nợ sẽ đạt được thỏa thuận ngăn chặn viễn cảnh ngày tận thế – Hy Lạp vỡ nợ, điều mà sẽ làm cho Hy Lạp mất đi quyền thành viên trong Liên minh tiền tệ châu Âu và nổi lên những cuộc khủng hoảng khác.

Câu hỏi dành cho ông Varoufakis: tuần tới sẽ như thế nào khi định mệnh cả một nền kinh tế toàn cầu rộng lớn đặt lên vai ông.

Ông nói: “ Tôi không thấy gánh nặng của nền kinh tế toàn cầu, tôi cảm thấy gánh nặng của người dân Hy Lạp đặt trên vai ông. Nếu Hy Lạp nhỏ bé để sống sót mà làm ảnh hưởng đến nền tài chính thế giới thì đó là lỗi của chúng ta. Điều đó có thể lắm nếu Delaware làm sụp đổ nền kinh tế Hoa Kỳ. Đó là lỗi của Hoa Kỳ chứ không phải của Delaware.

Thật ra mọi người đều đồng ý rằng viễn cảnh Hy Lạp vỡ nợ đều là kết cục mà cả Hy Lạp và chủ nợ đều mong muốn. Ở giữa là Đức và Pháp; Ngân hàng Trung ương châu Âu và IMF. Một trong những điểm mấu chốt trong lý thuyết trò chơi của John Nash là cân bằng Nash – điều xảy ra khi chiến lược của mỗi bên là tối ưu dựa vào quyết định họ cho là người còn lại sẽ chọn.

Ví dụ, nếu Đức và các chủ nợ không tin rằng Hy Lạp đang đe dọa vỡ nợ và đánh giá thấp kết cục đó, họ sẽ phải giữ vững lựa chọn tối ưu đối với yêu cầu về cải cách kinh tế ở Hy Lạp. Một mặt khác, nếu Đức tin rằng ông Varoufakis được thúc đẩy về ý thức hệ để ngăn chặn tương lai đau thương, điều đó có thể sẽ nhượng bộ cho những yêu cầu của Hy Lạp rất tốt.

Đó có thể là một phần trong chiến lược của ông Varoufakis với cách hành xử màu mè và bài công báo quá khích đã bị người Hy Lạp coi nhẹ trong những lần đàm phán, một động thái dường như chỉ có thể tăng cường mức độ phổ biến đáng kể của ông. Ông tiếp tục là người chơi dẫn dắt trong các cuộc hội đàm và tiếp tục duy trì vị trí người cố vấn chính cho Thủ tướng Hy Lạp, Alexis Tsipras.

Trong cuộc đối thoại của chúng tôi tuần này, ông Varoufakis đã tìm ra được nhà kinh tế đứng đắn hơn là những kẻ cực đoan với đôi mắt hoang dã hoặc là những tay đua liều mạng. Ông trưng bày ra cả nguyên tắc trò chơi và những động thái phức tạp của các cuộc đàm phán hiện nay giữa Hy Lạp và các chủ nợ.

Mặt khác của cuộc đàm phán ông Varoufakis tỏ ra là một nhà lý thuyết trò chơi thực thụ nói rằng: “vẽ chân dung tôi như một thằng hề cũng chính làm làm việc cho tôi. Tôi là người đã từng sống trong nghịch cảnh và tất nhiên không để bản thân mình bị quấy rối bởi nghịch cảnh đó.Tôi biết tôi là ai và họ biết tôi là ai”.

Trò chơi tương đối đơn giản Game of chicken thường được viện dẫn để minh họa cho tình huống của Hy Lạp, nhưng nó chỉ có bề ngoài là liên quan. Bởi vì trong trò Game of chicken, hai xe ngược chiều di chuyển trên con đường hẹp đều muốn chuyển hướng – hai bên không có trao đổi lẫn nhau trước khi đưa ra quyết định, tuy nhiên Hy Lạp và các chủ nợ đã có thời gian trao đổi qua lại hàng tháng trời. Trong khi kết cục bi thảm chưa từng xảy ra với Hy Lạp nhưng lại xảy ra trong trò Game of chicken – một trong hai xe bị vỡ vụn và chết.

Chuyên gia lý thuyết trò chơi, ông Barry Nalebuff thuộc trường Yale School of management cho rằng: tình huống của Hy Lạp gần với các viễn cảnh phức tạp của Nash hơn: “Cả hai bên đều đồng ý tốt hơn hết là không nên đẩy Hy Lạp vào vực thẳm. Nhưng đẩy xa đến đâu vẫn còn đang bỏ ngỏ. Cả hai bên đều biết rằng bên kia đồng ý nhượng bộ vì lợi ích cá nhân của họ. Không bên nào chịu nhượng bộ nếu họ cho rằng đối phương sẽ hành động khác. Đó chính là bế tắc. Rất khó để thỏa mãn lợi ích cả hai bên. Do đó có thể có rất nhiều những phương án và điểm cân bằng khác nhau

Ông Varoufakis đồng ý rằng trong tình huống Hy Lạp, “trò chơi có vô vàn điểm cân bằng, và vì vậy, lỗi lầm có thể làm nổ ra một chuỗi các kết cục mà không ai có thể vừa dự đoán và cầm lái.”Ông cũng cho rằng: “ chúng ta có rất nhiều đối tác. Một vài người vẫn còn đang e dè chờ đợi thảm họa Hy Lạp vỡ nợ. Một vài người khác thì ít hơn. Một số khác thì hoàn toàn không lo sợ. Họ nghĩ rằng điều đó có thể ngăn chặn được. Đó là những dự đoán bất đồng lớn về kết cục có thể xảy ra. Ngay cả riêng Đức cũng có nhiều quan điểm trái ngược.

Không chắc chắn rằng tương lai hoàn toàn làm rối bất kỳ nhà phân tích lý thuyết trò chơi nào. Lấy dẫn chứng tác phẩm của giáo sư Frank Knight trường đại học Chicago, ông Varoufakis chỉ ra sự khác biệt giữa rủi ro và sự không chắc chắn. Đánh cuộc bằng cách tung đồng tiền thì có rủi ro cao, nhưng kết quả tiềm tàng và xác suất thì đều biết trước. “Không chắc chắn khi bạn không biết được tất cả những kết quả hoặc xác suất của mỗi kết quả có thể xảy ra. Đó là một sự không chắc chắn ”. Làm cho vấn đề phức tạp hơn, “những cuộc đàm phán bằng cả tình cảm và lý trí mà 2 bên tham gia, cộng đồng bên ngoài – nhà đầu tư, người dân trong và bao quanh Hy Lạp đang hiểu nhầm rằng lý thuyết trò chơi có thể cắt qua nút thắt Gordian.”

Nhà kinh tế và chuyên gia khủng hoảng tài chính trường đại học Harvard Kenneth Rogoff đồng ý sự không chắc chắn của kết cục Hy Lạp vỡ nợ góp phần làm duy trì tình trạng tắc ngẽn. Người Đức có thể đánh giá sai rủi ro ảnh hưởng xấu từ vỡ nợ của Hy Lạp, giống như chính phủ Mỹ đã sai lầm đối với thất bại của Lehman Brothers. “Đó là một mớ hỗn độn”, Rogoff kết luận. “Nếu bạn trong một trò chơi mà bạn không biết điều gì sắp xảy ra thì lý thuyết trò chơi có quyền lực”.

Mọi người vẫn đang rất hy vọng vào tình thế hiện nay. Ông Nalebuff nói rằng, một trong những đóng góp quan trọng của tiến sĩ Nash là thuyết allocentrism (tạm dịch: thuyết vị tha) yêu cầu các bên tham gia truy cập lợi ích các bên còn lại nhằm hiểu thêm vị thế mặc cả của họ. (điều này đối lập với thuyết vị kỷ – egocentrism). Để các chủ nợ biết có thể đẩy Hy Lạp đến đâu, họ cần phải hiểu về lợi ích và mục đích của chính phủ Hy Lạp. Và người Hy Lạp cần gì để bắt kịp những giải pháp hiệu quả cho Đức. Điều này rất cần sự ăn ý lẫn nhau, cho dù không được đảm bảo giải quyết bằng giải pháp tối ưu.

Tuần này, chính phủ Hy lạp đệ trình một bản kế hoạch mới, và chi tiết như thế nào thì vẫn được giữ kín, ông Varoufakis nói rằng: “Tất nhiên là chúng tôi đã cố gắng để hiểu họ muốn gì. Ở trong cuộc đàm phán này suốt hơn ba tháng trời giúp chúng tôi biết điều họ muốn. Chúng tôi chấp nhận mọi điều khoản cho dù khó nhằn đến đâu. Bản hòa ước cuối cùng mà Hy Lạp chấp thuận cho cải cách cấu trúc bao gồm vấn đề đang nóng hổi hiện nay là lương hưu và cải cách thuế, bù lại cho “một vài giao dịch hoán đổi nợ và ít thắt lưng buộc bụng”.

“Cực đoan là gì? Đó là cái gì đó kiểu như một luật sư phố Wall phải vượt qua ngày tháng vỡ nợ. Những ngày này, bất kỳ điều gì nhạy cảm mà bạn kiến nghị sẽ bị cho là cực đoan”, Varoufakis nói.

Hai bên vẫn có những cuộc đàm phán kéo dài và không hề có kết quả khả quan nào nổi lên. Ông Varoufakis cho rằng bên kia đang cố gắng để lừa Hy Lạp vào bẫy và đợi Hy Lạp quy hàng. “Có những phần tử có ý quy thuận và nói với các cử tri “Chúng tôi cảm thấy bẽ mặt với chính phủ Hy Lạp”. Có những phần tử mong muốn chúng ta thất bại và hy vọng chính quyền sẽ bị lật đổ. Điều này thật vớ vẩn. Đôi khi tôi ước phe họ có một nhà lý thuyết trò chơi lão luyện”.

Theo Trí thức trẻ/New York Times

————————&&———————-

Hiểu thêm về lý thuyết trò chơi của thiên tài John Nash

Hiểu thêm về lý thuyết trò chơi của thiên tài John Nash

(Nguồn: cafef.vn)

Lý thuyết trò chơi nghe có vẻ tầm thường và không quan trọng. Tuy nhiên, nó đã tạo nên một cuộc cách mạng trong việc tổ chức các ngành kinh tế, đồng thời ảnh hưởng đến nhiều nhánh khác của bộ môn kinh tế học, đặc biệt là trong chính sách tiền tệ và thương mại quốc tế.

Nhà toán học người Mỹ John Nash và vợ ông vừa không may thiệt mạng trong một vụ tai nạn xe hơi ở Mỹ. Năm 1994, ông cùng với hai nhà kinh tế học khác đã đoạt giải Nobel Kinh tế vì những đóng góp trong lĩnh vực lý thuyết trò chơi. Dưới đây là bản lược dịch của bài báo viết về lý thuyết trò chơi và những đóng góp của John Nash được tờ The Economist đăng tải từ năm 1994, ngay sau khi ông nhận giải Nobel.

Mọi thứ giống như một giấc mơ của những người yêu thích các hoạt động thể thao. Ngày 11/10/1994, tại Stockholm, ba người đàn ông chia nhau giải thưởng trị giá 1 triệu USD vì kỹ năng phân tích các trò chơi của họ. Họ không phải là những bình luận viên truyền hình hay những người phê phán kịch liệt Manchester United. Họ là những nhà kinh tế học. Hai nhà kinh tế học người Mỹ là John Harsanyi và John Nash cùng với Reinhard Selten (nhà kinh tế học người Đức) đã giành giải Nobel Kinh tế năm 1994 vì những nghiên cứu về “lý thuyết trò chơi”.

Lý thuyết trò chơi nghe có vẻ tầm thường và không quan trọng. Tuy nhiên, quan điểm đó hoàn toàn sai. Trong 20 năm trở lại đây, lý thuyết trò chơi đã tạo nên một cuộc cách mạng trong việc tổ chức các ngành kinh tế, đồng thời ảnh hưởng đến nhiều nhánh khác của bộ môn kinh tế học, đặc biệt là trong chính sách tiền tệ và thương mại quốc tế. Không có sinh viên kinh tế nào có thể hi vọng họ sẽ tốt nghiệp được mà không am hiểu những khái niệm cơ bản của lý thuyết trò chơi.

Cho tới khi lý thuyết trò chơi ra đời, hầu hết các nhà kinh tế học đều kết luận rằng các công ty có thể bỏ qua những tác động từ hành vi của họ đối với hành động của người khác. Kết luận này hoàn toàn đúng khi thị trường cạnh tranh hoàn hảo: hành động của một công ty hay một khách hàng không thể khiến bức tranh toàn cảnh trở nên khác biệt.

Tuy nhiên, trong rất nhiều trường hợp, kết luận trên hoàn toàn sai. Nhiều ngành bị thống trị bởi một số ít các doanh nghiệp. Bằng cách xây dựng một nhà máy mới hoặc đại hạ giá hay đơn giản là bóng gió về việc hạ giá, một doanh nghiệp có thể tác động đến hành vi của các doanh nghiệp khác. Một số quốc gia có thể áp đặt (hoặc dọa sẽ áp đặt) lệnh cấm vận thương mại. Chính phủ có thể tăng lãi suất ngắn hạn khi lạm phát quá thấp nhằm thuyết phục thị trường tài chính rằng họ đang nghiêm túc chống lại lạm phát.

Các ví dụ kể trên cũng giống như những trò chơi. Không có huấn luyện viên bóng đá nào lên kế hoạch cho một cuộc tấn công mà không tính toán đến phản ứng của các hậu vệ.

Lý thuyết trò chơi hiện đại được cho là “con đẻ” của nhà toán học John von Neumann và nhà kinh tế học Oskar Morgenstern. Đây là hai đồng tác giả của cuốn sách có tựa đề “Theory of Games and Economic Behaviour” (tạm dịch: Lý thuyết trò chơi và các hành vi kinh tế học) được xuất bản năm 1944. Messrs Harsanyi, Nash và Selten đã chuyển chúng thành các công cụ chính sách mà các nhà kinh tế học sử dụng ngày nay.

Đầu những năm 1950, Nash đưa ra khái niệm “điểm cân bằng Nash”, khi không người chơi nào muốn thay đổi chiến thuật vì đã biết tất cả mọi thứ về chiến thuật của những người chơi khác.

Sau đây là một ví dụ nổi tiếng về điểm cân bằng Nash. A và B là hai doanh nghiệp hoạt động trong cùng một ngành và cả hai đều có thể chọn chính sách giá thấp hoặc giá cao. Nếu cùng chọn giá cao, họ sẽ thu được mức lợi nhuận đầy đặn 3 triệu USD cho mỗi bên. Nếu giá thấp, mỗi công ty sẽ chỉ thu được 2 triệu USD. Tuy nhiên, nếu một bên chọn giá cao và bên còn lại chọn giá thấp, bên giá thấp sẽ thu được 4 triệu USD trong khi bên giá cao chỉ có 1 triệu USD. Mặc dù cùng chọn mức giá cao là lựa chọn có lợi nhất cho cả hai bên, họ sẽ không làm như vậy. Nếu A đưa ra giá cao, lựa chọn tốt nhất của B là đưa ra giá thấp hơn. Với suy nghĩ tương tự, A cũng sẽ đưa ra mức giá thấp và vì thế mỗi bên chỉ kiếm được 2 triệu USD.

Tuy nhiên, kết luận của Nash chỉ được áp dụng cho các trò chơi 1 lượt, hoặc trong các trường hợp người chơi hành động cùng thời điểm. Trên thực tế tất cả các trò chơi thú vị trong kinh tế đều có sự tương tác liên tục giữa nhiều bên. Selten đã mở rộng điểm cân bằng Nash để phù hợp với thực tế, từ đó nổi lên tầm quan trọng của lòng tin: không có điểm nào mà trong đó một người chơi đi theo kế hoạch mà người khác biết rằng sẽ phải thay đổi ở điểm nào đó.

Ví dụ, một công ty độc quyền có thể cố gắng ngăn cản đối thủ trong tương lai gia nhập vào thị trường bằng cách đe dọa sẽ có một cuộc chiến về giá nổ ra nếu đối thủ bước vào. Cuộc chiến này sẽ khiến người mới thua lỗ. Tuy nhiên, công ty độc quyền cũng phải trả giá. Nếu cuộc chiến về giá quá tốn kém, công ty độc quyền sẽ buộc phải chia sẻ thị phần với người mới. Trong trường hợp này, lời đe dọa sẽ có cuộc chiến về giá là không có cơ sở và do đó công ty mới hoàn toàn có thể bước vào thị trường.

Bên cạnh đó, khó có thể kết luận rằng người chơi có thể biết được chính xác suy nghĩ của người khác. Như giáo sư Adam Brandenburger của trường Kinh doanh Harvard đã nói, “đám sương mù bao phủ các trò chơi”. Tuy nhiên Harsanyi đã chỉ ra rằng các trò chơi mà trong đó người chơi không có được thông tin đầy đủ về những người chơi còn lại có thể được phân tích giống hệt cách phân tích các trò chơi cơ bản.

Khi một số người chơi có được thông tin mà người khác không có, họ có thể biến danh tiếng của mình thành lợi thế. Chính phủ nâng lãi suất để phát tín hiệu sẽ chống lại lạm phát là một ví dụ. Công ty độc quyền cũng có thể xây dựng hình ảnh sẵn sàng tham gia cuộc chiến về giá để ngăn các đối thủ mới.

Một số nhà kinh tế học vẫn hoài nghi về lý thuyết trò chơi. Nguyên nhân là bởi học thuyết này khá khó nắm bắt và đòi hỏi nhiều phép toán phức tạp. Tuy nhiên, đây cũng chính là ưu điểm bởi nó có thể phản ánh sự phức tạp của thế giới thực.

Thu Hương

Theo Trí thức trẻ/The Economist

—————–&&——————

LÝ THUYẾT TRÒ CHƠI VÀ KINH TẾ HỌC (KỲ III)

LÝ THUYẾT TRÒ CHƠI VÀ KINH TẾ HỌC (KỲ III)

(Tác giả: Don Ross – Người dịch: Hà Hữu Nga – Nguồn: vanhoanghean.com.vn)

4. Những trò chơi lặp lại và việc điều phối

Đến bây giờ chúng ta đã giới hạn sự chú ý của mình vào trò chơi một lần duy nhất, có nghĩa là những trò chơi trong đó các mối quan tâm chiến lược của các tay chơi không mở rộng hơn nút cuối của mối tương tác đơn của họ. Tuy nhiên các trò chơi thường được chơi với các trò chơi tương lai trong tư duy, và điều này có thể thay thế đáng kể cho những kết quả và các chiến lược cân bằng của họ. Đề tài của chúng ta trong phần này là những trò chơi lặp lại, có nghĩa là các trò chơi trong đó các tập hợp tay chơi mong muốn đối đầu với nhau ở những tình huống tương tự trong nhiều cơ hội. Chúng ta tiếp cận với những trò chơi này trước hết thông qua cái bối cảnh giới hạn của các nan đề người tù (PD) được nhắc lại.
Chúng ta đã thấy rằng trong một trò chơi PD một lần duy nhất thì chỉ có duy nhất một cân bằng Nash NE là sự phản bội chung. Tuy nhiên điều này có thể không duy trì được nữa khi các tay chơi mong muốn gặp lại nhau trong các trò chơi PD tương lai. Hãy tưởng tượng rằng bốn công ty khi tất cả đều thực hiện các cải tiến đồng ý với nhau giữ giá cao bằng cách hạn chế cung. (Tức là họ thành lập một cartel.) Điều đó sẽ chỉ thực hiện được khi mỗi công ty duy trì được hạn ngạch xuất đã được thỏa thuận. Một cách rất đặc trưng là mỗi công ty có thể tối đa hóa lợi nhuận của mình bằng cách không tuân thủ hạn ngạch đã được cam kết trong khi các công ty khác quan sát được công việc của họ, vì thế sau đó nó bán nhiều đơn vị ở mức giá thị trường cao hơn mức cartel qui định hầu như nguyên vẹn đó. Trong trường hợp một lần duy nhất toàn bộ các công ty sẽ cùng chung động cơ này để bỏ cam kết và cartel ấy sẽ lập tức sụp đổ. Tuy nhiên các công ty mong muốn đối mặt với nhau trong cạnh tranh trong một giai đoạn dài. Trong trường hợp này mỗi công ty biết rằng nếu nó vi phạm thỏa thuận của cartel thì các công ty khác có thể trừng phạt nó bằng cách định giá dưới giá trong một thời gian dài đủ để loại bỏ cái thắng lợi ngắn hạn của nó. Tất nhiên các công ty trừng phạt sẽ chịu thiệt thòi ngắn hạn trong giai đoạn định giá dưới giá. Nhưng những thiệt thòi này cũng đáng để chịu nếu họ mong muốn tái lập cartel và để tối đa hóa mức giá về lâu dài.
Một chiến lược đơn giản và rất nổi tiếng (nhưng không nhất thiết là tối ưu, ngược lại với cái huyền thoại phổ biến rộng khắp) trong việc bảo vệ sự hợp tác trong các trò chơi PD lặp lại được gọi là tit-for-tat. Chiến lược này bảo cho mỗi tay chơi cách hành xử như sau:
i) Luôn luôn hợp tác ở vòng đầu
ii) Sau đó thực hiện bất cứ hành động nào mà đối thủ của bạn thực hiện ở vòng trước.
Một nhóm tay chơi tất cả đều chơi trò tit-for-tat sẽ không bao giờ thấy bất cứ một sự bội ước nào. Vì trong một tập hợp nơi mà những người khác chơi tit-for-tat, thì tit-for-tat đáp trả duy lý đối với mỗi tay chơi, mỗi tay chơi tit-for-tat đều là một cân bằng Nash NE. Bạn vẫn thường thấy một số người biết đôi chút về lý thuyết trò chơi (nhưng không đủ) nói cứ như đây là nơi kết thúc của câu chuyện. Thực ra thì không phải như vậy.
Có hai điều phức tạp ở đây. Trước hết, các tay chơi phải không chắc chắn về việc là khi nào thì hành động của họ kết thúc. Giả sử các tay chơi biết khi nào thì vòng cuối cùng sẽ đến. Trong vòng đó, người chơi sẽ là người duy lý để bội ước, vì không có sự trừng phạt nào có thể thực hiện được. Bây giờ chúng ta hãy xem vòng cuối cùng-thứ hai. Trong vòng này, các tay chơi cũng không phải đối mặt với bất cứ sự đe dọa trừng phạt nào, vì họ biết thế nào họ cũng sẽ bội ước ở vòng cuối cùng. Vì vậy họ bội ước ở vòng cuối cùng thứ hai. Nhưng điều đó có nghĩa là họ không phải đối mặt với đe dọa trừng phạt ở vòng cuối cùng thứ ba, và cũng bội ước ở đó. Chúng ta có thể đơn giản lặp đi lặp lại điều đó qua cây trò chơi cho đến khi chúng ta đạt được vòng đầu tiên. Vì hợp tác không duy lý trong vòng đó nên trò chơi tit-for-tat không còn là một chiến lược duy lý, và chúng ta đạt được cùng một kết quả – sự bội ước chung – như trong trò chơi PD một lần duy nhất vậy. Vì vậy hợp tác chỉ là có thể trong trò chơi PD lặp lại mà ở đó số lần lặp lại mong muốn là vô định. (Tất nhiên, điều này áp dụng cho nhiều trò chơi trong đời thực).
Nhưng giờ đây chúng tôi xin giới thiệu một rắc rối thứ hai. Hãy giả định rằng khả năng của những người chơi để phân biệt sự bội ước khỏi sự hợp tác là không hoàn hảo. Hãy xem xét trường hợp của chúng ta về cái cartel thực hiện các cải tiến đã nói. Giả sử các tay chơi thấy rõ thị trường sản phẩm xuống giá. Có lẽ đó là vì một thành viên trong cartel đã bội ước. Hoặc có lẽ đã nảy sinh ra một tình trạng khủng hoảng cầu ngoại sinh. Nếu các tay chơi tit-for-tat mắc lỗi ở trường hợp thứ hai thay cho trường hợp thứ nhất thì họ sẽ bội ước, vậy là tình trạng tăng phản ứng dây truyền những bội ước chung mà từ đó chúng có thể không bao giờ khôi phục lại được, vì mỗi tay chơi sẽ đáp lại cái bội ước đầu tiên mà họ gặp phải, vậy là bội ước ngày càng tăng thêm, vv….
Nếu các tay chơi biết rằng có thể xảy ra tình trạng giao tiếp sai lệch như vậy thì họ phải viện đến các chiến lược tinh vi hơn. Đặc biệt họ cần chuẩn bị để đôi khi phải liều thực hiện các bội ước để kiểm tra các suy luận của họ. Tuy nhiên họ không được đối xử quá tha thứ, vì sợ những tay chơi khác phát hiện được rằng tối ưu duy lý có thể giúp khai thác thông qua những bội ước cố ý. Nói chung các chiến lược tinh vi đều có vấn đề. Vì đối với những người chơi khác chúng khó suy luận hơn nên càng ngày họ càng sử dụng nhiều xác suất giao tiếp sai. Nhưng giao tiếp sai lại là cái tạo ra những cân bằng hợp tác trong trò chơi lặp lại để tháo gỡ ở ngay vị trí đầu tiên! Đạo lý của vấn đề này là ở chỗ các trò chơi PD thậm chí ngay cả những trò chơi lặp lại cũng rất khó thoát ra được. Các tay chơi duy lý tìm mọi cách để tránh các tình huống PD, mà không dựa vào các mưu chước tinh quái để cố thoát ra khỏi chúng.
Các màn kịch chính trị xã hội thực và phức tạp đôi khi cũng là những ví dụ rất sáng rõ cho những trò chơi đơn giản như PD. Hardin (1995) đã đưa ra một phân tích về hai trường hợp chính trị rất thực (và rất bi kịch) mới đây là cuộc nội chiến Yugoslavia 1991-1995, và sự diệt chủng tại Rwanda như là những trò chơi PD ẩn bên trong các trò chơi phối hợp. Một trò chơi phối hợp xuất hiện khi tiện ích của hai hoặc nhiều tay chơi được tối đa hóa bằng cách thực hiện cùng một việc, và ở nơi mà đối với họ sự phù hợp quan trọng hơn cái mà cả hai bên cùng làm.
Một ví dụ tiêu biểu thể hiện qua các qui tắc đi đường: “Tất cả đều lái xe bên trái” vừa là những kết quả thuộc các cân bằng Nash, lại vừa không hiệu quả hơn kết quả khác. Trong các trò chơi phối hợp “thuần túy”, thậm chí việc sử dụng các tiêu chuẩn cân bằng lựa chọn nhiều hơn cũng không ích gì. Chẳng hạn giả sử rằng chúng ta yêu cầu các tay chơi suy lý theo qui tắc Bayes (xem phần 3 ở trên). Trong các hoàn cảnh này, bất cứ chiến lược nào là lời đáp hiệu quả nhất đối với bất cứ vector nào của các chiến lược hỗn hợp có sẵn trong cân bằng Nash thì đều được gọi là có thể duy lý hóa. Có nghĩa là một tay chơi có thể phát hiện ra một tập hệ thống các niềm tin cho những tay chơi khác đến mức mà bất cứ một lịch sử trò chơi nào đi theo một đường dẫn cân bằng thì cũng đều phù hợp với tập hệ thống đó. Các trò chơi phối hợp thuần túy đều được đặc trưng bởi những vector không-duy nhất của các chiến lược có thể duy lý hóa. Trong những tình huống như vậy, các tay chơi có thể cố tiên đoán những cân bằng bằng cách đi tìm những tiêu điểm, có nghĩa là các đặc điểm của một vài chiến lược mà họ tin là quan trọng nhất đối với các tay chơi khác, và họ tin là những tay chơi khác cũng sẽ tin là quan trọng nhất đối với họ. (Chẳng hạn nếu hai người muốn gặp nhau vào một ngày nhất định trong một thành phố lớn nhưng lại không thể liên lạc được với nhau để sắp xếp về thời gian và địa điểm, thì có lẽ cả hai phải rất nhạy bén đi đến các quảng trường nổi tiếng nhất ở trung tâm thành phố vào buổi trưa). Không may là trong nhiều trò chơi chính trị và xã hội do con người thực hiện (và đôi khi cả những con thú khác) thì các thuộc tính bề mặt mang tính sinh học mà con người tự phân loại thành các nhóm chủng tộc và dân tộc đều tỏ ra có hiệu quả cao như những đặc điểm đó. Phân tích của Hardin về các cuộc diệt chủng là dựa vào sự thật này.
Theo Hardin, không phải các thảm họa ở Yugoslavia, cũng không phải các thảm họa ở Rwanda là những trò chơi mà người ta bắt đầu với chúng. Có nghĩa là không phải là tình thế, mà là phe phái, chính hầu hết mọi người bắt đầu bằng cách đối chiếu sự hủy hoại của người khác với sự hợp tác chung. Tuy nhiên cái logic chết người của sự phối hợp, được tiếp tay làm bậy một cách chu đáo của các chính khách đã tạo ra các trò chơi PD một cách sôi động. Một số cá nhân người Serbs (Hutus) đã được cổ vũ để lĩnh hội các quyền lợi cá nhân như là những gì đúng đắn nhất thông qua việc đồng nhất với các lợi ích nhóm của người Serbs (Hutus). Có nghĩa là họ nhận thức rằng một số hoàn cảnh của họ chẳng hạn như những hoàn cảnh liên quan đến cạnh tranh về việc làm thực sự có hình thức giống hệt các trò chơi phối hợp. Vì vậy họ đã hành động sao cho có thể tạo ra được các tình huống mà trong đó điều này cũng là thật đối với những người Serbs (Hutus) khác. Rốt cuộc, một khi đủ người Surbs đồng nhất tư lợi với quyền lợi nhóm thì sự đồng nhất đó trở nên hầu như là hoàn toàn chính xác, vì (1) mục đích quan trọng nhất đối với mỗi người Serb là thực hiện một cái gì đó na ná như mỗi người Serb khác sẽ làm, và (2) hầu hết những gì mà người Serb phải làm để có thể phối hợp lại thì chính là loại trừ người Croats (Tutsi). Có nghĩa là các chiến lược liên quan đến hành vi loại trừ như vậy được lựa chọn như là một kết quả của việc xác định được các tiêu điểm hiệu quả. Chính tình huống này đã làm nảy sinh trường hợp là quyền tư lợi của một cá nhân – và bị đe dọa về phương diện cá nhân – người Croat (Tutsi) được tối đa hóa một cách tốt nhất bằng việc phối hợp lại dựa trên bản sắc-nhóm Croat (Tutsi) quả quyết, chính là thứ làm tăng thêm sức ép đối với người Serbs (Hutus) để họ phối hợp lại, vv….Cần lưu ý rằng đó không phải là một khía cạnh của việc phân tích này, một khía cạnh mà những người Serbs hoặc Hutus bắt đầu các công việc của họ; quá trình đó có thể hoàn toàn mang tính thuận nghịch (ngay cả khi nó không diễn ra trong thực tế). Nhưng kết quả thì lại thật là khủng khiếp: người Serbs và Croats (Hutus và Tutsis) hình như càng ngày càng đe dọa nhau khi họ cùng chạy đua tự vệ, cho đến khi cả hai đều thấy bắt buộc phải hành động trước để ngăn chặn đối thủ và đánh phủ đầu. Nếu Hardin đúng – và vấn đề ở đây không phải là nhất quyết rằng ông ta đúng hay không, mà điều cần thiết là phải chỉ ra rằng tầm quan trọng mang tính thế giới của việc quyết định xem những tác nhân trò chơi nào thực sự đang chơi – sau đó sự hiện diện duy nhất của một áp lực bên ngoài (NATO?) cũng sẽ không thay đổi được trò chơi, thay đổi được thế cờ mà sự phân tích theo quan niệm của Hobbes, vì áp lực đó có thể đã không đe dọa bên này hai bên kia bằng bất cứ cái gì tồi hơn cái khiến cho tay chơi này e ngại tay chơi kia. Cái cần thiết chính là sự chia lại các thang giá trị của các lợi ích, là thứ (người ta có thể cho rằng) đã xảy ra ở Yugoslavia khi quân đội Croatian bắt đầu chiến thắng một cách quyết định, trong cái thời điểm mà những người Serbs Bosnia quyết định rằng các lợi ích cá nhân/nhóm của họ được đáp ứng tốt nhất bằng sự hiện diện của các lực lượng giữ gìn hòa bình của NATO. Trong khi cuộc xung đột ở Rwanda đã kéo theo vào đó các quốc gia láng giềng (Congo) mà những phát triển chính trị và quân sự đã làm cho nó thay đổi.
Tất nhiên vấn đề không phải là ở chỗ hầu hết những trò chơi lặp lại đều dẫn tới thảm họa. Cơ sở sinh học của tình bạn ở con người và ở động vật có lẽ phần nào là một hàm logic của các trò chơi lặp lại. Tầm quan trọng của khoản nhận được thông qua sự hợp tác trong các trò chơi tương lai hướng dẫn những con người mong muốn tương tác với nhau trở nên ít ích kỷ hơn sự cám dỗ sẽ gợi ý trong các trò chơi hiện tại. Hơn nữa, việc chăm sóc cho những lợi ích và tình cảm chung đem đến những mạng lưới của các tâm điểm xung quanh những gì mà sự phối hợp có thể được tạo thêm điều kiện thuận lợi.
5. Cam kết
Trong một số trò chơi, các tay chơi cải thiện các kết quả của họ bằng cách thực hiện các hành động làm cho họ không thể thực hiện được những gì là hành động thành công nhất của mình trong các trò chơi vận động đồng thời tương ứng. Những hành động như vậy được coi như là các cam kết, và chúng có thể được coi là các thay thế cho sự tăng cường ngoại sinh trong các trò chơi gắn chặt với các cân bằng không hiệu quả-Pareto.
Hãy xem xét kỹ lưỡng cái ví dụ giả định sau đây (đây không phải là một trò chơi PD). Giả sử bạn sở hữu một mảnh đất nằm kề một cái mỏ, và tôi muốn mua nó để mở rộng thêm mảnh đất của tôi. Chẳng may bạn lại không muốn bán với cái giá mà tôi muốn mua. Nếu chúng ta đồng thời thay đổi – bạn thông báo một giá bán còn tôi thì cũng độc lập đưa cho nhân viên của tôi một cái giá hỏi mua lúc đầu – sẽ không có sự mua bán trong trường hợp này. Vì vậy tôi có thể cố gắng thay đổi các động cơ của tôi bằng cách thực hiện một vận động mở trong đó tôi tuyên bố rằng tôi sẽ xây dựng một nhà máy xử lý nước thải có mùi thối trên mảnh đất của tôi, bên cạnh mảnh đất của bạn trừ khi bạn bán miếng đất đó, bằng cách ấy giảm giá của bạn. Giờ đây chúng ta quay trở lại với trò chơi vận động tuần tự. Tuy nhiên cho đến bây giờ vận động này vẫn không thay đổi được điều gì cả. Nếu bạn từ chối ngay cả khi tôi đe dọa, sau đó tôi cũng chẳng quan tâm gì đến vấn đề đó nữa, bởi vì trong khi phá bạn, tôi cũng phá chính bản thân tôi. Vì khi bạn biết điều này thì bạn cũng sẽ lờ đi lời đe dọa của tôi. Lời đe dọa của tôi là không đáng tin, một câu chuyện vớ vẩn.
Tuy nhiên tôi vẫn có thể làm cho câu truyện của mình đáng tin bằng cách cam kết với chính bản thân mình. Tôi có thể ký một hợp đồng với một số nông dân bằng cách hứa cung cấp cho họ nước thải đã xử lý (phân bón) từ nhà máy của tôi, nhưng bao gồm một điều khoản thoát trong hợp đồng giải thoát tôi khỏi trách nhiệm chỉ khi tôi có thể mở rộng gấp đôi mảnh đất của tôi và đưa nó vào một mục đích sử dụng khác. Giờ đây lời đe dọa của tôi là đáng tin: nếu bạn không bán, tôi sẽ cam kết xây dựng một nhà máy xử lý chất thải. Vì bạn biết điều này nên giờ đây bạn có một động cơ để bán mảnh đất của bạn cho tôi để thoát khỏi sự phá sản đó.
Loại trường hợp này bộc lộ một trong nhiều khác biệt cơ bản giữa logic của sự tối đa hóa tham số và phi tham số. Trong các tình huống tham số, một tác nhân có thể không bao giờ bị chơi xấu bằng cách có nhiều lựa chọn hơn. Nhưng ở đâu các hoàn cảnh là phi tham số thì chiến lược của một tác nhân có thể bị ảnh hưởng vào sở thích của người khác nếu các lựa chọn rõ ràng là hạn chế. Sự kiện đốt thuyền của Cortez (xem phần I) tất nhiên là một ví dụ về trường hợp này, một ví dụ có thể được sử dụng để tạo ra cái ẩn dụ thông thường.
Một ví dụ khác sẽ minh họa cho điều này, cũng như minh họa cho tính có thể ứng dụng của các nguyên tắc các loại trò chơi. Trong trường hợp này chúng ta sẽ xây dựng một tình huống tưởng tượng, một tình huống không phải là một trò chơi PD – vì chỉ duy nhất một tay chơi có động cơ để bội ước – nhưng là một song đề xã hội đến mức mà cân bằng Nash của nó lại không có sự cam kết thì chính là Pareto-cấp thấp so với một kết quả có thể đạt được với một phương thức cam kết. Hãy giả định rằng hai chúng ta cố gắng săn trộm một con linh dương hiếm trong một vườn quốc gia để bán cho nhà trưng bày. Một người trong chúng ta phải lùa con vật chạy về hướng người kia đang đợi để bắn nó và đưa nó vào một chiếc xe tải. Tất nhiên bạn hứa chia cho tôi khoản tiền thu được. Tuy nhiên lời hứa của bạn là không đáng tin cậy. Khi bạn đã nhận được tiền, bạn không có lý do gì để ném món tiền đi mà lại bỏ được vào túi toàn bộ giá trị của nó. Cuối cùng tôi không thể oán trách cảnh sát sao lại không bắt giữ cả tôi. Nhưng giờ đây hãy giả sử rằng tôi bổ sung thêm một vận động tiếp theo vào trò chơi. Trước khi săn tôi lắp vào xe tải một chiếc chuông báo động mà tôi có thể tắt nó chỉ bằng cách bấm vào một mã số. Chỉ có mình tôi biết mã số đó. Nếu bạn cố tách ra khỏi tôi thì chuông sẽ kêu và cả hai chúng ta sẽ bị bắt. Vì biết rõ về điều này nên bạn có động cơ để đợi tôi. Vấn đề quyết định cần lưu ý trong tình huống này là bạn muốn tôi lắp chuông vì điều đó làm cho lời hứa chia tiền của bạn cho tôi là đáng tin cậy. Nếu tôi không làm thế bằng cách làm cho lời hứa của bạn không đáng tin cậy thì chúng ta sẽ không thể đồng ý để trước hết là thử cái tội lỗi đó, và cả hai chúng ta sẽ bỏ mất một dịp kiếm được tiền. Vậy là bạn được hưởng lợi từ sự giàng buộc của tôi đối với bạn.
Chúng ta có thể kết hợp phân tích của mình về PD và các phương cách cam kết trong thảo luận về việc ứng dụng đầu tiên làm cho lý thuyết trò chơi trở nên nổi tiếng bên ngoài các cộng đồng học thuật. Tác dụng làm cân bằng hạt nhân giữa các Siêu cường trong Chiến tranh lạnh đã được nghiên cứu một cách thấu đáo bởi thế hệ đầu tiên của các nhà lý thuyết trò chơi, trong đó có nhiều người phục vụ cho Bộ quốc phòng Mỹ. Xem (Poundstone 1992 để biết chi tiết về phương diện lịch sử). Cả Mỹ và Liên Xô đều duy trì chính sách sau. Nếu một bên tiến hành tấn công trước thì bên kia đe dọa trả đũa bằng một cuộc phản công hủy diệt. Cặp chiến lược thuận nghịch này vào cuối những năm 1960s đã có khuynh hướng thực sự làm cho thế giới căng thẳng theo cách “Sự huỷ diệt Được bảo hiểm Chung – ‘Mutually Assured Destruction’, or ‘MAD’). Các lý thuyết gia trò chơi phản ứng rằng MAD quá mát (điên) vì nó làm cho Nan đề Người tù trở thành kết quả của một sự thật là những đe dọa đối địch nhau là không thể tin được. Giả sử Liên Xô khởi sự tấn công trước chống lại Mỹ. Trong thời điểm đó, tổng thống Mỹ đối mặt với tình huống sau. Đất nước ông đã bị hủy diệt. Ông không thể làm cho nó hồi sinh lại được bằng cách làm cho thế giới căng lên, vì vậy ông không có động cơ để thực hiện lời đe dọa của mình, là thứ mà giờ đây đã thất bại rõ ràng.Vì người Nga biết rõ điều đó nên họ sẽ phớt lờ lời đe dọa và tấn công trước! Tất nhiên người Mỹ cũng ở vào tình trạng tương tự. Mỗi cường quốc sẽ nhận ra động cơ này của phía bên kia, và vậy là sẽ đoán trước được cuộc tấn công nếu họ không tiến hành trước. Vì vậy cái mà chúng ta sẽ chờ đợi, vì nó là một cân bằng Nash duy nhất nên nó là cuộc chạy đua giữa hai cường quốc để trở thành kẻ tấn công đầu tiên.
Việc phân tích lý thuyết trò chơi đó đã gây ra một nỗi kinh hoàng thực sự và sự hoảng sợ đối với cả hai bên trong thời gian Chiến tranh lạnh, và được cho là đã tạo ra một số cố gắng to lớn trong việc xây dựng các phương cách cam kết chiến lược. Chẳng hạn một số giai thoại ỡm ờ rằng Tổng thống Nixon đã bắt CIA cố gắng chứng tỏ cho người Nga biết rằng ông ta điên khùng hoặc say rượu đến mức mà họ tin rằng ông ta sẽ tiến hành tấn công trả thù ngay cả khi ông ta không hề còn quan tâm đến nó nữa. Tương tự như vậy, KGB Sôviết cũng tiết lộ để khẳng định rằng đã có những báo cáo chi tiết về y học thổi phồng tình trạng suy nhược thần kinh tương tự của Brezhnev. Cuối cùng thì sự cân bằng chiến lược làm cho các nhà phân tích thuộc Lầu năm góc quan tâm trở nên rất phức tạp và có lẽ đã bị sụp đổ bởi những thay đổi trong các chiến thuật triển khai tên lửa Mỹ. Họ trang bị cho các hạm đội tàu ngầm với số tên lửa đủ để phá hủy Liên Xô. Điều này đã làm cho mạng lưới truyền thông của họ ít tính đáng tin, và bằng cách làm như vậy, họ đã đưa ra được một yếu tố về tính bất định có liên quan về phương diện chiến lược. Có lẽ tổng thống có thể ít được đảm bảo tiếp cận được với các hạm đội tàu ngầm và ngừng ra lệnh tấn công nếu bất cứ tên lửa nào của Liên Xô xuất hiện trên màn hình rađa ở Bắc Canada. Tất nhiên giá trị của vấn đề này trong việc phá vỡ tính cân bằng tùy thuộc vào việc người Nga có nhận thức được về vấn đề tiềm tàng hay không. Trong bộ phim kinh điển của Stanley Kubrick Tiến sĩ Strangelove, thì thế giới bị phá hủy bởi một sự tình cờ vì người Nga chế tạo ra một chiếc máy cho ngày phán xử cuối cùng nó sẽ tự động ấn nút phát động cuộc chiến tranh hủy diệt bất chấp quyết định của người lãnh đạo của đất nước họ theo đuổi đến cùng đối với răn đe MAD, nhưng sau đó lại giữ bí mật về nó! Kết quả là khi một đại tá Mỹ rõ ràng là bị điên đã phóng các tên lửa vào Nga theo ý muốn của anh ta, thì tổng thống Mỹ phải cố thuyết phục đối tác Sô viết của mình rằng cuộc tấn công đó là không hề cố ý, và thủ tướng Nga đã bẽn lẽn nói với ông về chiếc máy tự động bí mật của họ. Giờ đây có thể cả hai lãnh đạo sẽ không làm gì, mà chỉ nhìn vào sự mất hết tinh thần khi thế giới bị căng cứng sợ hãi vì một sai lầm trong lý thuyết trò chơi.
(Nên có một cuộc thảo luận với đầy đủ trách nhiệm về tác dụng cân bằng trong Chiến tranh lạnh đề cập đến các lý thuyết gia trò chơi đầu tiên hầu như chắc chắn đã mắc sai lầm trong việc xây dựng mô hình Chiến tranh lạnh như một Nan đề Người tù một lần duy nhất. Một mặt trò chơi cân bằng hạt nhân bị mắc kẹt trong những trò chơi lớn hơn có tính chất phức tạp cao hơn. Mặt khác, người ta vẫn chưa biết rõ là đối với một trong hai siêu cường khi hủy diệt siêu cường kia mà lại tránh được tự hủy diệt mình trong thực tế là một kết quả được xếp loại cao nhất. Nếu cả hai trường hợp đều không như vậy thì trò chơi ấy không phải là một trò PD.
Cam kết đôi khi có thể được đảm bảo thông qua giá trị đối với một người chơi về tăm tiếng riêng của người đó. Chẳng hạn một chính phủ liều lĩnh đàm phát với bọn khủng bố để đảm bảo việc giải thoát con tin trong một tình huống đặc biệt có thể cam kết với một chiến lược “con đường trên cát” vì mục đích duy trì một tăm tiếng về tính bền bỉ có mục đích giảm thiểu động cơ các cuộc tấn công trong tương lai. Một ví dụ khác được hãng hàng không Qantas của Australia cung cấp. Qantas chưa bao giờ phải chịu bất cứ sự cố nào và nó luôn luôn quảng cáo về vấn đề này. Điều này có nghĩa là các máy bay của nó an toàn hơn trung bình ngay cả khi cái lợi thế đầu tiên chỉ là một con toán thống kê, vì giá trị khả năng của nó để khẳng định một kỷ lục hoàn hảo xuất hiện khi khả năng đó còn tiếp tục, vì vậy mà mang lại cho Hãng các động cơ liên tục để chịu các chi phí cao hơn trong việc đảm bảo an toàn cho các chuyến bay của nó.
Bất cứ điều kiện nào cũng phải đảm bảo nếu các hiệu quả của tăm tiếng là một cam kết. Trước hết trò chơi phải được lặp lại với tính bất định liên quan đến vòng chơi nào là cuối cùng. Trò chơi PD lặp lại có thể được sử dụng để minh họa cho tầm quan trọng của nguyên tắc này. Hợp tác có thể là một chiến lược thống trị trong các trò chơi PD lặp lại vì một tay chơi có thể đạt được nhiều hơn từ tiếng tăm của anh ta nhờ hợp tác, thông qua việc kích thích các hy vọng của sự hợp tác với người khác hơn là anh ta có thể đạt được nhờ sự bội ước chỉ trong một vòng chơi. Tuy nhiên nếu các tay chơi biết trước vòng chơi nào sẽ là vòng cuối cùng của họ thì cân bằng đó đã được làm sáng tỏ. Trong vòng cuối cùng, tăm tiếng không còn giá trị, và vì vậy cả hai tay chơi đều bội ước, vì vậy ở đây tăm tiếng trở nên vô giá trị và họ sẽ lại bội ước. Điều đó làm cho tăm tiếng trở nên vô giá trị trong vòng cuối cùng thứ ba, vv….Quá trình đó lặp đi lặp lại đến vòng đầu tiên, vì vậy không hề có một sự hợp tác nào. Vấn đề này có thể được khái quát hóa để ấn định điều kiện cơ bản nhất về khả năng đối với việc sử dụng các hiệu quả tăm tiếng như là những phương thức cam kết: giá trị của tăm tiếng đối với người vun trồng nó phải lớn hơn cái giá trị mà anh ta hy sinh nó trong bất cứ vòng nào. Vì vậy các tay chơi có thể thiết lập cam kết bằng việc giảm giá trị của mỗi vòng sao cho sự cám dỗ bộ ước trong mỗi vòng không bao giờ đủ cao để làm cho nó trở thành duy lý. Chẳng hạn các bên tham gia một hợp đồng có thể đổi nghĩa vụ của họ bằng các khoản tiền lãi nhỏ để giảm động cơ bội ước cho cả hai phía. Vì vậy các nhà xây dựng trong các dự án xây dựng có thể được thanh toán nhiều lần theo tháng, hoặc theo tuần. Tương tự như vậy Qũi tiền tệ Quốc tế thường miễn nợ cho các chính phủ bằng khoản nhỏ, vì vậy giảm được động cơ của các chính phủ vi phạm các điều kiện cho vay khi tiền đã nằm trong tay họ; và các chính phủ có thể thực sự thích các cách sắp xếp như vậy để giảm các sức ép chính trị đối với việc sử dụng không tuân theo các điều khoản qui định.
 
6. Lý thuyết Trò chơi Tiến hóa
Gintis [2000, 2009] mới đây đã cảm thấy có lý do chính đáng trong việc tuyên bố một cách táo bạo “lý thuyết trò chơi là một ngôn ngữ phổ quát cho việc thống nhất các khoa học hành vi”. Cách nói như vậy có vẻ khác thường, nhưng lại hoàn toàn hợp lý. Binmore (1998, 2005) đã xây dựng mô hình lịch sử xã hội như là một loạt những hội tụ vào các cân bằng hiệu quả ngày càng tăng trong các trò chơi giao dịch đụng độ ngắt đoạn theo các phần trong đó một vài người cố thay đổi thành các cân bằng mới bằng cách bỏ các đường dẫn cân bằng tĩnh như là kết quả của các tai biến giai đoạn. (Chẳng hạn Stalin đã cố thay đổi xã hội của ông thành một tập hợp các cân bằng trong đó người ta quan tâm nhiều hơn đến cái cường quốc chính trị, quân sự và công nghiệp tương lai của đất nước họ hơn là quan tâm đến cuộc sống riêng của họ. Ông đã không thành công; tuy nhiên các nỗ lực của ông thực sự đã tạo ra một tình huống mà trong một vài thập kỷ nhiều người Sô viết đã gán tầm quan trọng không đáng kể cho cuộc sống của những người khác dưới mức bình thường). Hơn nữa các ứng dụng lý thuyết trò chơi vào các đề tài hành vi đã mở rộng vượt khỏi vũ đài chính trị.
Chẳng hạn vào năm 1969, nhà triết học David Lellog Lewis đã xuất bản cuốn Qui ước (Convention: A Philosophical Study, 1969, Havard University Press), trong đó khung khái niệm của lý thuyết trò chơi đã được áp dụng vào một trong những vấn đề cơ bản của tri thức luận thế kỷ XX, bản chất và mức độ của các qui ước thống trị ký hiệu học và mối quan hệ của nó với sự biện minh cho các niềm tin mang tính định đề. Cuốn sách này đã đứng được như một trong những tác phẩm kinh điển của triết học phân tích, và danh tiếng của nó hiện đang ngày càng nổi bật khi chúng ta ngày càng thức tỉnh về ý nghĩa vạch đường của nó. Việc sử dụng ví dụ đơn giản này có thể đưa lại cho chúng ta một sự hiểu biết rất cơ bản. Từ “gà” là để chỉ những con gà và từ “đà điểu” là để chỉ những con đà điểu. Chúng ta cũng sẽ không trở nên tốt hơn hay xấu hơn khi “gà” lại chỉ đà điểu, và “đà điểu” lại để chỉ gà; tuy nhiên chúng ta sẽ trở nên xấu đi nếu một nửa trong số chúng ta sử dụng một cặp từ theo cách thứ nhất, và một nửa theo cách thứ hai, hoặc nếu tất cả chúng ta tùy tiện sử dụng chúng để qui vào những con chim không biết bay nói chung.
Tất nhiên các tri thức này đã có trước Lewis; nhưng điều mà ông nhận ra là ở chỗ tình huống này mang hình thức logic của một trò chơi phối hợp. Vì vậy trong khi những qui ước đặc biệt có thể mang tính võ đoán thì các cấu trúc tương tác duy trì chúng và làm cho chúng bền vững thì lại không võ đoán. Hơn nữa các cân bằng liên quan đến việc phối hợp về các ý nghĩa-danh từ lại có vẻ là có một yếu tố võ đoán chỉ vì chúng ta không thể phân loại chúng theo cân bằng Pareto; nhưng Millikan (1984) đã ngầm chỉ ra rằng về phương diện này chúng không điển hình cho các phối hợp ngôn ngữ. Nói chung các loại cân bằng Nash khác nhau trong các trò chơi phối hợp thường thường đều có thể được phân loại. Ross & LaCasse (1995) đã đưa ra ví dụ sau. Trong một thành phố, những người lái xe phải điều phối dựa vào một trong những cân bằng Nash liên quan đến hành vi của họ ở chỗ có đèn giao thông. Tất cả phải đi gấp khi đèn vàng và dừng lại để đợi đèn xanh hoặc đi chậm lại khi đèn vàng hoặc vọt lên khi chuyển sang đèn xanh. Cả hai mô hình này đều là cân bằng Nash trong đó một khi cộng đồng đã phối hợp vào một trong số cân bằng đó thì không một cá nhân nào có một động cơ để vi phạm: những người nào đi chậm lại khi có đèn vàng trong khi những người khác lại lao vào họ thì họ sẽ bị đâm vào đuôi xe, trong khi những người khác vọt lên khi đèn vàng trong sự cân bằng khác thì sẽ có nguy cơ va chạm với vọt lên nhanh khi đèn xanh. Vì vậy, khi một mô hình giao thông thành phố đặt trên một trong những cân bằng này thì nó sẽ có khuynh hướng dừng lại ở đó. Tuy nhiên cả hai tình trạng trên đều không phải là những trung lập-Pareto, vì cân bằng Nash thứ hai cho phép nhiều xe rẽ trái trong mỗi chu kỳ (theo luật tay lái bên phải), là loại giảm mức độ cổ trai và cho phép tất cả các lái xe hy vọng đạt hiệu quả cao hơn trong giao thông.
Những qui ước về các tiêu chuẩn bằng chứng và tính duy lý có vẻ thuộc về đặc trưng này. Trong khi có nhiều sự bố trí có thể là cân bằng Nash trong các trò chơi xã hội của khoa học, vì các môn đệ của Thomas Kuhn muốn nhắc chúng ta rằng không thể có chuyện tất cả mọi cân bằng này đều dựa vào đường cong trung hòa Pareto. Những đề tài này đã được thể hiện rõ ràng trong nhận thức luận hiện đại, trong triết học khoa học, triết học ngôn ngữ mà tất cả đều là di vật của lý thuyết trò chơi theo cách của Lewis (chí ít thì cũng gián tiếp). (Người đọc có thể phát hiện ra nhiều ví dụ ứng dụng và qui chiếu hơn trong các tập văn liệu lớn hơn, trong Nozick 1998). Tuy nhiên Lewis đã giới hạn sự chú ý của mình vào lý thuyết trò chơi tĩnh trong đó các tác nhân chọn các chiến lược là những hàm tiện ích cố định ngoại sinh. Như một kết quả của sự giới hạn này, việc lý giải của ông có thể chỉ cho chúng ta thấy tại sao các qui ước này lại quan trọng và bền vững, nhưng nó lại làm nảy sinh một vấn đề khó khăn và có lẽ không hiệu quả đối với một lý thuyết tổng quát về tính duy lý. Có hiện tượng đó là vì như chúng ta đã thấy ở phần 3 ở trên, trong các trò chơi kết hợp (và các trò chơi khác) có rất nhiều cân bằng Nash, cái được coi là một giải pháp chính là cái nhạy cảm cao với các phỏng đoán được thực hiện bởi các tay chơi về các niềm tin và khả năng tính toán của một tay chơi khác. Điều này gây ra một sự chú ý đáng kể, đặc biệt là từ các nhà triết học về những mối liên hệ của nhiều loại khác biệt mơ hồ trong các chuẩn mực của tính duy lý chiến lược. Tuy nhiên nếu như lý thuyết trò chơi thực sự giải thích được các hành vi tự nhiên và lịch sử của nó theo cái cách do Gintis (2000) gợi ý thì chúng ta cần một lý giải nào đó về cái có tính hấp dẫn về những cân bằng trong các trò chơi thậm chí ngay cả khi không có bất cứ nhà phân tích hoặc nhà tính toán duy lý nào ở xung quanh để xác định chúng. Việc thực hiện cái qui chiếu đối với đề tài của Lewis khi ngôn ngữ của con người đã được phát triển thì lại không có bất cứ một trọng tài nào ở bên ngoài để phân xử và bố trí cho hiệu quả Pareto. Vì vậy để hiểu được chủ nghĩa lạc quan của Gintis về việc tiếp cận được với lý thuyết trò chơi chúng ta cần phải mở rộng sự chú ý của mình vào các trò chơi mang tính tiến hóa.
Các lý thuyết trò chơi đã được ứng dụng một cách thành công vào sinh học tiến hóa mà trong đó các loài và/hoặc các gen được đối xử như là những tay chơi từ công trình tiên phong của Maynard Smith (1982) và những người cộng tác với ông. Lý thuyết trò chơi tiến hóa (hoặc động) đã kích thích cho sự mở rộng của toán học mới một cách đáng kể để có thể ứng dụng vào nhiều môi trường trừ môi trường sinh học. Vì vậy mà Skyrms (1996) đã sử dụng lý thuyết trò chơi tiến hóa để cố gắng trả lời các câu hỏi mà ngay cả Lewis cũng chưa đặt được câu hỏi, về các điều kiện mà ngôn ngữ, các khái niệm về công lý, khái niệm về tài sản tư nhân, và những hiện tượng chung không được thiết kế khác đã thu hút mối quan tâm của các nhà triết học. Điều mới đối với lý thuyết trò chơi tiến hóa chính là các vận động không được lựa chọn bởi các tác nhân duy lý. Thay vào đó, các tác nhân này lại được cứng hóa (hard-wired – kiểm soát bằng các mạch điện tử) một cách điển hình bằng những chiến lược đặc biệt và sự thành công đối với một chiến lược được xác định trong khuôn khổ số bản copies mà một chiến lược tự để lại để chơi trong các trò chơi của những thế hệ tiếp theo. Vì vậy bản thân các chiến lược cũng là những tay chơi và các trò chơi mà họ chơi thì năng động chứ không tĩnh tại.
Việc thảo luận về vấn đề này gắn liền với các luận điểm của Skyrms. Chúng ta hãy bắt đầu bằng việc giới thiệu động học sao chép. Trước hết hãy xem xét lựa chọn tự nhiên đã họat động như thế nào để thay đổi các giống loài động vật, bằng cách biến đổi, tạo ra và hủy diệt các loài. Cơ chế cơ bản là sinh sản khác biệt. Bất cứ động vật nào có các đặc điểm có thể di truyền làm tăng số lượng con cái mong muốn của chúng trong một môi trường nhất định thì đều có khuynh hướng để lại nhiều con cái hơn những loài khác chừng nào môi trường vẫn còn tương đối bền vững. Thế hệ con cái ấy sẽ kế thừa những đặc điểm đã được nêu ra. Vì vậy tỷ lệ của những đặc điểm này trong cư dân của chúng sẽ tăng dần khi các thế hệ lần lượt qua đời. Một số đặc điểm này có thể đi đến cố định, có nghĩa là cuối cùng chúng kế tục toàn bộ cư dân (cho đến khi nào môi trường thay đổi).
Lý thuyết trò chơi có thể tiếp cận với vấn đề này như thế nào? Thông thường một trong những khía cạnh quan trọng nhất của một môi trường sinh vật sẽ là những khuynh hướng hành vi của những sinh vật khác. Chúng ta có thể nghĩ về mỗi loài như là đang “cố gắng” tối đa hóa tính thích ứng (= số cháu chắt mong muốn) thông qua việc xác định các chiến lược tối ưu của những loài khác. Vì vậy lý thuyết tiến hóa là một lĩnh vực khác của việc ứng dụng cho phân tích phi tham số.
Trong lý thuyết trò chơi động, chúng ta không còn nghĩ về các cá thể như là sự lựa chọn những chiến lược khi chúng vận động từ một trò chơi này đến một trò chơi khác. Có điều đó là vì các lợi ích của chúng ta là khác nhau. Giờ đây chúng ta ít quan tâm đến việc phát hiện ra các cân bằng của những trò chơi đơn hơn là phát hiện ra những cân bằng bền vững, và việc chúng thay đổi ra sao theo thời gian. Vì vậy giờ đây chúng ta xây dựng mô hình các chiến lược tự thân khi chơi với nhau. Một chiến lược được coi là “tốt hơn” chiến lược khác khi nó để lại nhiều bản sao của nó cho những thế hệ tiếp theo, khi trò chơi sẽ được chơi lại. Chúng ta nghiên cứu những thay đổi trong việc phân phối các chiến lược trong cư dân như là trật tự của việc mở rộng các trò chơi. Đối với lý thuyết trò chơi động, chúng tôi giới thiệu một khái niệm cân bằng (theo Maynard Smith 1982). Một tập chiến lược theo một tỷ lệ đặc biệt (chẳng hạn 1/3:2/3, ẵ, 1/9:8/9, 1/3:1/3:1/6:1/6 – luôn luôn có tổng là 1) ở một ESS (Evolutionary Stable Strategy) cân bằng ngay trong trường hợp (1) không cá nhân nào chơi một chiến lược lại có thể cải thiện được tính thích ứng tái sinh sản của nó bằng cách chuyển sang một trong những chiến lược khác theo tỷ lệ, và (2) không một biến dị nào chơi một chiến lược khác lại hoàn toàn có thể tự mình hình thành (“xâm lược”) trong cư dân.
Các nguyên tắc của lý thuyết trò chơi tiến hóa được lý giải tốt nhất thông qua các ví dụ. Skyrms bắt đầu bằng việc khảo sát các điều kiện trong đó một ý nghĩa công lý được hiểu như là một khuynh hướng để coi những phân chia bình đẳng các nguồn là công bằng trừ khi những xem xét về mặt hiệu quả gợi ý khác đi trong những trường hợp đặc biệt – có thể xuất hiện. Ông đề nghị chúng ta xem xét một cư dân trong đó các cá thể gặp nhau đều đặn và phải thương lượng về các nguồn.
Bắt đầu với ba loại cá thể:
a.                  Những người ưa công bằng luôn luôn yêu cầu một nửa các nguồn
b.                  Những người tham lam luôn luôn yêu cầu nhiều hơn một nửa. Khi một người tham lam đối mặt với một người tham lam khác thì họ lãng phí các nguồn vào việc tranh giành nó.
c.                  Những người khiêm tốn luôn luôn yêu cầu ít hơn một nửa các nguồn. Khi một người khiêm tốn đối mặt với một người khiêm tốn khác thì họ lấy ít hơn toàn bộ các nguồn có sẵn và lãng phí một số lượng nào đó.
Mỗi cuộc đọ sức đơn lẻ nơi mà tổng số cá thể yêu cầu tổng cộng lên đến 100% thì là một cân bằng Nash của cái trò chơi cá nhân đó. Tương tự như vậy, có thể có nhiều cân bằng động. Giả sử rằng những người tham lam yêu cầu 2/3 tổng số các nguồn và những người khiêm tốn yêu cầu 1/3. Vậy thì có 2 phần là các chiến lược tiến hóa bền vững ESSs:
– Một nửa cư dân tham lam và một nửa khiêm tốn. Chúng ta có thể tính khoản được trả trung bình ở đây. Những người khiêm tốn lấy 1/3 các nguồn trong mỗi cuộc đối đầu. Người tham lam lấy 2/3 khi cô ta gặp người Khiêm tốn, nhưng lại không được gì khi cô ta gặp người tham lam khác. Vì vậy khoản nhận được trung bình của cô ta cũng là 1/3. Đây là một ESS bởi vì Người công bằng không thể xâm phạm đến kẻ khác. Khi người Công bằng gặp người Khiêm tốn anh ta nhận 1/2. Nhưng khi Người công bằng gặp Người tham lam anh ta không nhận được gì. Vì vậy cái khoản nhận được trung bình của anh ta chỉ là 1/4. Không có Người khiêm tốn nào có một động cơ để thay đổi các chiến lược, và cũng không có bất cứ Người tham lam nào làm như vậy. Một người Công bằng đột biến xuất hiện trong dân cư sẽ chơi kém nhất, và sự lựa chọn như vậy sẽ không cổ vũ cho sự truyền bá của bất cứ đột biến nào như vậy.
– Toàn bộ những người chơi đều là Người công bằng. Mỗi người luôn luôn nhận một nửa các nguồn, và không người nào có thể chơi tốt hơn bằng cách thay đổi thành một chiến lược khác. Những người tham lam tham gia vào cư dân này phải đối diện với những người công bằng và nhận một khoản được trả trung bình bằng 0. Những người khiêm tốn nhận 1/3 như trước, nhưng phần này lại ít hơn phần của người Công bằng là 1/2. Cần lưu ý rằng cân bằng (i) là không hiệu quả, vì khoản trung bình nhận được đối với toàn bộ cư dân thì nhỏ hơn. Tuy nhiên hệt như vậy các kết quả không hiệu quả có thể là các cân bằng Nash NE của các trò chơi tĩnh tại này, vì vậy chúng có thể là những cân bằng NE động của ESS.
Chúng tôi qui vào các cân bằng trong đó xuất hiện nhiều hơn một chiến lược với tư cách là những đa hình. Nhìn chung trong trò chơi Skyrms, bất cứ đa hình nào trong đó những Người tham lam yêu cầu x và Người khiêm tốn yêu cầu 1 – x thì đó là một ESS. Vấn đề là ở chỗ những lợi ích mà người nghiên cứu công bằng quan tâm lại chính là khả năng có thể xảy ra tương đối với những gì mà các cân bằng khác xuất hiện.
Điều này phụ thuộc hoàn toàn vào các cân xứng chiến lược trong tình trạng cư dân gốc. Nếu cư dân đó bắt đầu với nhiều hơn một Người công bằng thì có một xác suất nào đó mà Người công bằng sẽ đối diện với nhau, và lấy phần được chia trung bình có thể là cao nhất. Những Người khiêm tốn tự thân họ không ngăn cản sự mở rộng của những Người công bằng; chỉ có những người tham lam mới làm như vậy. Nhưng những người tham lam, tự thân họ lại phụ thuộc vào việc có những người khiêm tốn ở xung quanh để có thể tồn tại và trụ vững. Vậy là trong cư dân xuất hiện nhiều người công bằng hơn liên quan đến các cặp Tham lam và Khiêm tốn, thì những người công bằng ưu tú hơn sẽ chơi ở mức trung bình. Điều đó ám chỉ một hiệu quả ngưỡng. Nếu tỷ lệ những người công bằng rớt thấp dưới 33% thì khuynh hướng đối với họ sẽ là rơi vào tuyệt chủng vì họ thường không thể thỏa mãn nhau được. Nếu cư dân của những người công bằng tăng lên trên 33% thì khuynh hướng đối với họ sẽ là tăng đến mức ổn định vì những mối lợi gia tăng của họ khi họ có thể đáp ứng được cho nhau thì nó sẽ bù đắp cho những mất mát của họ khi họ gặp những người tham lam. Bạn có thể thấy điều này bằng cách lưu ý rằng khi mỗi chiến lược được sử dụng khoảng 33% cư dân thì tất cả đều nhận một khoản được trả là 1/3. Vì vậy bất cứ chiến lược nào vượt lên trên ngưỡng này về phía những người Công bằng sẽ có khuynh hướng đẩy họ đến cố định hóa. Kết quả này chỉ ra rằng bằng cách nào mà các điều kiện tương đối tổng thể nhất định đã cho, công lý như chúng ta đã định nghĩa có thể xuất hiện một cách năng động. Tin tức cho những người hâm mộ công lý sẽ trở nên đáng phấn khởi hơn nếu chúng ta giới thiệu lối chơi tương liên.
Cái mô hình mà chúng ta vừa mới xem xét giả định rằng các chiến lược không liên hệ gì với nhau, có nghĩa là xác suất mà mỗi chiến lược thỏa mãn một chiến lược khác là một hàm đơn của những tần số xuất hiện có liên quan trong cư dân. Giờ đây chúng ta hãy xem xét cái gì xảy ra trong trò chơi phân chia nguồn lực động của chúng ta khi chúng ta giới thiệu thế tương liên. Giả định rằng những người công bằng có đôi chút khả năng để phân biệt và tìm ra những người công bằng khác như là các bên đối tác tương liên. Trong trường hợp đó những người công bằng trung bình chơi tốt hơn và điều này phải có hiệu quả của việc làm thấp đi cái ngưỡng của họ để chuẩn bị đi đến cố định hóa. Một người xây dựng mô hình trò chơi động nghiên cứu các hiệu quả của mối tương liên và các giới hạn tham số khác bằng phương pháp vận hành các mô phỏng computer lớn trong đó các chiến lược cạnh tranh với nhau hết vòng nọ đến vòng kia trong môi trường ảo. Những cân xứng ban đầu của các chiến lược và bất kỳ cấp độ tương quan lựa chọn nào đều đơn giản có thể được thiết lập trong chương trình. Vậy thì người ta có thể nhìn vào động thái của nó trải ra theo thời gian, và đo lường tỷ lệ thời gian mà nó dừng lại trong bất cứ một cân bằng nào. Những tỷ lệ này được thể hiện bằng các kích cỡ tương đương của các vùng hấp lực đối với các cân bằng khả thể khác nhau. Các cân bằng là những điểm hấp dẫn trong một không gian động; một vùng hấp lực cho mỗi điểm như vậy là một tập hợp các điểm trong không gian mà từ đó cư dân kia sẽ hội tụ thành sự cân bằng đã được đặt ra.
Khi đưa mối tương quan vào mô hình của mình, trước hết Skyrms đã thiết lập mức độ tương liên ở một điểm rất nhỏ 1) điều đó làm cho vùng hấp lực cân bằng (i) để co rút lại bằng một nửa. Khi mức độ tương liên được thiết lập thành 2) vùng đa hình sẽ qui giản thành điểm mà ở đó cư dân kia bắt đầu trở thành đa hình. Vì vậy những số lượng tương liên rất nhỏ tăng lên đã tạo ra những số lượng tăng tỷ lệ lớn trong tính bền vững của sự cân bằng mà ở đó mỗi tay chơi đều chơi như một người công bằng. Một số lượng nhỏ mối tương liên tăng lên là một định đề hữu lý trong hầu hết các cư dân mà ở đó những người hàng xóm có khuynh hướng tương tác với một người khác và bắt chước một người khác (cả về phương diện di truyền hoặc vì những thiên hướng trở thành bản sao của nhau một cách cố ý), và vì về phương diện di truyền những động vật tương tự dường như thích sống trong các môi trường chung hơn. Vì vậy nếu sự công bằng có thể xuất hiện toàn bộ thì nó sẽ có khuynh hướng trở thành thống trị và bền vững. Hầu hết triết học chính trị đều bao gồm những cố gắng để sản xuất ra các lý lẽ định chuẩn diễn dịch nhằm thuyết phục một tác nhân không ưa công bằng rằng cô ta có những lý do để hành động một cách công bằng. Phân tích của Skyrms đã đưa ra một cách tiếp cận hoàn toàn khác. Người công bằng sẽ chơi tốt trong một trò chơi động nếu anh ta thực hiện những bước tích cực để bảo toàn sự tương liên. Vì vậy có một sức ép tiến hóa đối với cả những thể chế tiếp cận đạo đức của công lý và các thể chế công lý làm cho chúng xuất hiện. Hầu hết mọi người có thể nghĩ rằng những cách chia 50-50 là công bằng và duy trì một cách xứng đáng bằng sự thừa nhận cũng như bằng phần thưởng đạo đức và thể chế vì chúng ta là những sản phẩm của một trò chơi năng động thúc đẩy chúng ta suy nghĩ theo khuynh hướng này.
Đề tài được nhiều người quan tâm nhất từ các nhà lý thuyết trò chơi tiến hóa là lòng vị tha, được xác định là bất cứ hành vi nào của một sinh vật nhằm làm giảm đi khả năng truyền gen mong muốn cho các thế hệ sau trong một tương tác đơn, nhưng lại làm tăng khả năng đó cho kẻ tương tác khác. Điều đó rất thông dụng trong tự nhiên. Tuy nhiên đấu tranh sinh tồn Darwin đã xuất hiện thế nào? Skyrms nghiên cứu vấn đề này bằng cách sử dụng Nan đề Người tù động làm ví dụ của mình. Đây chỉ đơn giản là một loạt trò chơi PD trong một cư dân, trong đó một vài thành viên là những kẻ bội ước và một số là những người hợp tác. Các khoản được trả, khi luôn luôn ở trong những trò chơi động, được đo lường bằng khuôn khổ của những số lượng bản sao của mỗi chiến lược trong các thế hệ tương lai.
Chúng ta hãy coi U(A) là khả năng truyền gen trung bình của chiến lược A trong cư dân. Hãy coi U là khả năng truyền gen trung bình của toàn bộ cư dân. Vậy là sự cân xứng chiến lược A trong thế hệ tiếp theo thực sự là tỷ lệ U(A)/U. Vậy thì nếu Acó khả năng truyền gen lớn hơn thì mức độ trung bình A của cư dân tăng lên. Nếu A có khả năng truyền gen thấp hơn mức độ trung bình của cư dân thì A giảm.
Trong trò chơi PD động mà ở đó mối tương tác là hiếm hoi (tức là không có tương liên), thì những tay chơi bội ước sẽ chơi tốt hơn mức độ trung bình của cư dân chừng nào có những tay chơi hợp tác xung quanh. Điều này kéo theo một thực tiễn là như chúng ta đã thấy ở phần 2.4, sự bội ước luôn luôn là một chiến lược thống trị trong một trò chơi đơn. Vì vậy 100% bội ước là ESS trong trò chơi động không có tương liên, phù hợp với cân bằng Nash trong trò chơi PD tĩnh một lần duy nhất. Tuy nhiên việc giới thiệu khả năng tương liên đã làm thay đổi tận gốc dễ vấn đề. Giờ đây chúng ta cần tính toán khả năng truyền gen trung bình của một chiến lược có xác suất nhất định của chiến lược có thể thỏa mãn nhau. Trong trò chơi PD động, những người hợp tác có xác suất thỏa mãn những người hợp tác khác cao thì chơi tốt hơn những người bội ước mà xác suất thỏa mãn những người bội ước khác cao. Vì vậy tương liên hỗ trợ cho sự hợp tác. Để có thể nói một điều gì đó chính xác hơn về mối quan hệ giữa tương liên và hợp tác ấy (và để có thể liên hệ lý thuyết trò chơi tiến hóa với các vấn đề trong lý thuyết quyết định, một vấn đề nằm ngoài phạm vi bài báo này), Skyrms đã giới thiệu một khái niệm kỹ thuật mới. Ông gọi một chiến lược là có thể chấp nhận về phương diện thích nghi nếu có một vùng xung quanh điểm cố định của nó trong không gian động từ bất cứ nơi nào trong vùng đó thì nó sẽ đi tới cố định. Trong trò chơi PD động, cả bội ước và hợp tác đều có thể được chấp nhận về phương diện thích nghi. Kích cỡ có liên quan của các vùng hấp lực nhạy cảm rất cao đối với các cơ chế mà sự tương liên đạt được. Để minh họa cho vấn đề này, Skyrms đã đưa ra một số ví dụ.
Một trong những mô hình của Skyrms đã giới thiệu mối tương quan bởi phương tiện là một bộ lọc theo cặp do sự tương tác. Giả sử rằng trong vòng 1 của trò chơi PD động các cá nhân kiểm soát nhau và tương tác, hoặc không, đều tùy thuộc vào cái mà họ phát hiện ra. Trong vòng chơi thứ hai và các vòng tiếp theo tất cả các cá nhân không chơi thành cặp trong vòng 1 thì hiếm khi cặp với nhau. Trong trò chơi này, vùng hấp lực cho sự bội ước là rộng lớn trừ khi có một tỷ lệ cao những người hợp tác trong vòng 1. Trong trường hợp này những người bội ước không thể chơi cặp trong vòng 1 được, sau đó họ hầu hết chơi cặp với nhau trong vòng 2 và dẫn nhau đến tuyệt diệt. Một mô hình thú vị hơn vì cơ chế của nó ít giả tạo, không cho phép các cá nhân lựa chọn các đối tác của họ, nhưng lại đòi hỏi họ tương tác với những đối tác gần gũi với họ nhất. Bởi vì những mối quan hệ di truyền (hoặc học văn hóa bằng cách sao chép) nên dường như các cá nhân tương đồng với các hàng xóm của họ hơn là không. Nếu nhóm cư dân hữu hạn này được dàn trận theo một phương (tức là dọc theo một tuyến) và tất cả những người hợp tác và những người bội ước hiếm khi đều được đưa vào các vị trí cùng với nó thì chúng ta sẽ có được động thái dưới đây. Những người hợp tác biệt lập có khả năng truyền gen mong muốn thấp hơn những người bội ước xung quanh và bị dẫn một cách cục bộ tới tuyệt diêt.
Các thành viên của các nhóm thuộc hai người hợp tác có một xác suất 50% tương tác với nhau, và 50% tương tác với những người bội ước. Kết quả là khả năng truyền gen mong đợi trung bình của họ vẫn nhỏ hơn khả năng của những người hàng xóm bội ước và họ cũng phải đối mặt với khả năng tuyệt diệt. Các nhóm ba người hợp tác tạo thành một điểm không bền vững mà từ đó cả sự tuyệt diệt lẫn sự phát triển đều ngang bằng nhau. Tuy nhiên trong các nhóm 4 người hoặc số người hợp tác nhiều hơn thì ít nhất là một sự đối đầu của một người hợp tác với một người hợp tác khác chí ít cũng đủ để đảm bảo thay thế nhóm nguyên gốc. Trong hoàncảnh đó, những người hợp tác tạo thành một nhóm thì chơI tốt hơn những người bội ước xung quanh và chi phí của họ tăng lên. Cuối cùng những người hợp tác hầu như đi đến cố định – nhưng không hoàn toàn. Những người bội ước đơn độc ở ngoại vi của cư dân làm hại những người hợp tác ở những vòng cuối cùng và sống sót như những cộng đồng “tội phạm” nhỏ. Vì vậy chúng ta thấy rằng lòng vị tha có thể không chỉ được duy trì bởi động thái của các trò chơi tiến hóa, mà với mối tương liên, nó thậm chí có thể phát triển và định cư ở những cư dân có về nguồn gốc là không có lòng vị tha.
Vì vậy động thái Darwin đưa ra những tin tức có chất lượng tốt cho sự hợp tác. Tuy nhiên cần phải nhớ rằng điều này chỉ đứng vững chừng nào các cá nhân còn bị mắc kẹt với các chương trình văn hóa hoặc tự nhiên của họ và không thể tái định giá các tiện ích cho chính bản thân họ. Nếu các tác nhân của chúng ta quá thông minh và linh họat thì họ có thể nhận ra rằng họ đang chơi các trò chơi PD và có lẽ tất cả đều bị thất bại. Cuối cùng trong trường hợp này, họ thực sự đưa bản thân mình đến tuyệt diệt – trừ khi họ phát triển những chuẩn mực đạo đức hiệu quả và bền vững nhằm củng cố sự hợp tác. Nhưng tất nhiên đây chỉ là những cái mà chúng ta mong muốn làm tiến triển trong các cư dân động vật mà các cấp độ khả năng truyền gen trung bình của chúng được liên kết chặt chẽ với các khả năng hợp tác xã hội thành công của chúng. Ngay cho dù như vậy thì các cư dân này cũng sẽ tuyệt diệt ngoại trừ chúng quan tâm đến các thế hệ tương lai vì một lý do nào đó. Nhưng không hề có những lý do chính đáng để chúng ta suy nghĩ về việc tại sao các tác nhân nên quan tâm đến các thế hệ tương lai nếu như mỗi thế hệ mới lại thay thế toàn bộ những thế hệ đi trước ở mỗi thay đổi của các nhóm người. Vì lý do này các nhà kinh tế sử dụng mô hình “trồng xếp thế hệ” khi xây dựng mô hình các trò chơi phân phối. Các cá nhân trong thế hệ 1 – những người kéo dài đến thế hệ 5 – sẽ tiết kiệm các nguồn cho thế hệ 3 là những người mà họ muốn hợp tác cùng; và đến thế hệ 3 thì các cá nhân mới sẽ quan tâm đến thế hệ 6; vầ vv….
 
7. Lý thuyết Trò chơi và Bằng chứng Hành vi
Trong các phần trước chúng ta đã xem xét một số vấn đề xuất hiện từ việc xử lý lý thuyết trò chơi cổ điển (không tiến hóa) như một lý thuyết định chuẩn là thứ thể hiện cho người ta về cái mà người ta phải làm nếu họ muốn trở thành duy lý trong các tình huống chiến lược. Vấn đề khó khăn như chúng ta thấy là hình như không có một khái niệm giải pháp mà chúng ta có thể dứt khoát phó thác cho mọi tình huống. (Trong các trò chơi loại hình mở rộng thuộc lĩnh vực thông tin hoàn hảo, cũng tồn tại vấn đề nghịch lý của sự qui nạp ngược). Tuy nhiên chúng ta lưu ý rằng sự khước từ này không áp dụng cho lý thuyết trò chơi được coi là một dạng toán học là thứ có thể dùng để mô tả hành vi thực. Vậy thì rất tự nhiên xuất hiện một câu hỏi: Có phải lý thuyết trò chơi đã thực sự giúp đỡ cho các nhà nghiên cứu kinh nghiệm chủ nghĩa thực hiện các phát hiện mới về hành vi (con người hoặc cái gì khác nữa)? Nếu vậy thì nói chung là cái gì là nội dung của những phát hiện này?
Khi ấn định câu hỏi này, chúng ta phải đứng trước một vấn đề tri thức luận trực tiếp. Không có các nào áp dụng lý thuyết trò chơi như là một thứ mà “mọi thứ đều bởi chính bản thân nó” một cách độc lập khỏi việc xây dựng mô hình các công nghệ. Khi sử dụng tiêu chuẩn thuật ngữ trong triết học khoa học, người ta có thể kiểm tra một mô hình lý thuyết trò chơi của một hiện tượng chỉ trong trường hợp người nọ sau người kia với “các định đề phụ” về hiện tượng được đặt ra. Tối thiểu thì điều này cũng xảy ra nếu ai đó tuyệt đối xử lý lý thuyết trò chơi thuần túy như một phép toán mà không có nội dung kinh nghiệm chủ nghĩa của riêng bản thân nó. Theo một nghĩa nào đó, một lý thuyết không có nội dung kinh nghiệm chủ nghĩa thì sẽ không bao giờ để ngỏ cho sự kiểm nghiệm; người ta có thể chỉ băng khoăn về việc là liệu các tiên đề của một lý thuyết là luôn nhất quán. Dù sao thì một lý thuyết toán cũng có thể được đánh giá liên quan đến tính chất hữu dụngmang tính kinh nghiệm chủ nghĩa. Một loại phê phán triết học đôi khi cũng được thực hiện bằng lý thuyết trò chơi, được lý giải như là một công cụ toán học để xây dựng mô hình các hiện tượng hành vi, có nghĩa là việc ứng dụng nó luôn luôn hoặc thường xuyên yêu cầu viện đến các định đề sai, giả hoặc thô giản về những hiện tượng này. Chúng ta hy vọng sự phê phán này có những mức độ sức mạnh khác nhau trong những khung cảnh ứng dụng khác nhau khi những định đề phụ là khác biệt nhau.
Hóa ra vấn đề là như vậy. Không có lĩnh vực nào thú vị trong đó những ứng dụng lý thuyết trò chơi lại hoàn toàn không gây tranh cãi. Tuy nhiên đã có những đồng thuận dễ dàng hơn về việc tại sao lại sử dụng lý thuyết trò chơi (cả cổ điển lẫn tiến hóa) để hiểu hành vi động vật không phải con người hơn là việc làm thế nào để triển khai nó nhằm lý giải và tiên đoán của mọi người. Trước hết chúng ta hãy xem xét một cách vắn tắt các vấn đề triết học và phương pháp luận đã xuất hiện xung quanh việc ứng dụng lý thuyết trò chơi trong sinh học không phải người, trước khi chúng ta chú ý đầy đủ hơn đến khoa học xã hội về lý thuyết trò chơi.
Việc xây dựng mô hình lý thuyết trò chơi ít gây tranh cãi nhất chính là việc ứng dụng loại hình cổ điển của lý thuyết vào việc xem xét các chiến lược bằng cách các động vật không phải là người nào tìm cách để đạt được các nguồn cơ bản thích hợp với trận đấu tiến hóa của chúng: các cơ hội để sinh sản các thế hệ tiếp theo tự thân chúng đều có vẻ là tái sinh sản. Vì vậy để tối đa hóa khả năng di truyền đáng mong muốn của chúng, các loài động vật phải tìm được các cân bằng tối ưu trong số các hàng hóa trung gian khác nhau, chẳng hạn như dinh dưỡng, tránh bị ăn thịt và có khả năng cạnh tranh với các đối thủ trong việc chọn bạn tình. Các điểm cân bằng tối ưu có hiệu quả trong số các loại hàng hóa này có thể thường được ước tính cho các loài đặc biệt trong các điều kiện môi trường đặc biệt, và dựa trên cơ sở của các ước lượng này, cả cân bằng tham số và cân bằng phi tham số đều có thể được phát sinh. Các mô hình thuộc loại này có một kỷ lục để lại dấu vết đầy ấn tượng trong việc dự đoán và lý giải các dữ liệu kinh nghiệm độc lập về những hiện tượng chiến lược như khai thác cạnh tranh, chọn bạn tình, bè phái, kình địch chị em anh em ruột, tập hợp thành bầy đàn, đề phòng động vật ăn thịt, ra dấu hiệu, chải chuốt cho nhau, phụ thuộc lẫn nhau (cộng sinh).
Còn nữa…
 
Tác giả: Don Ross là Giáo sư Triết học tại Đại học Alabama ở Birmingham, Giáo sư Kinh tế học tại Đại học Cape Town, Nam Phi. Công trình chủ yếu: Economic Theory and Cognitive Science: Microexplanation (MIT Press, 2005).
Nguyên văn: Game Theory, The Stanford Encyclopedia of Philosophy (Fall 2010 Edition), Edward N. Zalta (ed.), First published Sat Jan 25, 1997; substantive revision Wed May 5, 2010
 
References
Baird, D., Gertner, R., and Picker, R. (1994). Game Theory and the Law. Cambridge, MA: Harvard University Press.
Binmore, K., Kirman, A., and Tani, P. (eds.) (1993). Frontiers of Game Theory. Cambridge, MA: MIT Press
Binmore, K. (1998). Game Theory and the Social Contract (v. 2): Just Playing. Cambridge, MA: MIT Press.
Camerer, C. (2003). Behavioral Game Theory: Experiments in Strategic Interaction. Princeton: Princeton University Press.

Danielson, P. (ed.) (1998). Modelling Rationality, Morality and Evolution. Oxford: Oxford University Press.
Fudenberg, D., and Levine, D. (1998). The Theory of Learning in Games. Cambridge, MA: MIT Press.
Fudenberg, D., and Tirole, J. (1991). Game Theory. Cambridge, MA: MIT Press.
Gintis, H. (2004). Towards the Unity of the Human Behavioral Sciences. In Philosophy, Politics and Economics 31:37-57.
Guala, F. (2005). The Methodology of Experimental Economics. Cambridge: Cambridge University Press.
Hofbauer, J., and Sigmund, K. (1998). Evolutionary Games and Population Dynamics. Cambridge: Cambridge University Press.
Krebs, J., and Davies, N.(1984). Behavioral Ecology: An Evolutionary Approach. Second edition. Sunderland: Sinauer.
Kreps, D. (1990). A Course in Microeconomic Theory. Princeton: Princeton University Press.
Maynard Smith, J. (1982). Evolution and the Theory of Games. Cambridge: Cambridge University Press.
McMillan, J. (1991). Games, Strategies and Managers. Oxford: Oxford University Press.
Nash, J. (1950a). Equilibrium Points in n-Person Games. In PNAS 36:48-49.
Nash, J. (1950b). The Bargaining Problem. In Econometrica 18:155-162.
Nash, J. (1951). Non-cooperative Games. In Annals of Mathematics Journal 54:286-295.
Ormerod, P. (1994). The Death of Economics. New York: Wiley.
Rawls, J. (1971). A Theory of Justice. Cambridge, MA: Harvard University Press.
Robbins, L. (1931). An Essay on the Nature and Significance of Economic Science. London: Macmillan.
Ross, D. 2005. Evolutionary Game Theory and the Normative Theory of Institutional Design: Binmore and Behavioral Economics.In Politics, Philosophy and Economics, forthcoming.
Ross, D., and LaCasse, C. (1995). Towards a New Philosophy of Positive Economics. In Dialogue 34: 467-493.
Samuelson, L. (1997). Evolutionary Games and Equilibrium Selection. Cambridge, MA: MIT Press.
Samuelson, L. (2005). Economic Theory and Experimental Economics. In Journal of Economic Literature 43:65-107.
Samuelson, P. (1938). A Note on the Pure Theory of Consumers’ Behaviour. In Econimica 5:61-71.
Selten, R. (1975). Re-examination of the Perfectness Concept for Equilibrium Points in Extensive Games. In International Journal of Game Theory 4:22-55.
Sigmund, K. (1993). Games of Life. Oxford: Oxford University Press.
Smith, V. (1982). Microeconomic Systems as an Experimental Science. In American Economic Review 72:923-955.
Sober, E., and Wilson, D.S. (1998). Unto Others. Cambridge, MA: Harvard University Press.
Tomasello, M., M. Carpenter, J. Call, T. Behne and H. Moll (2004). Understanding and Sharing Intentions: The Origins of Cultural Cognition. In Behavioral and Brain Sciences, forthcoming.
Vallentyne, P. (ed.). (1991). Contractarianism and Rational Choice. Cambridge: Cambridge University Press.
von Neumann, J., and Morgenstern, O., (1947). The Theory of Games and Economic Behavior. Princeton: Princeton University Press, 2nd edition.
Weibull, J. (1995). Evolutionary Game Theory. Cambridge, MA: MIT Press.
Yaari, M. (1987). The Dual Theory of Choice Under Risk. In Econometrica 55:95-115.
Young, H.P. (1998). Individual Strategy and Social Structure. Princeton: Princeton University Press.
————–&&————–

LÝ THUYẾT TRÒ CHƠI VÀ KINH TẾ HỌC (KỲ II)

LÝ THUYẾT TRÒ CHƠI VÀ KINH TẾ HỌC (KỲ II)

(Tác giả: Don Ross – Người dịch: Hà Hữu Nga – Nguồn: vanhoanghean.com.vn)

2.5. Các khái niệm giải pháp và những cân bằng
Trong nan đề người tù, các kết quả mà chúng ta thể hiện là (2,2) bằng cách chỉ ra sự đào ngũ chung thì được coi là giải pháp của trò chơi. Đi theo các thực tiễn chung trong kinh tế học, các lý thuyết gia trò chơi đã coi các giải pháp trò chơi là những cân bằng. Những người đọc có tư duy triết học sẽ muốn đưa ra một vấn đề khái niệm ngay trong trường hợp này: cái gì “được cân bằng” đối với một số kết quả trò chơi như cái mà chúng ta đang có động cơ để gọi chúng là “các giải pháp”?
Khi chúng ta nói rằng một hệ thống vật chất nằm trong sự cân bằng thì có nghĩa là chúng ta muốn nói rằng nó đang ở trong trạng thái bền vững, đó là một trạng thái mà toàn bộ các lực nhân quả bên trong hệ thống cân bằng với bên ngoài và vì vậy mà để nó ở trạng thái “nghỉ” cho đến khi và trừ khi nó bị xáo trộn bởi sự can thiệp của một lực lượng ngoại sinh nào đó. Đó chính là cái mà các nhà kinh tế quan niệm một cách truyền thống là “cân bằng”; họ đọc các hệ thống kinh tế như là các mạng lưới của những mối quan hệ nhân quả, giống hệt như các hệ thống vật chất và các cân bằng của những hệ thống như vậy chính là những trạng thái bền vững nội sinh. Như chúng ta sẽ thấy sau khi thảo luận về lý thuyết trò chơi tiến hóa trong phần sau thì chúng ta có thể bảo lưu một cách hiểu như vậy về sự cân bằng trong trường hợp lý thuyết trò chơi. Tuy nhiên như chúng ta đã lưu ý ở phần 2.1, một số người đã giải thích lý thuyết trò chơi là một lý thuyết diễn giải về sự suy lý chiến lược. Đối với họ, một giải pháp cho một trò chơi phải là một kết quả mà một tác nhân duy lý phải tiên đoán được bằng cách sử dụng duy nhất các cơ chế tính toán duy lý. Các lý thuyết gia như vậy phải đối mặt với một số mắc míu về những khái niệm giải pháp không phải là quá quan trọng đối với những người hành vi luận. Chúng ta sẽ xem xét những mắc míu như vậy và những giải pháp khả thể trong suốt cả phần còn lại của bài viết này.
Sẽ là hữu dụng để bắt đầu cuộc thảo luận từ trường hợp PD [Nan đề người tù], vì nó đơn giản đến mức bất ngờ nếu xem xét từ quan điểm của những rắc rối này. Cái mà chúng ta coi như là giải pháp của nó chính là cân bằng Nash của trò chơi. (Từ Nash ở đây chính là John Nash, nhà toán học được giải Nobel trong Nash 1950 đã mở rộng nhất và khái quát hóa công trình tiên phong của von Newmann và Morgenstern). Cân bằng Nash từ đây gọi là NE được áp dụng (hoặc thất bại trong khi áp dụng vào toàn bộ các tập chiến lược, mỗi tập cho một người chơi trong một trò chơi. Một tập chiến lược là một cân bằng Nash chỉ trong trường hợp không người chơi nào có thể cải thiện được khoản phải trả của họ, những chiến lược nhất định của tất cả những người chơi khác trong trò chơi bằng cách thay đổi chiến lược của người chơi. Hãy lưu ý xem tư trưởng này gắn liền với tư tưởng về sự thống trị nghiêm nhặt đến mức nào: không chiến lược nào có thể là chiến lược cân bằng Nash nếu nó bị thống trị một cách nghiêm nhặt. Vì vậy nếu việc loại bỏ lặp lại những những chiến lược thống trị nghiêm nhặt đưa chúng ta đến với một kết quả duy nhất thì chúng ta biết rằng chúng ta đã phát hiện ra cái cân bằng Nash duy nhất của trò chơi đó. Giờ đây hầu hết các lý thuyết gia đều đồng ý rằng việc tránh những chiến lược thống trị nghiêm nhặt là một yêu cầu tối thiểu của tính duy lý. Điều này ám chỉ rằng nếu một trò chơi có một kết quả là một cân bằng Nash duy nhất như trong trường hợp cùng nhận tội trong trò chơi PD, thì nó phải là một giải pháp duy nhất của nó. Đây là một trong những khía cạnh quan trọng nhất trong đó trò chơi PD là một trò chơi “dễ” (và phi điển hình).
Chúng ta có thể xác định một lớp các trò chơi trong đó cân bằng Nash luôn luôn không chỉ cần mà còn đủ như là một khái niệm giải pháp. Đây là những trò chơi thuộc loại thông tin hoàn hảo hữu hạn; đó cũng là loại tổng bằng không (zero-sum). Trò chơi zero-sum (trong trường hợp một trò chơi chỉ có hai người chơi) là một trò chơi mà trong đó một người chơi chỉ có thể cải thiện lối chơi bằng cách làm cho người chơi khác chơi tồi hơn. Tic-tac-toe là một ví dụ giảm đơn về một trò chơi như vậy: bất cứ vận động nào đưa tôi đến gần với chiến thắng thì cũng đưa bạn gần đến với chiến bại, và ngược lại). Chúng ta có thể xác định xem một trò chơi có phải là một trò zero-sum không bằng cách xác định các hàm tiện ích của người chơi: trong trò chơi zero-sum các hàm này sẽ là những hình ảnh gương của một hàm khác, những kết quả ở thứ hạng cao của một người chơi lại là thứ hạng thấp đối với người kia và ngược lại. Trong một trò chơi như vậy, nếu tôi đang chơi một chiến lược như một chiến lược nhất định của bạn, tôi không thể làm được bất cứ điều gì tốt hơn, và nếu bạn cũng đang chơi một chiến lược như vậy thì vì bất cứ sự thay đổi chiến lược nào của tôi cũng sẽ phải làm cho bạn chơi tồi đi và ngược lại, kết quả là cuộc chơi của tôi có thể không có được giải pháp tương hợp với tính duy lý chung trừ tính cân bằng Nash duy nhất của nó. Chúng ta có thể đưa ra một tình huống khác: trong một trò chơi zero-sum tôi chơi một chiến lược mà chiến lược đó tối đa hóa cái khoản phải trả tối thiểu của tôi nếu bạn chơi tốt hết sức và hành động của bạn đồng thời làm nên cùng một kết quả, thì nó thực sự tương đương với toàn bộ chiến lược chơi tốt nhất của chúng ta, vì vậy cặp thủ tục “tối đa hóa” này được đảm bảo để phát hiện ra giải pháp duy nhất đối với trò chơi, đó là tính cân bằng Nash duy nhất của nó. (Trong trò chơi Tic-tac-toe thì như vậy là hòa. Bạn không thể làm gì tốt hơn hòa, cả tôi cũng không thể làm gì hơn, nếu cả hai chúng ta đều cố gắng chiến thắng và cố gắng để không bị thua).
Tuy nhiên hầu hết các trò chơi đều không có thuộc tính này. Trong một bài viết như thế này chúng ta không thể kê ra tất cả những cách thức mà các trò chơi có thể có vấn đề từ quan điểm của những giải pháp khả thể. (Có một vấn đề rất khác, đó là các lý thuyết gia đã phát hiện được toàn bộ những vấn đề khả thể!). Tuy nhiên, chúng ta cố gắng khái quát hóa các vấn đề một chút.
Trước tiên có một vấn đề là trong hầu hết các trò chơi phi-zero-sum số cân bằng Nash lớn hơn một, nhưng không phải tất cả mọi cân bằng Nash đều có vẻ hợp lý như những giải pháp mà các tay chơi duy lý sẽ chạm phải về phương diện chiến lược. Hãy xem xét trò chơi dạng chiến lược dưới đây (lấy ra từ Kreps 1990, trang 403):
Hình 6
Trò chơi này có hai cân bằng Nash: s1-t1 và s2-t2. (Lưu ý rằng không phải các hàng và cột thống trị một cách nghiêm nhặt ở đây. Nhưng nếu người chơi I đang chơi s1 thì người chơi II có thể thực hiện không tốt hơn t1, và ngược lại; và tương tự như vậy đối với cặp s2-t2). Nếu cân bằng Nash là khái niệm giải pháp duy nhất của chúng ta thì chúng ta buộc phải nói rằng cả những kết quả này cũng có sức thuyết phục như một giải pháp vậy. Tuy nhiên nếu lý thuyết trò chơi được coi là một lý thuyết giải thích và/hoặc định chuẩn về sự suy lý chiến lược thì điều đó hình như là bỏ quên một cái gì đó: những người chơi duy lý chắc chắn có thông tin hoàn hảo sẽ hội tụ vào s1-t1? (Xin lưu ý rằng điều này khônggiống với tình huống trong trò chơi PD, trong đó tình huống cao hơn về phương diện xã hội là không thể đạt được vì đó không phải là một cân bằng Nash. Trong trường hợp trò chơi ở trên cả hai người chơi, mỗi người đều có một lý do để cố gắng hội tụ vào cân bằng Nash trong đó họ là những người chơi tốt hơn).
Điều này minh họa cho một sự thật là cân bằng Nash là một khái niệm giải pháp tương đối yếu (về mặt logic) thường không dự đoán trước được các giải pháp nhạy cảm về mặt trực giác vì nếu được áp dụng đơn độc thì nó sẽ không cho phép những người chơi sử dụng các nguyên tắc của lựa chọn cân bằng mà sự lựa chọn đó nếu không được yêu cầubằng tính duy lý thì ít nhất cũng không phải là phi lý. Hãy xem xét một ví dụ khác của Kreps (1990, trang 397):

Hình 7
Trong trường hợp này không có chiến lược nào thống trị nghiêm nhặt một chiến lược khác. Tuy nhiên, hàng trên cùng của người chơi I, s1, thống trị yếu s2, vì người chơi I ít nhất cũng sử dụng s1 làm s2 vì bất cứ một phản ứng nào bởi người chơi số II, và về một phản ứng của người chơi số II (t2), thì số I thực hiện tốt hơn. Vì vậy phải chăng cả những người chơi lẫn người phân tích đều không nên xóa đi hàng số s2 bị thống trị yếu? Khi họ làm như vậy thì cột t1 được thống trị nghiêm nhặt, và cân bằng Nash s1-t2 được chọn là giải pháp duy nhất.
Tuy nhiên như Kreps đã tiếp tục chỉ rõ việc sử dụng ví dụ này, thì cái ý tưởng là các chiến lược thống trị nên được loại bỏ hệt như là những chiến lược nghiêm nhặt có những kết quả bổ sung. Hãy giả định chúng ta thay đổi các khoản phải trả của trò chơi chỉ một chút thôi như sau:
Hình 8
s2 vẫn bị thống trị yếu như trước; nhưng thuộc về 2 cân bằng Nash của chúng ta, s2 – t1 giờ đây là hấp dẫn nhất đối với cả hai người chơi; vậy thì tại sao các nhà phân tích lại muốn loại bỏ khả năng của nó? (Lưu ý rằng trò chơi này không sao chép lại logic của trò PD. Tại đó nó tạo ra ý nghĩa để loại bỏ cái kết quả hấp dẫn nhất, việc cùng từ chối nhận tội, vì cả hai người chơi đều có động cơ để đơn phương đi chệch hướng khỏi nó, vì vậy đó không phải là một cân bằng Nash. Đó không thực sự thuộc về s2-t1 của trò chơi này. Bạn nên bắt đầu nhận ra một cách rõ ràng tại sao chúng tôi lại gọi trò chơi PD là “không điển hình”). Lý lẽ cho việc loại bỏ các chiến lược thống trị yếu là ở chỗ người chơi I có thể nóng vội khi sợ rằng người chơi II không hoàn toàn chắc chắn là duy lý (hoặc người chơi II sợ rằng người chơi I không hoàn toàn duy lý, và cứ như thế cho đến vô cùng) và vì vậy có thể chơi t2 bằng một xác suất dương. Nếu khả năng xuất phát điểm từ tính duy lý được thực hiện một cách nghiêm nhặt thì chúng ta có một lý lẽ về việc loại bỏ các chiến lược thống trị yếu: vì vậy người chơi I tự đảm bảo cho cái kết quả thấp nhất của mình, s2-t2. Tất nhiên người đó phải trả giá cho sự đảm bảo này, bằng cách giảm khoản nhận được mong muốn từ 10 xuống 5. Một mặt chúng ta có thể hình dung rằng những người chơi có thể giao tiếp với nhau trước khi chơi, và đồng ý chơi các chiến lược tương quan sao cho có thể điều phối được s2-t1 bằng cách loại bỏ một số, hầu hết hoặc toàn bộ tính chất không chắc chắn nào tạo điều kiện cho việc loại bỏ hàng thống trị yếu s1, và thay vào đó, loại bỏ s1-t2 với tư cách là một cân bằng Nash vững chắc!
Bất cứ nguyên tắc nào được đề xuất cho việc giải quyết các trò chơi mà có tác động loại bỏ một hoặc nhiều cân bằng Nash khỏi sự xem xét thì đều được coi là bộ lọc của cân bằng Nash. Trong trường hợp vừa mới thảo luận thì việc loại bỏ các chiến lược thống trị yếu chính là một bộ lọc khả hữu vì nó lọc đi cân bằng Nash s2-t1, và tương quan là một cân bằng khác, vì thay vào đó nó lọc cân bằng Nash khác s2-t1. Vậy thì bộ lọc nào thích hợp với tư cách là một khái niệm giải pháp? Những ai nghĩ về lý thuyết trò chơi như một lý thuyết định chuẩn và/hoặc giải thích có tính duy lý chiến lược thì đều tạo ra một văn liệu bản chất trong đó những ưu khuyết điểm của một số lượng lớn các bộ lọc đều cần phải bàn thêm. Về nguyên tắc dường như không có giới hạn đối với số bộ lọc là cái có thể được xem xét, vì có thể cũng không có giới hạn về tập trực giác triết học về những nguyên tắc nào mà một tác nhân duy lý có thể hoặc không thể nhận thấy là thích hợp để theo hoặc để e ngại, hoặc hy vọng rằng những người chơi khác đang theo.
Các nhà hành vi luận bảo lưu một quan điểm rất mơ hồ về hành động này. Họ coi công việc của lý thuyết trò chơi là để tiên đoán các kết quả đem đến một sự phân phối nào đó về những sắp xếp chiến lược và một sự phân phối nào đó về những mong muốn liên quan đến những sắp xếp chiến lược của những người khác, là những thứ được tạo nên bởi những quá trình thể chế và/hoặc sự lựa chọn tiến hóa (xem phần 7 để thảo luận thêm). Về quan điểm các cân bằng Nash có thể tồn tại vững chắc trong một trò chơi có thể được xác định bằng những động thái cơ sở là thứ trang bị cho những người chơi với những sắp xếp tiên thiên đối với một trò chơi. Các bản chất chiến lược của người chơi vì vậy được đối xử như một tập đầu vào ngoại sinh cho trò chơi, hệt như những hàm tiện ích vậy. Vì vậy các nhà hành vi luận nghiêng về phía tìm kiếm những bộ lọc chung của bản thân khái niệm cân bằng chí ít cũng đến mức mà những bộ lọc này tham gia vào việc xây dựng mô hình của những thể hiện duy lý tính tinh vi hơn đối với việc kiên định tối đa hóa tiện ích. Các nhà hành vi luận thường nghiêng về phía nghi ngờ rằng mục đích của việc tìm kiếm một lý thuyết tổng quát của tính duy lý tạo nên ý nghĩa như một dự án. Các thể chế và các quá trình tiến hóa xây dựng nhiều môi trường và cái được coi là một thủ tục duy lý trong một môi trường có thể lại không được ưa thích trong một môi trường khác. Tính duy lý kinh tế chỉ đòi hỏi rằng các tác nhân có những sở thích ổn định, tức là những sở thích không ưu tiên a hơn bb hơn cc hơn a. Một trong những sự sắp xếp chiến lược lớn tương hợp với yêu cầu tối thiểu này và các quá trình tiến hóa hoặc thể chế có thể tạo ra những trò chơi trong bất cứ quá trình nào của chúng. Về phương diện này thì các cân bằng Nash là một khái niệm cân bằng vững chắc vì nếu những người chơi phát triển những chiến lược trong các môi trường cạnh tranh, là những môi trường mà những ai không thực hiện những chiến lược tối ưu nhất định của những người khác trong môi trường riêng biệt đó sẽ bị bật khỏi quá trình cạnh tranh và sự lựa chọn như vậy cũng sẽ loại bỏ chúng hoặc cổ vũ việc tìm hiểu những sắp xếp mới. Không có nhiều khái niệm duy lý “được lọc” có thể quan niệm là thật nói chung; và vậy là theo các nhà hành vi luận những bộ lọc Nash dựa trên các bộ lọc của tính duy lý cũng có vẻ như thuộc về mối quan tâm tình cờ.
Điều này không có nghĩa là các nhà hành vi luận tuyên bố từ bỏ mọi cách giới hạn các tập cân bằng Nash vào các tập con hợp lý. Đặc biệt họ định thông cảm với những cách tiếp cận thay đổi trung tâm điểm từ bản thân tính duy lý sang những mối quan tâm về các động thái thông tin của các trò chơi. Có lẽ chúng ta không có gì phải ngạc nhiên là phân tích cân bằng Nash tự thân nó thường thất bại không thể nói được gì nhiều cho chúng ta về mối quan tâm đến các trò chơi dạng chiến lược (chẳng hạn Hình. 6 ở trên), trong đó cấu trúc thông tin bị chặn. Những vấn đề lựa chọn cân bằng thường được thể hiện một cách hiệu quả trong bối cảnh các trò chơi dạng mở rộng.
 
2.6. Tính duy lý đơn nguyên và Sự hoàn hảo của trò chơi phụ
Để làm sâu sắc hơn nữa hiểu biết của chúng ta về các trò chơi dạng mở rộng, chúng ta cần một ví dụ với một cấu trúc thú vị hơn là cái mà trò chơi PD đưa ra.
Hãy xem xét trò chơi được mô tả theo hình cây dưới đây:

Hình 9
 
Trò chơi này không nhằm làm tương hợp với một tình huống bất kỳ tiền nhận thức nào đó; nó đơn giản là một đối tượng toán tìm cách để ứng dụng. (L và R ở đây chỉ xác định “trái” và “phải” tương ứng).
Bây giờ chúng ta hãy xem xét dạng chiến lược của trò chơi này:
Hình 10
(Nếu bạn bị bối rối với ma trận này thì chỉ cần nhớ rằng một chiến lược cần phải nói cho người chơi phải làm gì ở mỗi tập thông tin mà trong đó người chơi thực hiện một hành động. Vì mỗi người chơi lựa chọn giữa hai hành động ở hai tập thông tin một, nên tổng cộng mỗi người chơi có 4 chiến lược. Chữ cái thứ nhất trong mỗi thiết kế chiến lược nói với mỗi người chơi cái mà họ phải làm nếu họ có được tập thông tin đầu tiên của mình, thứ hai là cái mà họ phải làm khi họ có được tập thông tin thứ hai. I.e., LR đối với người chơi II nói với II phải chơi L nếu có được tập thông tin 5, và chơi R nếu có được tập thông tin 6). Nếu bạn xem xét kỹ ma trận này bạn sẽ phát hiện ra rằng (LL, RL) là nằm trong số các cân bằng Nash. Trong trường hợp này có một chút rắc rối, bởi vì nếu người chơi I có được tập thông tin (7) trong trò chơi dạng mở rộng thì tôi sẽ khó lòng mà mong muốn chơi L ở đó; người đó thu được một khoản được trả cao hơn bằng cách chơi ở nút 7. Phép phân tích cân bằng Nash duy nhất không lưu ý đến điều này vì cân bằng Nash khuyến khích cái xảy ra bên ngoài đường dẫn của trò chơi. Người chơi I khi chọn L ở nút 4 đảm bảo rằng sẽ tới được nút 7; điều đó có nghĩa là đó là “bên ngoài quĩ đạo chơi”. Tuy nhiên khi phân tích các trò chơi dạng mở rộng chúng ta xem cái gì sẽ xảy ra bên ngoài đường dẫn của trò chơi, vì công việc xem xét này là có tính quyết định đối với cái xảy ra trong đường dẫn của trò chơi. Chẳng hạn sự thật là người chơi I sẽ chơi R nếu tới được nút 7, làm cho người chơi II chơi L nếu đến được nút 6, và đó chính là lý do tại sao người chơi I sẽ không chọn R ở nút 4. Chúng ta đang vứt bỏ lượng thông tin liên quan đến các giải pháp trò chơi nếu chúng ta bỏ qua những sản phẩm bên ngoài đường dẫn khi phân tích cân bằng Nash thuần túy đã làm. Cần lưu ý rằng lý do để nghi ngờ rằng cân bằng Nash không phải là một khái niệm cân bằng tổng thể hoàn toàn thỏa đáng, tự thân đã không liên quan gì đến các trực giác về lý tính như trong trường hợp các khái niệm bộ lọc đã được thảo luận ở phần 2.5.
Giờ đây hãy áp dụng thuật toán Zermelo vào loại hình tăng cường của ví dụ hiện thời của chúng ta. Chúng ta lại bắt đầu với trò chơi phụ cuối cùng, trò chơi đi xuống từ nút 7. Đây là vận động của người chơi I, và người đó chọn R vì thích khoản được trả của mình là 5 so với được trả 4 mà cô/anh ta nhận được bằng cách chơi L. Vì vậy chúng ta chỉ định khoản được trả (5, -1) cho nút 7. Vậy là ở nút 6 người chơi II đối mặt với lựa chọn giữa (-1, 0) và (5, -1). Người đó chọn L. Tại nút 5, người chơi II chọn R. Vậy thì tại nút 4 người chơi I chọn lựa chọn giữa (0, 5) và (-1, 0), và vì vậy mà chơi L. Nên nhớ rằng vì trong trò chơi PD, một kết quả xuất hiện ở một nút đầu cuối – (4, 5) từ nút 7 – đó là cân bằng Pareto cao hơn các cân bằng Nash. Hơn nữa, tuy nhiên, các động thái của trò chơi ngăn cản nó không tới được.
Sự thật là thuật toán Zermelo đã chọn lựa vector chiến lược (LR, RL) như là giải pháp duy nhất cho trò chơi đã cho thấy rằng nó đạt được một cái gì đó khác nữa chứ không phải chỉ là một cân bằng Nash. Trong thực tế thì nó đang tạo ra sự cân bằng hoàn hảo của trò chơi phụ (SPE – supgame perfect equilibrium). Nó đưa đến một kết quả đạt được cân bằng Nash không chỉ trong toàn bộ trò chơi mà còn cả trong mỗi trò chơi phụ nữa. Đây là một khái niệm giải pháp có sức thuyết phục vì không giống với những bộ lọc của phần 2.5, nó không đòi hỏi “nhiều” tính duy lý của các tác nhân, mà đòi hỏi ít hơn. (Tuy nhiên người ta cho rằng những người chơi không chỉ biết mọi thứ về phương diện chiến lược liên quan đến tình trạng của họ, mà còn sử dụng tất cả các thông tin đó; chúng ta phải cẩn thận để không lẫn lộn tính duy lý với khả năng tính toán). Các tác nhân ở mỗi nút chỉ đơn giản lựa chọn đường dẫn nào đem đến cho họ khoản được trả cao nhất trong trò chơi phụ bắt nguồn từ nút đó; và sau đó khi giải quyết cuộc chơi, họ thấy trước rằng họ sẽ thực hiện tất cả những cái đó. Các tác nhân vượt lên theo cách này được gọi là đơn nguyên duy lý, có nghĩa là duy lý ngắn hạn ở mỗi bước. Họ không tự tưởng tượng, bằng một trí tưởng tượng nào đó các quá trình siêu duy lý tính khi tác động trở lại đối với những sở thích cục bộ vì mục đích của một mục tiêu rộng lớn hơn nào đó. Nên nhớ rằng như trong trò chơi PD, điều này có thể dẫn đến các kết quả đáng tiếc về phương diện xã hội. Trong ví dụ hiện thời của chúng ta, người chơi I là tốt hơn, người chơi II không tồi hơn, ở nút bên tay trái xuất phát từ nút 7 so với kết quả ở SPE (cân bằng hoàn hảo của trò chơi phụ). Nhưng tính duy lý rất đơn nguyên của người chơi I và nhận thức của người chơi II về vấn đề đó đã đóng kín kết quả hữu hiệu về phương diện xã hội. Nếu những người chơi của chúng ta muốn làm xuất hiện kết quả có tính cân bằng hơn (4,5) thì họ phải làm như vậy bằng cách tái thiết kế các thể chế của mình sao cho có thể thay đổi được cấu trúc của các trò chơi mà họ thực hiện. Chỉ mong rằng họ có thể là siêu duy lý theo cái cách thức dường như không gắn kết chặt chẽ như một cách tiếp cận.
 
2.7. Tính chất đạo đức và Hiệu quả trong các Trò chơi
Nhiều người đọc có thể cho rằng kết luận của phần trước đã được thực hiện dựa trên cơ sở không phòng thủ đầy đủ. Chắc chắn là những người chơi có thể chỉ thấy rằng kết quả (4,5) là cao hơn về phương diện xã hội và đạo đức; và vì vậy chúng ta biết họ có thể cũng thấy đường dẫn của các hành động dẫn đến nó, vậy ai là lý thuyết gia trò chơi để tuyên bố về điều đó trong cái trò chơi mà họ đang chơi, nó phải chăng là không đạt được? Thực tế thì việc gợi ý rằng tính siêu duy lý là một ý chí của người chơi là có tính định hướng về phương diện triết học mặc dù nó thực sự là cái mà các nhà hành vi luận về lý thuyết trò chơi tin tưởng. Người đọc nào tìm kiếm một sự biện minh triệt để cho niềm tin này thì đều được qui vào Binmore (1994,1998). Tuy nhiên trước khi chúng ta rời khỏi những vấn đề ở một điểm có tác dụng làm cân bằng (tại đây), chúng ta cần phải cẩn thận để không lẫn lộn cái vấn đề đang còn tranh cãi với những kết quả của một nhầm lẫn kỹ thuật đơn giản. Chúng ta hãy cùng xem lại nan đề người tù. Chúng ta đã thấy rằng trong cân bằng Nash duy nhất về trò chơi PD, cả hai tay chơi đều nhận được ít tiện ích hơn họ có thể nhận được thông qua sự hợp tác chung với nhau. Điều này có thể tác động mạnh đến bạn (hệt như nó đã tác động đến nhiều nhà bình luận) như là một sự éo le. Chắc chắn bạn có thể nghĩ rằng nó đơn giản nảy sinh từ một sự kết hợp của tính ích kỷ và bệnh hoang tưởng về phía những tay chơi. Ngay từ đầu họ đã không quan tâm đến thiện chí về phương diện xã hội và sau đó họ đã tự bắn vào chân mình bằng cách không đáng để tôn trọng các thỏa thuận.
Cách tư duy như vậy đã dẫn đến những hiểu lầm tai hại về lý thuyết trò chơi, và vì vậy những cách hiểu đó phải được loại bỏ. Trước hết chúng tôi xin phép giới thiệu một vài thuật ngữ để nói về các kết quả. Các nhà kinh tế học phúc lợi đo lường một cách điển hình hàng hóa xã hội bằng khuôn khổ hiệu xuất Pareto. Một phân phối tiện ích o thì được gọi làưu thế Pareto đối với phân phối d chỉ trong trường hợp từ trạng thái d có một tái phân phối tiện ích cho o chẳng hạn như tối thiểu là một tay chơi chơi kém. Thất bại trong việc chuyển thành một tái phân phối ưu thế Pareto là thiếu hiệu quả vì sự tồn tại của o như một khả năng logic chỉ rõ rằng trong d một tiện ích nào đó đang bị bỏ phí. Vậy là kết quả (3,3) thể hiện sự cộng tác chung trong mô hình của chúng ta về trò chơi PD rõ ràng là ưu thế Pareto đối với sự phản bội chung; ở (3,3) cả hai tay chơi đều thành công hơn ở (2,2). Vì vậy sẽ là chân khi trò chơi PDs dẫn đến các kết quả thiếu hiệu quả. Đó cũng là chân đối với ví dụ của chúng ta trong phần 2.6.
Tuy nhiên, tính thiếu hiệu quả không nên đi kèm với tính chất phi đạo đức. Một hàm tiện ích đối với một tay chơi được giả định thể hiện bất cứ cái gì mà tay chơi quan tâm đến, đó có thể là bất cứ thứ gì. Như chúng tôi đã mô tả tình huống hai người tù của chúng ta, họ thực sự chỉ quan tâm đến bản án tù riêng đối với họ, nhưng lại không có cái gì là cốt yếu trong vấn đề này. Cái làm cho một cuộc chơi trở thành một ví dụ về trò chơi PD thì duy nhất chỉ là cấu trúc khoản phải trả của nó. Vì vậy chúng ta có thể có hai kiểu loại Mẹ Theresa ở đây, mà cả hai đều ít quan tâm đến bản thân mình mà chỉ mong được chăm sóc lũ trẻ đói khổ. Nhưng hãy hình dung là Mẹ Theresa thật mong muốn được chăm bọn trẻ ở Calcutta trong khi Mẹ Juanita lại muốn chăm sóc bọn trẻ ở Bogota. Và hãy hình dung là cơ quan trợ giúp quốc tế sẽ tối đa hóa khoản quyên góp của mình nếu hai vị thánh nữ đó nhắm đến cùng một thành phố; sẽ cho một khoản quyên góp cao thứ nhì nếu mỗi người nhắm đến thành phố của người kia; và khoản quyên góp thấp nhất nếu mỗi người đều nhắm đến thành phố riêng của mình. Trong trường hợp này các thánh nữ của chúng ta đang tham gia một trò chơi PD, mặc dù quá vị kỷ hoặc không bận tâm đến vấn đề xã hội.
Quay trở lại với người tù của chúng ta, hãy giả định rằng ngược lại với những định đề của chúng ta họ tạo ra giá trị cho tình trạng hạnh phúc của mỗi người cũng như cho riêng bản thân họ. Trong trường hợp này, điều đó phải được phản ánh trong các hàm tiện ích của họ, và vì vậy mà cả trong khoản nhận được của họ nữa. Nếu cấu trúc khoản nhận được của họ thay đổi thì họ sẽ không còn tham gia trò chơi nữa. Nhưng tất cả những cái đó đều chỉ ra rằng không phải mỗi tình huống khả thể đều là một trò chơi PD; nó không chỉ rõ rằng mối đe dọa của các kết quả thiếu hiệu quả là một sản phẩm đặc biệt của tính vị kỷ. Nó là logic của tình huống người tù chứ không phải là tâm lý của họ, nó đánh bẫy họ trong cái kết quả không hiệu quả, và nếu nó thực sự là tình huống của họ thì họ đang bị mắc kẹt trong đó (trừ những phức tạp hơn sẽ được thảo luận ở dưới đây). Các tác nhân muốn tránh những kết quả không hiệu quả nên ngăn chặn sự xuất hiện của bất cứ trò chơi nào; người phòng vệ của khả năng siêu duy lý thực sự giả định rằng họ cố gắng tự thân phát hiện những trò chơi như vậy bằng cách tự họ biến thành những loại tác nhân khác.
Vậy là nhìn chung một trò chơi được định nghiã một cách cục bộ bằng khoản phải trả được ấn định cho những tay chơi. Nếu một giải pháp được đề xuất liên quan đến sự thay đổi ngầm những khoản phải trả ấy thì “giải pháp” này thực sự là một cách trá hình để thay đổi chủ thể.
 
2.8. Những bàn tay run
 
Vấn đề vừa rồi của chúng ta ở trên mở ra cách thức cho một vấn đề rắc rối triết học vẫn cuốn hút sự chú ý đối với các nền tảng logic về lý thuyết trò chơi. Nó có thể được nêu ra liên quan đến bất cứ số lượng ví dụ nào, nhưng chúng ta sẽ mượn một người tao nhã từ C. Bicchieri (1993) đã đưa ra một cách xử lý tăng cường vấn đề được phát hiện trong các văn liệu. Hãy xem xét trò chơi sau:

Hình 11
Kết quả cân bằng Nash ở đây thuộc nút đơn xa nhất bên trái từ nút 8 nghiêng xuống. Hãy xem nút này, lại một qui nạp ngược. Tại nút 10, tay chơi I sẽ đánh L để nhận khoản được trả là 3, cho tay chơi II khoản được trả là 1. Tay chơi II có thể làm tốt hơn bằng cách chơi L ở nút 9, cho tay chơi I khoản nhận được là 0. Có một vấn đề khó xử được Bicchieri nêu lên [cùng các tác giả khác, bao gồm Binmore [1987] và Pettit & Sugden [1989] bằng cách suy luận sau. Tay chơi I có thể làm tốt hơn bằng cách chơi L ở nút 8; vậy thì đó chính là điều mà tay chơi I làm và trò chơi kết thúc mà không có tay chơi II tham gia chơi tiếp. Nhưng lúc này hãy lưu ý đến sự suy lý cần thiết để hỗ trợ cho sự tiên đoán này. Tay chơi I chơi L ở nút 8 vì cô/anh ta biết rằng tay chơi II là người duy lý, và vì vậy sẽ chơi L ở nút 9 vì tay chơi II biết rằng tay chơi I là người duy lý và vì vậy sẽ chơi L ở nút 10. Nhưng chúng ta lại thấy xuất hiện một nghịch lý tiếp theo tay chơi I phải cho rằng tay chơi II ở nút 9 sẽ tiên đoán là việc chơi duy lý của I sẽ ở nút 10 mặc dù đã đến một nút (9) là nút chỉ có thể đến được nếu tay chơi I không duy lý! Nếu tay chơi I không duy lý thì tay chơi II sẽ không được thanh minh bằng cách tiên đoán rằng tay chơi I sẽ không chơi R ở nút 10, trong trường hợp này thì không rõ là tay chơi II sẽ không chơi R ở nút 9; và nếu tay chơi II chơi R ở nút 9 thì tay chơi I sẽ có một khoản nhận được tốt hơn sau đó cô/anh ta nhận được nếu cô/anh ta chơi L ở nút 8. Cả hai tay chơi phải sử dụng lối qui nạp ngược đòi hỏi rằng tay chơi I biết rằng tay chơi II biết tay chơi I là duy lý; nhưng tay chơi II chỉ có thể giải quyết được cuộc chơi bằng cách sử dụng cái lý lẽ qui nạp ngược là cái lấy tính phi lý của tay chơi I làm một tiên đề. Đó chính là nghịch lý của cách qui nạp ngược.
Có một cách chuẩn mực nhất để hiểu được nghịch lý này là viện đến cái gọi là “bàn tay run” theo Selten [1975]. Tư tưởng này cho rằng một quyết định và hành động hợp lý có thể “tách ra” khỏi xác suất phi-zero tuy nhỏ. Thế có nghĩa là một tay chơi có thể muốn thực hiện một hành động nhưng vì mắc lỗi trong khi thực hiện và thay vào đó đã đưa trò chơi xuống theo một đường dẫn nào đó khác. Nếu thậm chí chỉ có một chút khả năng một tay chơi có thể mắc lỗi – đó là “bàn tay” cô/anh ta “có thể run” thì không có mâu thuẫn nào được đưa vào bởi một tay chơi sử dụng một lý lẽ qui nạp ngược yêu cầu một giả định đề rằng một tay chơi khác đã chiếm đường dẫn mà một tay chơi duy lý có thể không lựa chọn. Trong ví dụ của chúng ta tay chơi II có thể suy lý về cái cần làm ở nút 9 phụ thuộc vào định đề cho rằng tay chơi I chọn L ở nút 8, nhưng sau đó đã bị thất bại.
Có một văn liệu kỹ thuật cơ bản về cái nghịch lý qui nạp ngược đó mà nguồn tổng hợp có thể tìm được ở Bicchieri (1993). (Cần lưu ý là Bicchieri không tán thành viện lẽ vào những bàn tay run như một giải pháp thích hợp. Tuy nhiên việc thảo luận về đề xuất riêng của bà ở đây có lẽ đã làm cho chúng ta đi quá xa vào những tính chất kỹ thuật. Người đọc nào chú ý nên nghiên cứu cuốn sách của bà). Thách đố được giới thiệu ở đây chỉ để xác định rằng những bộ lọc thuộc loại đã được thảo luận trong phần 2.6 có thể được cổ vũ nhiều hơn là những trực giác thuần túy về khái niệm tính duy lý. Vì nếu những bàn tay có thể run thì những người chơi thuần túy duy lý sẽ có động cơ để lo lắng về những xác xuất mà với nó những xuất phát điểm hiển nhiên từ trò chơi duy lý sẽ được nhận thấy. Chẳng hạn nếu bàn tay đối thủ của tôi có thể run, thì bàn tay ấy sẽ cho tôi lý do chính đáng để tránh cái chiến lược thống trị yếu s2 trong ví dụ thứ ba của phần 2.5. Hơn nữa đối thủ của tôi có thể cam kết chơi t1 trong trò chơi đó và tôi có thể tin vào lời hứa của anh ta. Nhưng nếu bàn tay của anh ta sau đó cũng run và kết quả là anh ta sẽ chơi t2, thì tôi phải nhận một khoản nhận được tồi nhất. Nếu tôi đảo ngược rủi ro thì trong tình huống như vậy dường như tôi có thể gắn với những chiến lược thống trị yếu.
Nghịch lý qui nạp ngược, giống như những câu đố đưa ra bởi bộ lọc cân bằng chủ yếu là một vấn đề cho những ai coi lý thuyết trò chơi như một đóng góp cho một lý thuyết định chuẩn của tính duy lý (đặc biệt là đóng góp cho lý thuyết lớn, lý thuyết duy lý chiến lược). Nhà hành vi luận có thể đưa ra một loại lý giải khác về lối chơi rõ ràng là phi lý và sự thận trọng mà nó cổ vũ. Điều này liên quan đến việc viện vào một sự kiện kinh nghiệm chủ nghĩa là các tác nhân thực sự gồm cả những con người phải học những chiến lược cân bằng của các trò chơi mà họ tham gia, chí ít là bất cứ khi nào những trò chơi đó rơi vào hoàn cảnh hoàn toàn phức tạp. Công việc nghiên cứu đã chỉ ra rằng ngay cả một trò chơi đơn giản như trò Nan đề Người tù cũng đòi hỏi người ta phải học [Ledyard 1995, Sally 1995, Camerer 2003, tr.265]. Ý nghĩa của việc nói rằng con người cần phải học những chiến lược cân bằng là ở chỗ chúng ta phải có đôi chút phức tạp hơn là cái đã được chỉ ra ở phần trước trong việc tạo ra các hàm tiện ích từ hành vi trong việc áp dụng Lý thuyết Bộc lộ Sở thích (Revealed Preference Theory). Thay cho việc cấu tạo các hàm tiện ích dựa trên cơ sở những tình tiết đơn, chúng ta phải làm như vậy trên cơ sở của những hành vi quan sát được khi nó đã ổn định, bằng cách biểu thị độ chín của việc học đối với các chủ thể được đặt vấn đề và cái trò chơi được đặt vấn đề. Một lần nữa cần phải nói rằng Nan đề Người tù cho ta một ví dụ rất tốt. Mọi người đều phải đối mặt với một số Nan đề Người tù chí ít là một lần trong cuộc sống hàng ngày, nhưng họ phải đối mặt với nhiều trò chơi PD lặp đi lặp lại với những người không xa lạ. Kết quả là khi bắt đầu cái định làm như một trò chơi PD một lần duy nhất trong đời trong phòng thực nghiệm ngay từ đầu người ta đã có ý định chơi cứ như là trò chơi ấy là một vòng đơn của một trò chơi PD lặp đi lặp lại. Trò PD lặp đi lặp lại đó có nhiều cân bằng Nash là cái liên quan đến sự hợp tác hơn là đảo ngũ. Vì vậy các chủ thể kinh nghiệm có ý định hợp tác đầu tiên trong các hoàn cảnh này, nhưng lại học sau khi một số vòng chơi bị thất bại. Người thực nghiệm có thể suy luận rằng cô ta đã qui nạp một cách thành công một cuộc chơi PD một lần duy nhất với cơ cấu thực nghiệm cho đến khi cô ta thấy hành vi này đã ổn định. (Như đã lưu ý ở phần 2.7 ở trên, nếu nó không ổn định như vậy thì cô ta phải suy luận rằng cô ta đã thất bại trong việc qui nạp trò chơi PD một lần duy nhất và các chủ thể của cô ta đang chơi một trò chơi nào đó khác).
Nghịch lý qui nạp ngược giờ đây đã bị hủy bỏ. Trừ khi các tay chơi đã trải nghiệm lối chơi cân bằng với một tay chơi khác trong quá khứ, ngay cả khi tất cả họ đều duy lý và tất cả đều tin tưởng nhau thì chúng ta sẽ tiên đoán rằng họ sẽ gắn một xác suất dương nào đó vào việc phỏng đoán rằng các bên tương tác đã không tìm hiểu để biết được toàn bộ các cân bằng. Vậy là điều này lý giải tạo sao các tác nhân duy lý trừ khi họ thích mạo hiểm, lại có thể chơi cứ như là họ tin vào những bàn tay run vậy.
Việc tìm hiểu các cân bằng bởi các tác nhân duy lý có thể có nhiều dạng khác nhau đối với những tác nhân khác nhau và đối với những trò chơi ở những cấp độ phức tạp và rủi ro khác nhau. Vì vậy việc tích hợp nó vào các mô hình lý thuyết trò chơi của các tương tác sẽ giới thiệu một tập kỹ thuật tính mở rộng mới. Vì lý thuyết tổng quát này đã được phát triển đầy đủ nhất nên người đọc có thể tham khảo [Fudenberg and Levine 1998].
 
3. Tính không chắc chắn, Rủi ro và những Cân bằng rãy
Các trò chơi mà chúng ta xây dựng mô hình cho vấn đề này toàn bộ đều liên quan đến các tay chơi bằng cách chọn lựa một trong số các chiến lược thuần túy, trong đó mỗi người đều tìm kiếm một quá trình hành động tối ưu riêng ở mỗi nút tạo nên một phản ứng tốt nhất đối với những hành động của những tay chơi khác. Tuy nhiên thường xuyên một tiện ích của một tay chơi được tối ưu hóa thông qua việc sử dụng một chiến lược hỗn hợp, trong đó cô ta gieo một đồng xu trong số một vài hành động khả thể khác. (Sau đây chúng ta sẽ thấy có một sự lý giải thay thế đặc biệt hỗn hợp không liên quan đến sự ngẫu nhiên hóa ở một tập thông tin đặc biệt; nhưng chúng ta sẽ bắt đầu ở đây từ việc lý giải hành động gieo đồng tiền và sau đó sẽ dựa vào nó ở phần 3.1). Hòa trộn là cần thiết bất cứ khi nào không có một chiến lược thuần túy tối đa hóa tiện ích của người chơi dựa vào toàn bộ các chiến lược của đối phương. Trò chơi qua sông từ phần 1 của chúng ta đã minh họa cho vấn đề này. Như chúng ta đã thấy, thách thức trong trò chơi này bao gồm sự thật là nếu sự suy lý của người chạy trốn lựa chọn một chiếc cầu đặc biệt với tư cách là một lựa chọn tối ưu, thì người săn đuổi anh ta phải được giả định là có thể để nhân lên cái suy lý đó. Vậy là người chạy trốn có thể thoát được chỉ khi người theo đuổi anh ta không thể tiên đoán một cách chắc chắn rằng anh ta sẽ sử dụng chiếc cầu nào. Tính chất đối xứng của năng lực suy lý về phần hai tay chơi đảm bảo rằng người chạy trốn có thể làm cho người săn đuổi bất ngờ chỉ khi nào anh ta làm cho chính mình bất ngờ.
Hãy giả sử rằng chúng ta lờ đi những tảng đá và lũ rắn trong một chốc lát và tưởng tượng rằng những chiếc cầu kia là hoàn toàn an toàn. Cũng có thể giả định rằng người chạy trốn không có hiểu biết đặc biệt nào về người săn đuổi anh ta làm cho anh ta liều lĩnh thử thách một sự phân phối xác suất phỏng đoán đặc biệt đối với các chiến lược có sẵn của người săn đuổi.
Trong trường hợp này, cách cư xử tốt nhất của người chạy trốn là gieo con súc sắc ba mặt trong đó mỗi mặt đều thể hiện một chiếc cầu khác nhau (hoặc truyền thống hơn, một con súc sắc 6 mặt trong đó mỗi chiếc cầu thể hiện bởi hai mặt). Sau đó anh ta phải tự cam kết trước việc sử dụng bất cứ chiếc cầu nào được lựa chọn bằng lựa chọn ngẫu nhiênnày. Công việc này ấn định tần số xuất hiện khả năng sống của anh ta bất chấp người săn đuổi anh ta làm gì; nhưng vì người săn đuổi không có bất cứ lý do gì để ưa thích bất cứ chiến lược hỗn hợp hay đơn lẻ nào có sẵn, và vì trong bất cứ trường hợp nào thì chúng ta cũng đang đoán chừng cái tình huống hiểu biết của cô ta là cân bằng với cái tình huống của người chạy trốn, thì chúng ta có thể giả định rằng cô ta sẽ gieo con súc sắc ba mặt của riêng mình. Giờ đây người chạy trốn có một xác suất trốn thoát là 2/3 và xác xuất của người săn đuổi là 1/3 khả năng bắt được anh ta. Người chạy trốn không thể cải thiện được tình hình dựa vào tỷ lệ xuất hiện khả năng sống còn nếu người săn đuổi là người duy lý, vì vậy cả hai chiến lược ngẫu nhiên đều có trong cân bằng Nash.
Bây giờ thì chúng tôi xin giới thiệu lại những yếu tố tham số, có nghĩa là những tảng đá rơi ở cây cầu #2 và những con rắn hổ mang ở cây cầu #3. Hơn nữa hãy giả định rằng người chạy trốn chắc chắn được an toàn qua chiếc cầu #1, có một tỷ lệ là 90% qua chiếc cầu số #2, và 80% qua cầu số #3. Chúng ta có thể giải quyết trò chơi mới này nếu chúng ta có những định đề chắc chắn về các hàm tiện ích của hai tay chơi. Hãy giả định rằng tay chơi I, người chạy trốn chỉ quan tâm đến sống hoặc chết (thích sống hơn chết) trong khi người săn đuổi chỉ đơn giản muốn báo cáo rằng người chạy trốn đã chết vì cô ta thích báo cáo như vậy hơn là báo cáo anh ta đã chạy thoát. (Nói cách khác, cô ta không quan tâm đến việc người chạy trốn sống hay chết như thế nào). Trong trường hợp này người chạy trốn chỉ đơn giản lựa chọn các công thức ngẫu nhiên hóa và so sánh nó theo những cấp độ khác nhau của sự nguy hiểm mang tính tham số ở ba chiếc cầu. Cần phải nghĩ rằng mỗi chiếc cầu là một điều may rủi đối với các kết quả khả thể của người chạy trốn, trong đó mỗi may rủi có một khoản phải trả mong muốn trong khuôn khổ của những hạng mục trong hàm tiện ích của ông ta.
Hãy xem xét vấn đề từ quan điểm của người săn đuổi. Cô ta sẽ sử dụng chiến lược cân bằng Nash của mình khi cô ta lựa chọn sự hỗn hợp của các xác suất đối với ba chiếc cầu, và nó làm cho người chạy trốn trở nên trung lập giữa các chiến lược khả thể thuần túy của anh ta. Chiếc cầu có những tảng đá thì 1.1 lần nguy hiểm đối với anh ta hơn là chiếc cầu an toàn. Vì vậy anh ta sẽ trung lập giữa hai chiếc cầu trong khi người săn đuổi thì 1.1 lần thích đợi tại chiếc cầu an toàn hơn là chiếc cầu có đá rơi. Cầu có rắn thì 1.2 lần nguy hiểm đối với người chạy trốn hơn là chiếc cầu an toàn. Vì vậy anh ta sẽ trung lập trong việc lựa chọn giữa hai chiếc cầu này khi xác suất đợi của người săn đuổi ở chiếc cầu an toàn là 1.2 lần cao hơn xác suất đợi của chính cô ta ở chiếc cầu có rắn. Hãy giả sử chúng ta sử dụng s1, s2 và s3 để thể hiện các tỷ lệ sống sót tham số của người chạy trốn ở mỗi chiếc cầu. Vậy là người săn đuổi tối đa hóa tỷ lệ sống sót ròng qua bất cứ cặp cầu nào bằng cách điều chỉnh các xác suất p1 và p2 là những xác suất mà cô ta sẽ chờ đợi sao cho
s1 (1 − p1) = s2 (1 − p2)
vì p1 + p2 = 1, nên chúng ta có thể viết lại công thức này là
s1 x p2 = s2 x p1
vì vậy
p1/s1 = p2/s2.
Cuối cùng người săn đuổi phát hiện ra chiến lược cân bằng Nash của cô ta bằng cách giải các phương trình sau:
1 (1 − p1)
=
0.9 (1 − p2)
=
0.8 (1 − p3)
p1 + p2 + p3 = 1.
Vậy thì
p1
=
49/121
p2
=
41/121
p3
=
31/121
p1
=
p2
=
p3
=
Bây giờ hãy để f1, f2, f3 thể hiện các xác suất với những xác suất mà người chạy trốn chọn lựa mỗi chiếc cầu tương ứng. Vậy là người chạy trốn phát hiện ra chiến lược cân bằng Nash của anh ta bằng cách giải:
s1 x f1
=
s2 x f2
=
s3 x f3
Do đó
1 × f1
=
0.9 × f2
=
0.8 × f3
đồng thời với
f1 + f2 + f3 = 1.
Vậy thì
f1 = 36/121
f2 = 40/121
f3 = 45/121
Hai tập xác suất cân bằng Nash này nói cho mỗi tay chơi cách thức đo lường độ may rủi của cô ta hoặc ông ta trước khi gieo chúng. Hãy lưu ý – có lẽ rất đáng ngạc nhiên – kết quả mà người chạy trốn sử dụng những chiếc cầu rủi ro với xác suất cao hơn. Đó là cách duy nhất làm cho người săn đuổi trung lập với những gì liên quan đến chiếc cầu cô ta xí phần, và đến lượt mình nó lại tối đa hóa xác suất sống sót của người chạy trốn.
Chúng ta có thể giải trò chơi này một cách minh bạch vì chúng ta thiết lập hàm tiện ích sao cho nó trở thành zero-sum, hoặc cạnh tranh nghiêm nhặt. Thế có nghĩa là mỗi thành quả đạt được trong tiện ích mong muốn bởi một người chơi đều thể hiện một lần thua cân xứng một cách chính xác bởi tay chơi kia. Tuy nhiên có thể điều kiện này thường không đứng vững được. Giờ đây hãy giả sử rằng các hàm tiện ích đều phức tạp hơn nhiều. Người săn đuổi thích nhất một kết quả mà trong đó cô ta bắn người chạy trốn và vì vậy mà khẳng định lòng tin đối với hiểu biết của anh ta đối với một chiếc cầu mà anh ta chết vì đá rơi hoặc rắn cắn; và cô ta thích kết quả thứ hai hơn là để anh ta thoát được. Người chạy trốn thích một cái chết nhanh chóng bằng một phát đạn hơn là chết vì bị đá rơi, hoặc nỗi kinh hoàng khi bị rắn cắn. Tất nhiên điều anh ta thích nhất vẫn là thoát được. Như trước, chúng ta không thể giải được trò chơi này một cách đơn giản dựa trên cơ sở biết được các hàm tiện ích thứ tự của các tay chơi, vì các cường độ của những sở thích tương ứng giờ đây sẽ liên quan đến các chiến lược của họ.
Trước công trình của von Neumann & Morgenstern [1947], các tình huống thuộc loại này rõ ràng đã cản trở những người phân tích. Đó là vì tiện ích không chứng tỏ một biến số tâm lý ẩn dấu chẳng hạn như niềm vui sướng. Như chúng ta đã thảo luận ở phần 2.1, tiện ích chỉ là một phương tiện đo lường các cơ cấu hành vi có liên quan đem lại những định đề kiên định nào đó về các mối liên hệ giữa những sở thích và các lựa chọn. Vì vậy nó không tạo ra ý nghĩa để hình dung sự so sánh bản số của các tay chơi của chúng ta – có nghĩa là cường độ – nhạy cảm – các sở thích với bản số của người khác, vì không có tiêu chuẩn so sánh cố định liên cá nhân độc lập mà chúng ta có thể sử dụng. Vậy thì chúng ta có thể xây dựng mô hình các trò chơi thế nào để cho thông tin bản số phù hợp? Sau hết, việc xây dựng mô hình các trò chơi đòi hỏi rằng tất cả các tiện ích của những tay chơi đều phải được xem xét đồng thời như chúng ta đã thấy.
Một khía cạnh quyết định trong công trình của von Neumann & Morgenstern [1947] là giải pháp cho vấn đề này. Trong trường hợp này chúng tôi sẽ cung cấp một phác thảo tóm tắt về kỹ thuật khéo léo của họ trong việc xây dựng các hàm tiện ích bản số của các số thứ tự. Điều đó nhấn mạnh rằng cái tiếp theo chỉ là một phác thảo, sao cho có thể làm cho tiện ích bản số trở thành phi-bí ẩn đối với bạn với tư cách là một sinh viên, là người quan tâm đến việc tìm hiểu các cơ sở triết học của lý thuyết trò chơi, và về hàng lọat vấn đề có thể áp dụng. Việc cung cấp một chỉ dẫn cho bạn có thể được tiếp tục bằng việc xây dựng các hàm bản số của riêng bạn, phần chỉ dẫn đó sẽ chiếm nhiều trang giấy. Rất may là những chỉ dẫn như vậy lại có sẵn trong nhiều cuốn sách giáo trình. Trong bất kỳ trường hợp nào, nếu bạn là một sinh viên triết học thì bạn có thể không mong muốn thử làm công việc đó cho đến khi bạn tham gia vào một khóa học về lý thuyết xác suất.
Giả sử chúng ta có một tác nhân mà hàm tiện ích số thứ tự của tác nhân đó được biết rõ. Thực sự thì giả sử đó là người tù vượt sông của chúng ta. Chúng ta ấn định cho ông ta hàm tiện ích thứ tự sau:
Trốn thoát 4
Chết vì bị bắn 3
Chết vì đá rơi 2
Chết vì rắn cắn 1
Giờ đây chúng ta biết rằng ý muốn trốn thoát của ông ta hơn bất cứ kiểu chết nào chắc chắn mạnh hơn ý thích của ông ấy về, chẳng hạn bị bắn so với bị rắn cắn. Điều này sẽ được phản ánh trong hành vi lựa chọn của ông ta theo những cách sau. Trong tình huống chẳng hạn như trò chơi qua sông, ông ta sẽ mong muốn chạy thoát khỏi những rủi ro lớn hơn để tăng xác suất tương đối của việc trốn thoát so với bị bắn, và ông ta tăng xác suất tương đối bị bắn hơn là bị rắn cắn. Một chút logic ấy là sự hiểu biết hệ trọng đàng sau giải pháp của von Neumann & Morgenstern [1947] cho vấn đề bản số hóa.
Bắt đầu bằng việc đề nghị tác nhân của chúng ta lựa chọn từ tập kết quả đã có một kết quả tốt nhất và một kết quả tồi nhất. “Tốt nhất” và “tồi nhất” được xác định trong khuôn khổ lựa chọn duy lý: một tác nhân duy lý luôn luôn lựa chọn sao cho có thể tối đa hóa xác xuất của kết quả tốt nhất – ta gọi đó là W – và để tối thiểu hóa xác suất của kết quả tồi nhất – được gọi là L. Giờ đây chúng ta hãy xem xét các phần thưởng trực tiếp giữa WL. Trong một tập kết quả chứa các phần thưởng như vậy, chúng ta phát hiện được điều may rủi bao gồm chỉ có WL. Trong ví dụ của chúng ta đây sẽ là điều may rủi khi bị bắn và bị đá rơi như là những kết quả khả thể của nó. Ta gọi đó là may rủi T. Chúng ta định nghĩa một hàm tiện ích q = u(T) khi q là loại phần thưởng đáng mong đợi ở T, tác nhân thì trung tính giữa đạt được T và đạt được may rủi trong đó W xảy ra với xác suất u(T) và L xảy ra với xác suất 1 – u(T).
Giờ đây chúng ta xây dựng một T* may rủi đa hợp đối với tập kết quả {W, L} sao cho tác nhân là trung tính giữa TT*. Một T may rủi đa hợp là một xác suất trong đó giải thưởng may rủi là một yếu tố may rủi khác. Điều đó là có ý nghĩa bởi vì trên hết nó vẫn là WL là những yếu tố dang bị đe dọa đối với tác nhân của chúng ta trong cả hai trường hợp; vì vậy sau đó chúng ta có thể chia T* thành một may rủi đơn đối với W L. Chúng ta gọi đây là may rủi r. Nó nảy sinh từ tính nhất thời mà T tương đương với r. (Lưu ý rằng điều này giả định trước rằng một tác nhân của chúng ta không đạt được hàm tiện ích từ tính chất phức tạp trong các canh bạc của cô ta). Giờ đây tác nhân duy lý sẽ chọn hành động tối đa hóa xác suất thắng W. Việc xây dựng sơ đồ từ tập kết quả đến u(r) là một hàm tiện ích von Newmann-Morgenstern (VNMuf).
Vậy thì thực sự là ở đây chúng ta đã làm được cái gì? Chúng ta chỉ đơn giản đưa ra cho các tác nhân những lựa chọn đối với các may rủi thay cho các lựa chọn đối với những phần thưởng một cách trực tiếp, và đã quan sát anh ta muốn thêm bao nhiêu rủi ro để chạy trốn để tăng cường những cơ hội thoát khỏi được rắn cắn liên quan đến việc bị bắn hoặc bị đá rơi trúng người. Một hàm tiện ích đạt được một bản số chứ không phải là một rãy thứ tự, một phép đo tiện ích. Lựa chọn của chúng ta về các giá trị điểm cuối, WL là mang tính võ đoán như trước vậy; nhưng một khi những giá trị này đã được cố định thì các giá trị điểm trung gian cũng được xác định. Vì vậy hàm tiện ích VNMuf thực sự đo các cường độ sở thích có liên quan của một tác nhân đơn. Tuy nhiên vì việc chúng ta ấn định các giá trị tiện ích cho WL là võ đoán, nên chúng ta không thể sử dụng các VNMufs để so sánh các sở thích bản số của một tác nhân với các sở thích của các tác nhân khác. Hơn nữa vì chúng ta sử dụng một trắc lượng rủi ro như một công cụ đo của chúng ta nên việc xây dựng hàm tiện ích mới phụ thuộc vào việc giả định rằng thái độ đối với tự thân sự rủi ro của tác nhân vẫn không đổi bằng việc so sánh các rủi ro với nhau. Điều này có vẻ là hợp lý đối với một tác nhân đơn trong một tình huống trò chơi đơn lẻ. Tuy nhiên hai tác nhân trong một trò chơi hoặc một tác nhân trong những loại hoàn cảnh khác nhau có thể thể hiện những thái độ rất khác nhau đối với rủi ro. Có lẽ trong trò chơi qua sông thì người săn đuổi mà cuộc sống của cô ta không hề bị đe dọa sẽ thích đánh bạc với vinh quang của cô ta trong khi người chạy trốn thì lại phải rất thận trọng. Nói chung một tác nhân chống rủi ro thích một phần thưởng được đảm bảo đối với một giá trị đáng mong đợi tương đương của nó trong một xác suất may rủi. Một tác nhân ưa rủi ro lại có một sở thích ngược lại. Một tác nhân trung tính với rủi ro thì trung tính giữa các lựa chọn này. Tuy nhiên trong việc phân tích trò chơi qua sông chúng ta không thể so sánh các tiện ích bản số của người săn đuổi với người chạy trốn. Suy cho cùng thì cả hai tác nhân đều phát hiện ra các chiến lược cân bằng Nash của họ nếu họ có thể ước tính được các xác suất mà mỗi tác nhân sẽ ấn định cho các hành động của tác nhân kia. Điều đó có nghĩa là mỗi tác nhân phải biết cả hàm VNMufs, nhưng họ lại không cần cố để đánh giá một cách tương đối các kết quả đối với những kết quả mà họ mạo hiểm.
Giờ đây chúng ta có thể điền phần còn lại của ma trận cho trò chơi qua cầu mà chúng ta đã bắt đầu vạch ra ở phần 2. Nếu toàn bộ những thứ mà người chạy trốn quan tâm là sự sống và cái chết của anh ta chứ không phải là cách thức chết, và nếu toàn bộ những gì mà người săn đuổi quan tâm là ngăn chặn người chạy trốn thoát được thì giờ đây chúng ta có thể giải thích về tất cả các hàm tiện ích về phương diện bản số. Điều này cho phép chúng ta ấn định những tiện ích mong muốn được thể hiện bằng cách nhân lên các khoản được trả nguyên bản bằng các xác suất tương đương như những kết quả trong ma trận. Giả sử rằng người săn đuổi đợi ở cầu có rắn với xác suất x và ở cầu đá rơi với xác suất y. Vì các xác suất của cô ta qua ba chiếc cầu phải có tổng là 1 nên điều này ngầm ẩn rằng cô ta phải đợi ở chiếc cầu an toàn với xác suất 1- (x + y). Vậy là việc tiếp tục ấn định cho người chạy trốn một khoản nhận được là 0 nếu anh ta chết và là 1 nếu anh ta thoát, và người săn đuổi thì có khoản nhận được ngược lại với người chạy trốn thì ma trận hoàn chỉnh của chúng ta là như sau:

Hình 12
 
Chú thích hình 12:
–         Cobra Bridge        = cầu có rắn hổ mang
–         Rocky Bridge       = cầu có đá rơi
–         Safe Bridge           = cầu an toàn
–         Fugitive               = kẻ chạy trốn
–         Hunter                  = người săn
 
Giờ đây chúng ta có thể đọc các sự kiện sau về trò chơi một cách trực tiếp từ ma trận. Không hàng nào cột nào thống trị nghiêm nhặt hoặc thống trị yếu đối với bất cứ hàng cột nào khác. Vì vậy các cân bằng Nash của trò chơi phải ở trong các chiến lược hỗn hợp.
 
3.1. Các niềm tin
Chúng ta cần lý giải như thế nào về các quá trình xây dựng mô hình bằng các thuật toán của các hỗn hợp cân bằng Nash trong các trò chơi như trò chơi qua sông? Một loại giải thích khả thể là loại lý giải tiến hóa. Nếu người săn đuổi và người chạy trốn thường xuyên chơi các trò chơi có cấu trúc tương tự với trò chơi qua sông thì những sức ép lựa chọn sẽ có những thói quen được cổ vũ trong họ là thứ đưa cả hai đến việc chơi các chiến lược cân bằng Nash và duy lý hóa hành động như vậy bằng việc thỏa mãn câu truyện hoặc cái khác. Nếu không bên nào ở trong tình huống như vậy và nếu các tổ tiên văn hóa và/hoặc sinh học của họ cũng chưa từng lâm vào tình huống như vậy, và nếu không bên nào quan tâm đến việc bộ lộ thông tin cho các đối phương trong những tình huống tương lai mong muốn thuộc loại này (vì họ không mong đợi họ lại xuất hiện) và nếu cả hai bên không phải là những lý thuyết gia trò chơi được đào tạo thì hành vi của họ sẽ được tiên đoán không phải bởi một lý thuyết gia trò chơi mà bởi những người bạn của họ, những người thân thuộc với những đặc tính cá nhân của họ. Các nhà hành vi luận sung sướng nhận ra rằng lý thuyết trò chơi không hữu dụng cho việc xây dựng mô hình mỗi hoàn cảnh kinh nghiệm chủ nghĩa khả thể là cái xuất hiện cùng.
Tuy nhiên nhà triết học nào muốn lý thuyết trò chơi được sử dụng như là một lý thuyết mô tả và/hoặc định chuẩn của tính duy lý chiến lược thì không thể cứ khăng khăng với câu trả lời đó. Ông ta phải tìm cho ra một cung cách tư vấn thỏa đáng cho những tay chơi ngay cả khi trò chơi của họ chỉ đơn độc trong cái vũ trụ của những vấn đề chiến lược. Không có lời khuyên nào như vậy có thể được đưa ra mà lại thỏa đáng không hề có tranh luận – sau rốt thì các nhà hành vi luận vẫn là các nhà hành vi luận vì họ không được thỏa mãn bởi bất cứ cách tiếp cận nào ở đây – nhưng có một cách xử lý vấn đề mà nhiều lý thuyết gia trò chơi đã phát hiện lại rất đáng để theo đuổi. Điều đó liên quan đến việc tính toán về những cân bằng trong niềm tin.
Thực ra thì nhà hành vi luận cũng cần khái niệm cân bằng trong các niềm tin, nhưng lại vì những mục đích khác. Như chúng ta đã thấy, khái niệm cân bằng Nash đã không được phân tích đủ sâu với tư cách một công cụ phân tích để nói cho chúng ta tất cả những gì mà chúng ta nghĩ là có thể quan trọng trong một trò chơi. Vì vậy ngay cả các nhà hành vi luận không phải chịu sức ép bởi dự án các bộ lọc cũng có thể tận dụng khái niệm cân bằng hoàn hảo của trò chơi phụ (SPE – subgame-perfect equilibrium) như đã được thảo luận trong phần 2.6, nếu họ nghĩ rằng họ đang phải đối phó với các tác nhân là những người được thông tin rất tốt (có nghĩa là vì họ ở trong một môi trường thể chế thân thuộc). Nhưng giờ đây chúng ta hãy xem xét trò chơi tay ba với thông tin hoàn hảo dưới đây được gọi là “Con ngựa Selten” (tên người sáng tạo ra trò chơi này, được giải thưởng Nobel, Reinhard Selten, và vì nó hình cây; lấy trích dẫn từ Kreps [1990, tr. 426]:
Hình 13
Một trong những cân bằng Nash của trò chơi này là Lr2l3. Đó là vì nếu tay chơi I chơi L, sau đó tay chơi II chơi r2không hề có động cơ để thay đổi chiến lược vì nút hành động duy nhất của bà ta, 12 đã trệch ra khỏi đường dẫn của trò chơi. Nhưng cân bằng Nash này dường như thuần túy kỹ thuật; nó đã tạo ra đôi chút ý nghĩa với tư cách là một giải pháp. Điều đó tự bộc lộ trong sự kiện là nếu trò chơi bắt đầu ở nút 14 có thể được xử lý như một trò chơi phụ, thì Lr2lsẽ không là một SPE. Bất cứ khi nào cô ta bắt đầu vận động thì tay chơi II cũng sẽ chơi l2. Nhưng nếu tay chơi II đang chơi l2 thì tay chơi I sẽ chuyển sang R. Trong trường hợp đó tay chơi III sẽ chuyển sang r3, bằng cách đưa tay chơi II trở về r2. Và đây là một “cảm biến” mới, cân bằng Nash: Rr2r3. I và II đều chơi một cách hiệu quả “tách ra” khỏi III.
Cân bằng Nash này chỉ “nhạy cảm” theo cùng một cách là một kết quả SPE trong một trò chơi thông tin hoàn hảo nhậy cảm hơn cân bằng Nash phi-SPE. Tuy nhiên chúng ta không thể chọn nó bằng cách áp dụng thuật toán Zermelo. Vì các nút 13 và 14 rơi vào bên trong một tập thông tin chung, nên Con ngựa Selten chỉ có một trò chơi phụ (ấy là toàn bộ cuộc chơi). Chúng ta cần có một khái niệm “anh em” nữa cho SPE là cái mà chúng ta có thể áp dụng trong những trường hợp thông tin không hoàn hảo, và chúng ta cần một thủ tục giải pháp mới để thay thế thuật toán Zermelo cho các trò chơi như vậy.
Hãy lưu ý rằng tay chơi III trong Con ngựa Selten đang băn khoăn tự hỏi xem anh ta chọn chiến lược của mình như thế nào. “Giả sử ta vận động” anh ta tự nhủ “thì nút hành động của ta tới được từ nút 11, hay từ nút 12?”. Nói cách khác, cái gì là những xác suất có điều kiện mà tay chơi III ở nút 13 hay 14 làm cho anh ta thực hiện một vận động? Vậy thì nếu các xác suất có điều kiện là cái mà tay chơi III băn khoăn, sau đó là cái mà tay chơi I và tay chơi II phải phỏng đoán khi họ lựa chọn các chiến lược của họ là các niềm tin của tay chơi III về các xác suất có điều kiện đó. Trong trường hợp này, tay chơi I phải phỏng đoán về các niềm tin cả tay chơi II về niềm tin của tay chơi III, và niềm tin của tay chơi III về niềm tin của tay chơi II và vv…,. Trong trường hợp này các niềm tin tương ứng không chỉ mang tính chiến lược như trước, vì chúng không hề là cái mà các tay chơi sẽ thực hiện một tập các khoản nhận được nhất định và các cấu trúc của trò chơi, mà về cái mà họ nghĩ là tạo nên ý nghĩa cho việc tìm hiểu nào đó hoặc ý nghĩa khác của xác suất có điều kiện.
Những gì là niềm tin nào về xác xuất có điều kiện có thể có lý mà các tay chơi mong đợi từ tay chơi khác? Lý thuyết gia định chuẩn có thể kiên trì về bất cứ cái gì mà các nhà toán học đã phát hiện về chủ đề này. Tuy nhiên rõ ràng là nếu điều này được áp dụng thì một lý thuyết trò chơi mà nó tích hợp sẽ không phải là sự thật của hầu hết mọi người. Nhà hành vi luận sẽ kiên trì đối với việc áp đặt các thói quen hành vi là cái mà một quá trình chọn lọc tự nhiên có thể xây dựng thành các sản phẩm. Có lẽ một số tạo vật khả thể có thể quan sát các thói quen tôn trọng qui tắc Bayes, là một khái quát hóa chân thật tối thiểu về xác suất có điều kiện mà một tác nhân có thể biết nếu nó biết bất cứ khái quát nào như vậy. Việc bổ sung thêm nhiều tri thức tinh vi về xác suất có điều kiện có nghĩa là sự tinh lọc cân bằng về niềm tin, hệt như một số lý thuyết gia trò chơi thích tinh lọc các cân bằng Nash. Bạn có thể tưởng tượng cái điều mà các nhà hành vi luận nghĩ về dự án đó!
Giờ đây chúng ta sẽ giới hạn sự chú ý của mình vào khái niệm cân bằng về niềm tin được tinh lọc ít nhất, một khái niệm có được khi chúng ta đòi hỏi các tay chơi suy lý theo nguyên tắc Bayes. Nguyên tắc Bayes nói với chúng ta về việc phải tính toán như thế nào về xác suất của một sự kiện F sinh ra thông tin E (được viết thành ‘pr(F/E):
pr(F/E) = [pr(E/F) ì pr(F)] / pr(E)
Từ nay trở đi chúng ta giả định rằng các tay chơi không giữ niềm tin mâu thuẫn với đẳng thức này.
Giờ đây chúng ta có thể xác định một cân bằng theo trật tự. Một cân bằng theo trật tự có hai phần: (1) một hồ sơ chiến lược Đ cho mỗi tay chơi, như trước, và (2) một hệ thống niềm tin à cho mỗi tay chơi. à ấn định cho mỗi tập thông tin h một phân phối xác suất trên các nút x trong h, với lời lý giải rằng đó là những niềm tin của tay chơi i(h) về vấn đề là tập thông tin của anh ta nằm ở đâu, mà tập thông tin h đã cho đó đã có được rồi. Vậy là một cân bằng tuần tự là một tập tham số ưu tiên của các chiến lược Đ và một hệ thống niềm tin à phù hợp với qui tắc Bayes đến mức bắt đầu từ mỗi tập thông tin h trong hình cây mà tay chơi i(h) đã chơi một cách tối ưu từ đó, cái điều đã cho mà anh ta tin là đã xảy ra ấy đã được sinh ra bởi à(h) và cái sẽ xảy ra trong các vận động tiếp theo được sinh ra bởi Đ.
Giờ đây chúng ta thể hiện khái niệm ấy bằng việc áp dụng cho Con ngựa Selten. Và chúng ta hãy xem lại cái cân bằng Nash không mấy thú vị Lr2l3. Giả định rằng tay chơi III ấn định pr(1) cho niềm tin của cô ta rằng nếu như cô ta thực hiện một chuyển động thì cô ta sẽ ở nút 13. Vậy là tay chơi II, được cấp cho một à(II) cố định phải tin tưởng rằng tay chơi III sẽ chơi l3, mà trong trường hợp đó chiến lược SE duy nhất của cô ta là l2. Vì vậy mặc dù Lr2l3 là một cân bằng Nash, nhưng nó lại không phải là một cân bằng SE. Tất nhiên đây chính là điều mà chúng ta mong muốn. Việc sử dụng nhu cầu kiên định trong ví dụ này là một cái gì đó đối chút tầm thường, vì vậy giờ đây chúng ta hãy xem xét một trường hợp thứ hai, cũng được dẫn từ trích dẫn từ Kreps [1990, tr. 429] :
Hình 14
 
Giả sử rằng tay chơi I chơi L, tay chơi II chơi l2 và tay chơi III chơi l3. Cũng giả sử rằng à(II) ấn định pr(.3) cho nút 16. Trong trường hợp đó, l2 không phải là một chiến lược SE cho tay chơi II, vì l2 trở thành một khoản được trả đáng mong muốn là .3(4) + .7(2) = 2.6, trong khi r2 đem một khoản được trả đáng mong muốn là 3.1. Nên lưu ý rằng nếu chúng ta tiêu phí tập tham số ưu tiên chiến lược cho tay chơi III trong khi để cho mọi thứ còn lại cố định, thì lcó thể trở thành một chiến lược SE cho tay chơi II. Nếu Đ(III) đạt được một cách chơi l3 với pr(.5) và r3 với pr(.5), thì nếu tay chơi II chơi r2 thì khoản được trả mong ước của anh ta giờ đây sẽ là 2.2, vì vậy Ll2l3 sẽ là một SE. Giờ đây hãy tưởng tượng môi trường à(III) quay trở lại như nó đã từng, nhưng hãy thay đổi à(II) sao cho tay chơi II nghĩ đến xác suất có điều kiện ở nút 16 lớn hơn .5; trong trường hợp này, l2 lại không phải là một chiến lược SE.
Ý tưởng về SE giờ đây đã hoàn toàn rõ ràng. Chúng ta có thể áp dụng nó vào trò chơi qua sông theo cái cách là nó tránh được tính chất nhất thiết cho người săn đuổi không phải gieo bất cứ đồng xu nào để chúng ta có thể làm cho trò chơi biến đổi đi đôi chút. Bây giờ hãy giả sử tay chơi II có thể thay đổi việc lựa chọn những chiếc cầu hai lần trong khi người chạy trốn đi qua, và sẽ bắt anh ta đúng trong trường hợp cô ta gặp anh ta khi anh ta rời chiếc cầu. Vậy thì chiến lược SE của người đi săn là chia thời gian của cô ta ở ba chiếc cầu phù hợp với tỷ lệ nhất định bằng phương trình trong đoạn thứ ba của phần 3 ở trên.
Cần phải lưu ý rằng vì nguyên tắc Bayes không thể được được áp dụng vào các sự kiện với xác suất bằng 0, nên việc áp dụng nó vào cân bằng SE đòi hỏi rằng các tay chơi phải ấn định các xác suất phi-zero cho toàn bộ các hành động có sẵn trong hình cây. Cần phải có đòi hỏi này vì giả sử là toàn bộ các tập tham số ưu tiên chiến lược được hòa trộn một cách nghiêm nhặt, có nghĩa là mỗi hành động đó ở mỗi tập thông tin được thực hiện với xác suất dương. Bạn sẽ thấy rằng đây thực sự cũng giống như việc giả định rằng toàn bộ các bàn tay đôi khi đều run. Một cân bằng SE là một dự án bàn tay run nếu toàn bộ các chiến lược chơi ở điểm cân bằng là những đáp trả tốt nhất đối với các chiến lược được hòa trộn một cách nghiêm nhặt. Bạn cũng không nên ngạc nhiên khi người ta nói rằng không chiến lược bị thống trị yếu nào có thể là dự án bàn tay run, vì khả năng của các bàn tay run đưa đến cho các tay chơi một lý do xác đáng nhất để tránh các chiến lược như vậy.
 
Tác giả: Don Ross là Giáo sư Triết học tại Đại học Alabama ở Birmingham, Giáo sư Kinh tế học tại Đại học Cape Town, Nam Phi. Công trình chủ yếu: Economic Theory and Cognitive Science: Microexplanation (MIT Press, 2005).
Nguyên văn: Game Theory, The Stanford Encyclopedia of Philosophy (Fall 2010 Edition), Edward N. Zalta (ed.), First published Sat Jan 25, 1997; substantive revision Wed May 5, 2010
 
 
Tài liệu dẫn
Baird, D., Gertner, R., and Picker, R. (1994). Game Theory and the Law. Cambridge, MA: Harvard University Press.
Binmore, K., Kirman, A., and Tani, P. (eds.) (1993). Frontiers of Game Theory. Cambridge, MA: MIT Press
Binmore, K. (1998). Game Theory and the Social Contract (v. 2): Just Playing. Cambridge, MA: MIT Press.
Camerer, C. (2003). Behavioral Game Theory: Experiments in Strategic Interaction. Princeton: Princeton University Press.

Danielson, P. (ed.) (1998). Modelling Rationality, Morality and Evolution. Oxford: Oxford University Press.
Fudenberg, D., and Levine, D. (1998). The Theory of Learning in Games. Cambridge, MA: MIT Press.
Fudenberg, D., and Tirole, J. (1991). Game Theory. Cambridge, MA: MIT Press.
Gintis, H. (2004). Towards the Unity of the Human Behavioral Sciences. In Philosophy, Politics and Economics 31:37-57.
Guala, F. (2005). The Methodology of Experimental Economics. Cambridge: Cambridge University Press.
Hofbauer, J., and Sigmund, K. (1998). Evolutionary Games and Population Dynamics. Cambridge: Cambridge University Press.
Krebs, J., and Davies, N.(1984). Behavioral Ecology: An Evolutionary Approach. Second edition. Sunderland: Sinauer.
Kreps, D. (1990). A Course in Microeconomic Theory. Princeton: Princeton University Press.
Maynard Smith, J. (1982). Evolution and the Theory of Games. Cambridge: Cambridge University Press.
McMillan, J. (1991). Games, Strategies and Managers. Oxford: Oxford University Press.
Nash, J. (1950a). Equilibrium Points in n-Person Games. In PNAS 36:48-49.
Nash, J. (1950b). The Bargaining Problem. In Econometrica 18:155-162.
Nash, J. (1951). Non-cooperative Games. In Annals of Mathematics Journal 54:286-295.
Ormerod, P. (1994). The Death of Economics. New York: Wiley.
Rawls, J. (1971). A Theory of Justice. Cambridge, MA: Harvard University Press.
Robbins, L. (1931). An Essay on the Nature and Significance of Economic Science. London: Macmillan.
Ross, D. 2005
. Evolutionary Game Theory and the Normative Theory of Institutional Design: Binmore and Behavioral Economics.In Politics, Philosophy and Economics, forthcoming.
Ross, D., and LaCasse, C. (1995). Towards a New Philosophy of Positive Economics. In Dialogue 34: 467-493.
Samuelson, L. (1997). Evolutionary Games and Equilibrium Selection. Cambridge, MA: MIT Press.
Samuelson, L. (2005). Economic Theory and Experimental Economics. In Journal of Economic Literature 43:65-107.
Samuelson, P. (1938). A Note on the Pure Theory of Consumers’ Behaviour. In Econimica 5:61-71.
Selten, R. (1975). Re-examination of the Perfectness Concept for Equilibrium Points in Extensive Games. In International Journal of Game Theory 4:22-55.
Sigmund, K. (1993). Games of Life. Oxford: Oxford University Press.
Smith, V. (1982). Microeconomic Systems as an Experimental Science. In American Economic Review 72:923-955.
Sober, E., and Wilson, D.S. (1998). Unto Others. Cambridge, MA: Harvard University Press.
Tomasello, M., M. Carpenter, J. Call, T. Behne and H. Moll (2004). Understanding and Sharing Intentions: The Origins of Cultural Cognition. In Behavioral and Brain Sciences, forthcoming.
Vallentyne, P. (ed.). (1991). Contractarianism and Rational Choice. Cambridge: Cambridge University Press.
von Neumann, J., and Morgenstern, O., (1947). The Theory of Games and Economic Behavior. Princeton: Princeton University Press, 2nd edition.
Weibull, J. (1995). Evolutionary Game Theory. Cambridge, MA: MIT Press.
Yaari, M. (1987). The Dual Theory of Choice Under Risk. In Econometrica 55:95-115.
Young, H.P. (1998). Individual Strategy and Social Structure. Princeton: Princeton University Press.
—————–&&—————-

LÝ THUYẾT TRÒ CHƠI VÀ KINH TẾ HỌC (KỲ I)

LÝ THUYẾT TRÒ CHƠI VÀ KINH TẾ HỌC (KỲ I)

(Tác giả: Don Ross – Người dịch: Hà Hữu Nga – Nguồn: vanhoanghean.com.vn)

Lý thuyết trò chơi nghiên cứu những cách thức trong đó các tương tác chiến lược giữa những người chơi duy lýtạo ra các sản phẩm liên quan đến các sở thích (hoặc các tiện ích) của những người chơi mà không một sở thích hoặc tiện ích nào có thể được dự định trước bởi bất kỳ người nào trong số những người chơi. Ý nghĩa của đoạn văn này sẽ không thể rõ ràng đối với những ai không phải là chuyên gia chừng nào mỗi từ, mỗi cụm từ in nghiêng chưa được giải thích và nêu ra các đặc điểm bằng những ví dụ. Đây sẽ là nhiệm vụ chính của bài viết này. Tuy nhiên, trước hết chúng tôi xin đưa ra đôi chút ngữ cảnh triết học và lịch sử để tác động đến người đọc trong việc tìm hiểu toàn bộ những công việc mang tính kỹ thuật đang chờ chúng ta ở phía trước.

1. Động cơ lịch sử và Triết học
 
Lý thuyết toán học về các trò chơi được John von Neumann and Oskar Morgenstern [1944] sáng tạo ra. Vì một số nguyên do sẽ được thảo luận dưới đây, các giới hạn trong khuôn khổ toán học của họ lúc đầu đã tạo dựng một lý thuyết ứng dụng chỉ trong những điều kiện đặc biệt và hạn hẹp. Tình huống này đã dần dần thay đổi, theo những cách thức mà chúng ta sẽ thấy khi chính ta lướt qua một quãng đường dài trên 60 năm lúc mà bộ khung lý thuyết ấy đã trở nên sâu sắc hơn và khái quát hơn rất nhiều. Người ta vẫn không ngừng tiến hành gạn lọc và ở gần cuối bài viết chúng ta sẽ xem xét một số vấn đề triết học nổi bật thể hiện ngay ở tuyến đầu của sự phát triển. Tuy nhiên, chí ít là vào cuối những năm 1970 người ta đã có thể nói một cách chắc chắn rằng lý thuyết trò chơi là một công cụ quan trọng và hữu dụng nhất trong bộ công cụ phân tích ở bất cứ hoàn cảnh nào khi chúng ta phải đối diện với tình huống trong đó cái được coi là một tác nhân năng động nhất [đối với trò chơi đó] thì lại tùy thuộc vào những mong muốn mà một hoặc nhiều tác nhân khác sẽ làm, và cái được coi là những hành động tốt nhất [đối với họ] thì tương tự như vậy, lại phụ thuộc vào những mong muốn về nó.
Mặc dù trên thực tế thì lý thuyết trò chơi mới đây đã được biểu diễn dưới hình thức toán học và logic học một cách hệ thống, tuy nhiên tri thức về lý thuyết trò chơi thì lại có thể đã được phát hiện ra từ các nhà bình luận chính trị và các nhà triết học thời cổ đại. Chẳng hạn trong hai văn bản của Plato, Laches [Sao nhãng] vàSymposium [Bàn trà], Socrates đã làm cho ta nhớ lại một đoạn từ cuốn Trận chiến Delium liên quan đến tình huống dưới đây. Hãy xem một người lính ở ngoài mặt trận đang đợi chỉ huy của anh ta ra lệnh đánh trả một trận tấn công của kẻ thù. Một điều có thể xảy ra đối với anh ta là nếu trận chiến thành công thì cũng rất có thể không phải công sức đóng góp của riêng cá nhân anh ta mang tính quyết định. Nhưng nếu anh ta trụ lại, anh ta nghĩ về sự kinh khủng của tình trạng bị thương, hay bị giết – hiển nhiên là không vì một lý do gì cả. Mặt khác, nếu kẻ thù sắp chiến thắng thì khả năng anh ta bị giết hoặc bị thương lại còn cao hơn, và giờ đây thì hoàn toàn rõ ràng là không vì nguyên cớ gì cả, vì trận tuyến đã bị áp đảo. Dựa trên lý do này, rõ ràng là tốt hơn hết, người lính nên bỏ chạy, bất kể người sắp chiến thắng là ai. Tất nhiên, nếu mọi người lính đều suy tính theo cách đó – vì tất cả họ hiển nhiên là nên, vì tất cả họ đều ở trong những tình huống giống hệt như nhau – thì điều đó chắc chắn sẽ đưa đến kết quả là cuộc chiến sẽ bị thất bại. Tất nhiên, vấn đề này xảy ra đối với chúng ta, những nhà phân tích, thì cũng có thể xảy ra đối với những người lính. Phải chăng điều đó đem lại cho họ một lý do để trụ lại ở vị trí chiến đấu của họ? Thực sự thì lại trái ngược: nỗi sợ lớn hơn của người lính là ở chỗ trận chiến sẽ thất bại, thì họ lại càng có nhiều động cơ để tránh cho mình khỏi bị hại. Và khi người lính càng tin rằng trận đánh của họ sẽ thắng lợi mà không cần bất cứ sự đóng góp đặc biệt nào của cá nhân thì họ lại càng có ít lý do trụ lại để chiến đấu. Nếu mỗi người lính đều biết trước loại suy lý này cũng có ở những người lính khác, thì tất cả họ sẽ nhanh chóng tự nghĩ về một nỗi sợ hãi, và người chỉ huy đáng sợ của họ sẽ chỉ còn có một đám đông hỗn độn để chỉ huy, ngay cả trước khi kẻ thù khai hỏa.
Từ rất lâu trước khi lý thuyết trò chơi xuất hiện để chỉ cho chúng ta thấy phải suy nghĩ như thế nào về loại vấn đề này một cách hệ thống, thì nó đã xảy ra với các nhà chỉ huy quân sự và tác động ảnh hưởng đến các chiến lược của họ. Vì vậy nhà chinh phục người Tây Ban Nha Cortez, khi đổ bộ lên đất Mexico với một lực lượng nhỏ là người có lý do chính đáng để sợ khả năng của họ khó mà đẩy lùi được cuộc tấn công của đội quân Aztecs đông hơn rất nhiều. Ông đã tránh được cuộc khủng hoảng – trong tình trạng đội quân của ông có thể nghĩ đến cuộc rút lui – bằng cách đốt hết những con tàu mà họ đã dùng để đổ bộ vào mảnh đất đó. Biết là không còn đường lui nữa, những người lính Tây Ban Nha đã không còn cách nào khác ngoài cách trụ lại chiến đấu, và họ lại chiến đấu quyết liệt hơn bao giờ hết. Hơn nữa, theo quan điểm của Cortez, hành động của ông đã có một hiệu quả làm nản lòng người Aztecs. Ông có ý định rõ ràng về việc đốt hết các con tàu của mình làm cho người Aztecs tin chắc rằng ông cương quyết chiến thắng. Vậy là họ suy luận như sau: bất cứ người chỉ huy nào có thể tự tin đến mức chủ tâm phá hủy con đường lui cuối cùng của bản thân mình thì là khôn ngoan. Nếu trận chiến trở nên bất lợi với ông ta thì vị chỉ huy đó phải có những lý do chính đáng mới có thể cực kỳ lạc quan đến mức như vậy. Vì vậy sẽ là không khôn ngoan khi tấn công vào một đối phương có những lý do chính đáng để đảm bảo rằng ông ta không thể bại trận. Chính vì vậy người Aztecs đã lui quân xuống những quả đồi xung quanh , còn Cortez thì đã giành được thắng lợi mà không đổ một giọt máu.
Các tình huống này, như Plato đã nhắc đến và như Cortez đã hành động có chung một logic ngầm và rất thú vị. Nên lưu ý rằng những người lính không có động cơ để chỉ rút lui, hoặc cho dù chủ yếu bằng cách đánh giá duy lý của họ về những hiểm nguy của cuộc chiến và bằng sự tư lợi của họ. Hơn nữa họ đã phát hiện ra một lý do chính đáng để chạy khi nhận rõ rằng cái tạo nên ý nghĩa cho hành động của họ thì lại phụ thuộc vào cái tạo nên ý nghĩa cho người khác để họ hành động và tất cả những người khác có thể cũng lưu ý đến điều đó. Ngay cả một người lính hoàn toàn dũng cảm thì cũng vẫn có thể thích bỏ chạy hơn là chết một cách anh hùng bằng cách cố ngăn cơn triều đang trào đến chỉ bằng có mỗi một bản thân mình. Vì vậy chúng ta có thể hình dung mà không có gì mâu thuẫn rằng một trạng huống mà một đạo quân, gồm tất cả các cá nhân đều rất dũng cảm lại chạy biến đi nhanh như gió trước khi kẻ thù tấn công. Nếu những người lính thực sự người dũng cảm thì điều này thực sự không phải là kết quả mà bất kỳ ai trong số họ cũng muốn; mỗi người sẽ đều muốn rằng toàn bộ trụ lại và chiến đấu. Vậy thì trường hợp chúng ta đang đề cập ở đây trong đó mối tương tác của nhiều quá trình ra quyết định duy lý về phương diện cá nhân – mỗi người lính một quá trình – thì nó sẽ tạo ra một kết quả mà không ai dự định trước cả. Hầu hết các đạo quân đều cố tránh vấn đề này hệt như Cortez đã làm. Vì họ không thể thường xuyên làm cho việc rút lui về mặt thể chất trở nên không thể, nên họ đã làm cho nó không thể về phương diện kinh tế: họ bắn những kẻ bỏ trốn. Vậy thì việc trụ lại và chiến đấu là quá trình hành động duy lý cá nhân của mỗi người lính đã trở thành lựa chọn đúng đắn, vì cái giá của việc bỏ chạy chắc chắn tối thiểu cũng cao như cái giá của sự trụ lại.
Một câu truyện kinh điển khác gợi lên quá trình suy lý này được phát hiện trong vở kịch “Vua Henry V” của Shakespeare. Trong trận chiến Agincourt, Henry đã quyết định hành quyết các tù binh Pháp trong cái nhìn đầy căn hận của kẻ thù và trong sự ngạc nhiên của đoàn tùy tùng của ông. Họ mô tả hành động như vậy là vô đạo. Những lý lẽ Henry đưa ra ám chỉ đến việc xem xét tham số: ông sợ rằng tù binh có thể bỏ trốn và đe dọa đến địa vị của ông. Tuy nhiên một lý thuyết gia trò chơi có thể đã cung cấp cho ông một lý lẽ chiến lược bổ sung (cũng tương tự như một lý lẽ khôn ngoan chứ có lẽ không phải là đạo đức). Đội quân của ông đã nhìn thấy những tù binh kia đã bị giết, và thấy rằng kẻ thù cũng đã thấy điều đó, vì vậy họ biết số phận nào đang đợi họ trong bàn tay của kẻ thù nếu như họ không thắng. Chỉ là ẩn dụ, nhưng lại rất hiệu quả, các con thuyền của họ đã bị đốt cháy. Người hành quyết tù binh đã khôn khéo gửi một tín hiệu đến những người lính của cả hai bên, vì vậy đã làm thay đổi các động cơ của họ bằng cách chiều theo các viễn tượng chiến thắng của người Anh.
Các ví dụ này có thể được coi là chỉ phù hợp cho những ai tự thấy mình trong những tình huống bần cùng của cuộc cạnh tranh tàn khốc. Có lẽ người ta có thể nghĩ rằng điều đó chỉ hệ trọng đối với các vị tướng, các chính khách, các nhà kinh doanh, và những ai liên quan đến việc điều hành những người khác, còn nhà triết học chỉ nên xót xa cho tính chất đạo đức đáng sợ của nó mà thôi. Tuy nhiên một kết luận như vậy có lẽ còn quá sớm. Công việc nghiên cứu logic thống trị các mối quan hệ trong những động cơ, các tương tác chiến lược và các kết quả là cơ bản trong triết học chính trị hiện đại vì nhiều thế kỷ trước bất kỳ ai cũng đặt được một cái tên rõ ràng cho loại logic này.
Leviathan của Hobbes thường được coi là một công trình đặt nền móng cho triết học chính trị hiện đại, luận văn bắt đầu cái vòng phân tích liên tục về chức năng và tính chính đáng của nhà nước và những hạn chế mà nó áp đặt lên quyền tự do cá nhân. Hạt nhân duy lý của Hobbes có thể tóm gọn như sau. Tình trạng tốt nhất cho tất cả mọi người là một trạng huống mà trong đó mỗi người được tự do làm điều gì mình muốn. Thông thường những người tự do như vậy mong muốn hợp tác với những người khác để tiến hành những dự án mà một cá nhân hành động đơn độc không thể làm được. Nhưng nếu có bất cứ một tác nhân vô đạo hoặc phi đạo đức nào đó xung quanh thì họ sẽ nhận ra ngay lợi ích của họ dễ kiếm được nhất bằng cách thu được lợi ích từ việc hợp tác và không hoàn trả cho người khác. Chẳng hạn chúng ta hãy giả sử là bạn đồng ý giúp tôi xây dựng ngôi nhà của mình, đến lượt mình, tôi hứa giúp bạn xây ngôi nhà của bạn. Sau khi ngôi nhà của tôi hoàn thiện, tôi không còn cần đến sức lao động của bạn nữa và thế là tôi chỉ xử sự đơn giản bằng cách bội ước. Tuy nhiên sau đó tôi nhận ra rằng nếu điều đó làm cho bạn trở nên không nhà thì bạn sẽ có động cơ chiếm ngôi nhà của tôi. Điều đó đẩy tôi đến tình trạng luôn luôn sợ bạn và buộc tôi phải tiêu thời gian, tiền bạc, của cải vào việc bảo vệ tôi chống lại bạn. Cách tốt nhất để tôi giảm đi tối đa khoản chi phí này là bằng cách đánh bạn trước, sau đó thì giết bạn lúc thuận tiện. Tất nhiên bạn có thể biết trước tất cả sự suy lý ấy của tôi, vì vậy mà bạn cũng có lý do chính đáng để đánh tôi. Vì tôi có thể đoán trước được suy lý này của bạn, nên nỗi sợ ban đầu của tôi đối với bạn đã trở nên không còn hoang tưởng nữa; bạn cũng như vậy khi nghĩ về tôi. Trong thực tế thì chúng ta không cần phải trở nên vô đạo đức để rơi vào cái chuỗi suy lý liên miên ấy; chúng ta chỉ cần nghĩ rằng có một khả năng nào đó để người khác có thể cố gian lận chỉ nhằm mặc cả. Khi đã có một nghi ngờ nhỏ xuất hiện trong đầu bất cứ ai, thì động cơ được suy diễn bởi nỗi hoảng sợ về những hậu quả bị chơi trước – bị đánh trước bằng cú đánh phủ đầu – nỗi sợ đó nhanh chóng xâm chiếm cả hai bên. Nếu cả hai chúng ta đều có một chút của cải riêng nào đó mà người khác có thể muốn chiếm, thì cái logic giết người ấy sẽ xâm chiếm chúng ta trước khi chúng ta có thể thẹn thùng nhận ra rằng chúng ta thực sự có thể giao thiệp để giúp đỡ nhau xây dựng những ngôi nhà ngay từ đầu. Trừ những phương thức riêng của mình, các tác nhân duy lý sẽ không bao giờ thu được lợi lộc trong sự hợp tác, và thay vào đó sẽ sống tách biệt khỏi tình trạng ban đầu trong một nhà nước của cuộc chiến của “tất cả mọi người chống lại tất cả mọi người”, theo cách nói của Hobbes. Trong trạng huống đó, toàn bộ cuộc sống của con người như ông đã mô tả một cách sinh động, sẽ là một cuộc sống “đơn độc, nghèo nàn, hiểm ác, hung dữ và đoản mệnh”.
Giải pháp do Hobbes đề xuất cho vấn đề này là chuyên chế. Người ta có thể thuê một tác nhân – một chính phủ để chuyên trừng phạt bất cứ ai bội ước. Chừng nào sự trừng phạt để răn đe trở nên đủ mức tàn khốc – Hobbes nghĩ việc chém đầu nói chung là thích đáng – thì chi phí cho việc bội ước sẽ vượt quá chi phí cho việc giữ đúng lời hứa. Trong trường hợp này rõ ràng logic ấy giống hệt như cái logic do quân đội sử dụng khi nó dọa bắn những người đào ngũ. Nếu tất cả mọi người đều biết rằng các động cơ này là để giữ cho những người khác thì việc hợp tác sẽ không chỉ là có thể mà nó sẽ trở thành một chuẩn mực đáng mong ước, và cuộc chiến của mọi người chống lại tất cả mọi người sẽ trở thành một cuộc thái bình.
Hobbes đã đẩy lập luận lôgic này đến một kết luận rất mạnh mẽ khi cho rằng nó ám chỉ không chỉ một chính phủ có đủ quyền và quyền lực để cưỡng bức hợp tác, mà còn là một chính phủ “không bị chia sẻ” trong đó ý chí độc đoán của một vị thủ lĩnh duy nhất phải ấn định các nghĩa vụ tuyệt đối lên tất cả. Một số lý thuyết gia chính trị hiện đại cho rằng những bước đi đặc biệt mà nhờ đó Hobbes đề xuất con đường đi đến kết luận này của ông vừa hợp lý, vừa có giá trị. Tuy nhiên nếu chỉ bàn về những vấn đề này thì có lẽ chúng ta đã đi chệch ra khỏi để tài chính để dấn sâu vào một vấn đề rất phức tạp của triết học chính trị khế ước. Điều quan trọng trong ngữ cảnh hiện nay là các chi tiết này, như chúng luôn được bàn đến trong các cuộc tranh cãi hiện nay, tất cả đều liên quan đến việc lý giải một cách tinh xảo các vấn đề ấy bằng cách sử dụng các nguồn của lý thuyết trò chơi hiện đại. Hơn nữa, vấn đề cơ bản nhất của Hobbes, cái lý lẽ cơ bản cho cái quyền lực cưỡng bách và những họat động thực tiễn của chính phủ là nhu cầu riêng để tự bảo vệ họ khỏi cái mà các lý thuyết gia trò chơi gọi là “các nan đề xã hội” được nhiều, nếu không nói là tất cả các nhà lý thuyết chính trị chấp nhận. Cần phải lưu ý rằng Hobbes đã không cho rằng chuyên chế là một cái gì tự thân nó là đáng khao khát. Cấu trúc lập luận của ông là ở chỗ logic của các tương tác chiến lược chỉ để lại hai kết quả chính trị khả thể: chuyên chế và vô chính phủ. Vậy là các tác nhân duy lý chọn chuyên chế như là một thứ đỡ xấu hơn trong hai cái xấu.
Suy lý của Cortez, của Henry V và của Hobbes về các tác nhân chính trị có một logic chung, một thứ logic xuất phát từ các tình huống của họ. Trong mỗi trường hợp, khía cạnh môi trường là quan trọng nhất đối với việc tác nhân đạt được các kết quả ưa thích của họ là một tập hợp những mong muốn phản động lực khả thể đối với các chiến lược của các tác nhân khác. Sự khác biệt giữa cách hành động theo thông số về một thế giới thụ động và cách hành động không theo thông số về một thế giới cố gắng hành động bằng sự tiên liệu trước về những hành động này thì sự khác biệt đó là rất cơ bản. Nếu bạn muốn bẩy một hòn đá lăn xuống chân đồi thì bạn chỉ cần quan tâm đến cái khối lượng của hòn đá tương quan với sức bẩy của cơ thể bạn, ở mức độ nào thì nó được đẩy đi với sự trợ giúp của bề mặt đồi, độ dốc của quả đồi, bề mặt của hòn đá, và lực tác động mà chân bạn đẩy hòn đá đi. Các giá trị của toàn bộ các biến số đó đều độc lập với các kế hoạch và ý định của bạn, vì hòn đá không có những lợi ích tự thân của nó, nó không thể hành động để cố gắng trợ giúp cho bạn hoặc cản trở bạn. Ngược lại nếu bạn muốn đẩy một người xuống đồi, trừ khi người ấy không có ý thức, bị trói hoặc bị thiểu năng còn thì bạn sẽ không thể làm được trừ khi bạn che giấu các kế hoạch của mình cho đến khi quá muộn cho người đó để tránh bạn hoặc ngăn chặn hành động của bạn. Vấn đề logic gắn liền với tình huống thứ hai phức tạp hơn nhiều khi chúng ta đưa ra một ví dụ giả định đơn giản để minh họa.
Giả sử bạn muốn đi ngang qua một con sông có ba chiếc cầu (Giả sử việc bơi, lội, đi thuyền đều không thể được). Bạn biết rằng chiếc cầu đầu tiên an toàn và không có trở ngại gì; nếu bạn cố đi qua đó, bạn sẽ thành công. Chiếc cầu thứ hai nằm dưới chân một mỏm đá trên đó có những tảng đá lớn thỉnh thoảng vẫn rơi xuống. Chiếc cầu thứ ba thì có những con rắn hổ mang rất độc sống ở đó. Giờ đây giả sử bạn muốn phân hạng ba chiếc cầu đó theo mức độ ưa thích của bạn. Nhiệm vụ của bạn hoàn toàn là ở phía trước. Chiếc cầu đầu tiên rõ ràng là tốt nhất, vì nó an toàn nhất. Để xếp hạng hai chiếc cầu còn lại bạn cần có thông tin về các cấp độ liên quan đến mức nguy hiểm của nó. Nếu bạn có thể nghiên cứu được tần xuất đá rơi và sự họat động của các con rắn hổ mang thì thì bạn có thể tính được bạn bị đá rơi trúng ở chiếc cầu thứ hai là 10% và bị rắn hổ mang tấn công là 20%. Sự suy lý của bạn ở đây là một sự suy lý thông số chặt chẽ vì không phải là những tảng đá, cũng không phải là những con rắn hổ mang đang cố tác động đến hành động của bạn, bằng cách chẳng hạn như che giấu các mô thức hành vi điển hình có lẽ chúng biết bạn đang nghiên cứu chúng.Cái mà bạn nên làm ở đây là hoàn toàn rõ ràng: đi qua chiếc cầu an toàn. Bây giờ chúng ta hãy phức tạp hóa tình huống lên một chút. Giả sử cây cầu có đá lăn ở ngay trước mặt bạn, trong khi cây cầu an toàn lại ở cách xa một ngày đường đi bộ về phía thượng nguồn. Tình huống ra quyết định của bạn ở đây lại phức tạp hơn một chút. Bạn lại phải quyết định xem liệu chi phí cho cuộc đi bộ ấy có đáng để đổi lấy khoản phạt 10% cơ hội bị đá rơi vào người không. Tuy nhiên đây là toàn bộ những gì mà bạn phải quyết định, và khả năng vượt sông thành công của bạn là hoàn toàn phụ thuộc vào bạn; môi trường không hề quan tâm gì đến kế hoạch của bạn cả.
Tuy nhiên nếu giờ đây chúng ta lại phức tạp hóa tình huống theo hướng phi tham số thì tình hình sẽ trở nên rắc rối hơn nhiều. Giả sử bạn là một loại người trốn chạy nào đó và một người có một khẩu súng đang đợi bạn một bên bờ sông. Bà ta sẽ đuổi kịp, và bắn bạn, chúng ta giả định như vậy, nếu chỉ khi bà ta đợi ở chiếc cầu mà bạn cố vượt qua; nếu không thì bạn đã thoát. Vì bạn suy lý thông qua việc lựa chọn một cây cầu, nên điều xảy đến với bạn là bà ta cứ ở đấy vì đã đoán biết được ý định của bạn. Chắc chắn vấn đề xảy ra là việc lựa chọn cây cầu an toàn để vượt qua sẽ là một sai lầm, vì bà ta chỉ đợi bạn ở đó, và cơ hội chết của bạn là chắc chắn. Vì vậy có lẽ bạn sẽ mạo hiểm với những tảng đá vì lựa chọn này vẫn ổn hơn nhiều. Nhưng chờ đợi…nếu bạn có thể đi tới gần đến kết quả thì người đuổi bạn là một người duy lý và có thông tin chính xác hệt như bạn có thể đoán biết rằng bạn sẽ đến đó và sẽ đợi bạn nếu bạn lẩn tránh những tảng đá.Vì vậy có lẽ bạn phải chớp lấy cơ hội với những con rắn hổ mang. Đó là nơi mà bà ta ít ngờ nhất. Nhưng sau đó, không…nếu bà ta hy vọng rằng bạn sẽ trông mong một điều mà bà ta ít chờ đợi nhất ấy, thì bà ta lại hy vọng vào điều đó nhất. Nan đề này bạn nhận ra với một sự kinh hoàng là như sau: bạn phải làm cái công việc mà người săn đuổi bạn ít trông chờ nhất: nhưng bất cứ cái gì bạn cho là bà ta ít hy vọng nhất thì tự nhiên cái đó bà ta lại hy vọng nhất. Dường như bạn đã bị rơi vào một cái bẫy tình huống không thể quyết định được. Toàn bộ những gì an ủi bạn chỉ là một chút xíu: ở bờ sông bên kia người săn đuổi bạn cũng bị mắc chính vào cái bẫy khó xử đó, không thể quyết định được nên đợi ở cây cầu nào,vì ngay khi bà ta hình dung phải đợi ở cây cầu này thì bà ta lại nhận ra rằng nếu bà ta có thể tìm ra một lý do tốt hơn để chọn được một cây cầu, thì bạn có thể đoán trước được đúng cái lý do đó và để rồi lại tránh bà ta.
Từ kinh nghiệm chúng ta biết được rằng trong các tình huống như thế này, người ta không phải luôn luôn chịu đựng và run sợ vĩnh viễn trong những vòng tròn. Dưới đây chúng ta sẽ thấy có một giải pháp duy lý đó là một hành động duy lý nhất – có sẵn cho cả hai người chơi. Tuy nhiên cho đến những năm 1940s vẫn chưa có nhà triết học hay nhà kinh tế nào biết cách phát hiện ra nó bằng các thuật toán. Kết quả là các nhà kinh tế học buộc phải xử lý các tác động phi-tham số hệt như chúng là những biến tướng của các tác động tham số vậy. Điều này có vẻ như tác động mạnh vào độc giả, vì như ví dụ của chúng ta về vấn đề qua cầu để muốn chỉ ra những đặc trưng phi tham số thường là những đặc trưng cơ bản của các vấn đề ra quyết định.  Một phần của lý giải này cho việc tiếp cận tương đối muộn của lý thuyết trò chơi đối với các lĩnh vực nằm trong các vấn đề mà các nhà kinh tế đã quan tâm về phương diện lịch sử. Các nhà kinh tế học cổ điển như Adam Smith và David Ricardo, chủ yếu quan tâm đến vấn đề các tác nhân trong các thị trường rộng lớn – toàn bộ các quốc gia – có thể tương tác sao cho nảy sinh ra sự thịnh vượng tiền tệ tối đa cho chính bản thân các quốc gia đó. Hiểu biết cơ bản của Smith, cái hiệu quả đó đã được tối đa hóa bởi các tác nhân tự do tìm kiếm những thương thảo lợi thế chung, trong thế kỷ XX về phương diện toán học là rất đa dạng. Tuy nhiên biểu hiện của sự kiện này lại chỉ nằm ở các điều kiện của “cạnh tranh hoàn hảo”, nghĩa là khi các công ty đối diện với không phải là những khoản chi phí vào hoặc ra đối với các thị trường, khi không có hiệu quả kinh tế một cách qui mô, và khi không có hành động của các tác nhân có những hiệu ứng phụ không định trước đối với sự thịnh vượng của các tác nhân khác. Các nhà kinh tế luôn luôn nhận ra rằng tập tiền đề này thuần túy là một sự lý tưởng hóa vì các mục đích phân tích mà không phải là một thực trạng sự việc mà bất cứ ai cũng có thể cố (hoặc nên cố thử) để đạt tới. Nhưng cho đến khi toán học về lý thuyết trò chơi chín muồi vào gần cuối những năm 1970s thì các nhà kinh tế học đã phải hy vọng rằng một thị trường cànggần giống với một thị trường cạnh tranh hoàn hảo thì nó càng hiệu quả. Tuy nhiên không phải một hy vọng như vậy về phương diện toán học hay logic có thể được minh xác nói chung; thực sự thì như là một sự khái quát hóa chặt chẽ có thể được chứng tỏ là giả.
Bài viết này không phải để nói về những cơ sở của triết học, nhưng việc tìm hiểu về các nguồn gốc và phạm vi của lý thuyết trò chơi lại rất quan trọng để biết được rằng những thị trường cạnh tranh hoàn hảo đã biến chúng thành một đặc điểm miêu tả chúng là nhậy cảm đối với phép phân tích hình tháp. Vì các tác nhân không có cách tiếp cận chi phí đối với thị trường nên họ phải mở cửa hàng ở bất cứ thị trường nhất định nào họ đến khi cạnh tranh biến tất cả các lợi nhuận thành số không. Điều này ẩn ý một khoản tiền thưởng nếu các khoản chi phí và nhu cầu là cố định thì các tác nhân không có sự lựa chọn về vấn đề phải sản xuất bao nhiêu nếu họ cố tối đa hóa các khác biệt giữa chi phí và doanh thu của họ. Các mức sản xuất này có thể được xác định riêng biệt đối với mỗi tác nhân, vậy là không có tác nhân nào cần chú ý đến cái mà những tác nhân khác đang thực hiện; mỗi tác nhân cư xử với các đối tác của mình như là những đặc điểm thụ động của môi trường. Loại tình huống khác mà các phân tích kinh tế cổ diển có thể ứng dụng mà không cần trông cậy vào lý thuyết trò chơi là tình huống độc quyền. Trong trường hợp này hoàn toàn rõ ràng là những xem xét phi tham số phải bỏ dở chừng, vì chỉ có một tác nhân được nghiên cứu. Tuy nhiên kể cả cạnh tranh độc tài lẫn hoàn hảo đều là những sắp xếp thị trường rất đặc biệt và khác thường. Vì vậy, trước khi xuất hiện lý thuyết trò chơi các nhà kinh tế học đã bị giới hạn một cách chặt chẽ vào lớp các trường hợp mà đối với nó họ có thể áp dụng các mô hình của họ một cách gọn gàng.
Các nhà triết học có chung với các nhà kinh tế một mối quan tâm về các điều kiện và kỹ thuật cho việc tối đa hóa phúc lợi của con người. Hơn nữa các nhà triết học lại có mối quan tâm đặc biệt đối với những lý lẽ logic của các hành động, và thông thường các hành động phải được biện hộ bằng cách qui chiếu vào các kết quả đáng mong đợi của chúng. Không có lý thuyết trò chơi tất cả các vấn đề này đều ngược lại với sự phân tích mà bất cứ ở đâu các khía cạnh phi tham số cũng đều thích hợp. Chúng ta sẽ thể hiện điều này một cách vắn tắt bằng cách qui chiếu vào trò chơi nổi tiếng nhất (mặc dù không phải là điển hình nhất), đó là trò chơi Nan đề của hai người tù, và qui chiếu vào những trò chơi điển hình hơn. Bằng cách làm như vậy, chúng ta sẽ cần phải giới thiệu, định nghĩa và minh họa những yếu tố cơ bản và các kỹ thuật của lý thuyết trò chơi. Chúng ta sẽ quay trở lại với vấn đề này ngay dưới đây.
2. Các Định đề của Lý thuyết Trò chơi
 
2.1. Tiện ích
Theo định nghĩa, một tác nhân là một thực thể có các sở thích. Các lý thuyết gia trò chơi, như các nhà kinh tế học và triết học khi nghiên cứu việc ra quyết định, mô tả những sở thích này bằng một phương tiện khái niệm được gọi là tiện ích. Điều này gắn liền với một số “phúc lợi” mà một tác nhân thu được từ một đối tượng hoặc một sự kiện. Bằng khái niệm phúc lợi, chúng tôi muốn nói đến một chỉ số định chuẩn nào đó của tình trạng hạnh phúc tương đối, được biện hộ bởi việc viện tới một khung cơ sở nào đó. Chẳng hạn chúng ta có thể đánh giá phúc lợi tương đối của các nước (mà chúng ta có thể xây dựng mô hình như là một tác nhân cho những mục đích nào đó) bằng cách xem xét các khoản thu nhập tính trên đầu người của họ, và chúng ta có thể đánh giá phúc lợi tương đối của một động vật trong bối cảnh tiên liệu trước và lý giải cấu trúc hành vi của nó, bằng cách xem xét tình trạng sức khỏe đáng mong muốn của nó. Trong trường hợp con người, điển hình nhất là trong kinh tế học và các ứng dụng lý thuyết trò chơi để đánh giá phúc lợi tương đối của họ bằng cách xem xét những phán đoán ẩn hoặc hiện về nó. Vì vậy một người rất mê vị của các loại dưa chua, nhưng lại không thích hành nên kết hợp tiện ích cao hơn với các quốc gia trên thế giới trong đó tất cả mọi thứ khác đều tương đương, ở đó bà ta tiêu thụ nhiều loại dưa chua hơn và ít hành hơn so với các quốc gia mà bà ta tiêu thụ nhiều hành, nhưng lại ít dưa chua hơn. Những ví dụ như vậy gợi ý rằng “tiện ích” bao hàm một cách đo mức độ thực hành tâm lý của chủ thể, và đó thực sự là cách thức lý giải chung (mặc dù không phải luôn luôn như vậy) khái niệm này trước những năm 1930s. Tuy nhiên trong thập kỷ này các nhà kinh tế và các nhà triết học chịu ảnh hưởng của hành vi luận đã phản đối việc sử dụng một cách lý thuyết các thực thể không thể quan sát được là “các thương số thực hành tâm lý”. Vì vậy nhà kinh tế học Paul Samuelson (1938) đã bắt đầu định nghĩa tiện ích với tư cách là một khái niệm thuần túy kỹ thuật. Tức là khi chúng ta nói rằng một tác nhân hành động sao cho có thể tối đa hóa cái tiện ích của tác nhân đó, chúng tôi muốn nói rằng bằng khái niệm “tiện ích” đơn giản là bất cứ cái gì mà hành vi của tác nhân gợi lên cho mình khiến cho tác nhân đó mong muốn một cách thích hợp. Các lý thuyết gia theo Samuelson có ý định tuyên bố “các tác nhân hành động sao cho có thể tối đa hóa tiện ích của họ” như một lặp thừa. Giống như những phép lặp thừa khác đang xuất hiện trong các cơ sở của các lý thuyết khoa học, nó là hữu dụng không phải tự thân nó, mà vì nó giúp cố định các ngữ cảnh của chúng ta về vấn đề đặt ra.
Mặc dù chúng ta có thể không còn bị ảnh hưởng bởi những đắn đo cân nhắc xuất phát từ hành vi luận tâm lý, thì nhiều lý thuyết gia vẫn tiếp tục theo cách của Samuelson trong việc tìm hiểu tiện ích vì họ nghĩ nó quan trọng đến mức là lý thuyết trò chơi áp dụng vào bất cứ tác nhân nào – một con người, một con ong, một công ty, hoặc một quốc gia – và không chỉ vào các tác nhân có tư duy của con người. Khi những lý thuyết gia ấy nói rằng các tác nhân hành động sao cho có thể tối đa hóa tiện ích của họ thì có nghĩa là họ muốn điều này trở thành một bộ phận của cái định nghĩa về một tác nhân, mà không phải là một khẳng định về những tình trạng và động cơ khả thể bên trong. Quan niệm của Samuelson về tiện ích được định nghiã theo cách của Thuyết ưa chuộng bộc lộ (RPT – Revealed Preference Theory) được đưa ra trong một bài viết kinh điển của ông (Samuelson 1938) đã thỏa mãn được yêu cầu này. Một số lý thuyết gia khác hiểu về lý thuyết trò chơi theo những cách khác nhau. Họ nhìn lý thuyết trò chơi như là một nguồn cung cấp một cách lý giải về sự suy lý chiến lược. Vì tư tưởng này có thể áp dụng nên chúng tôi phải giả định rằng các tác nhân đôi khi ít nhất cũng làm cái điều mà họ làm trong những môi trường phi tham số logic lý thuyết trò chơi khuyến cáo về bất cứ một hành động nào với tư cách là những hành động duy lý. Vẫn có một số lý thuyết gia giải thích lý thuyết trò chơi theo cách định chuẩn, khi khuyên các tác nhân cần làm gì trong các bối cảnh chiến lược để họ có thể tối đa hóa tiện ích của mình. Rất may cho các mục đích của chúng ta là toàn bộ những cách suy nghĩ như vậy về những cách có thể sử dụng lý thuyết trò chơi đều tương hợp với sự giải thích theo phép lặp thừa về việc tối đa hóa các tiện ích. Tuy nhiên những khác biệt triết học không phải là vô ích nhìn từ quan điểm của một lý thuyết gia trò chơi đang thao tác. Như chúng ta sẽ thấy trong phần dưới đây, những ai hy vọng sử dụng lý thuyết trò chơi để lý giải sự suy lý chiến lược khi đối diện với mộthành vi chiến lược duy nhất lại phải đương đầu với một số vấn đề thực tiễn và triết học đặc biệt.
Vì lý thuyết trò chơi liên quan đến sự suy lý hình thức nên chúng ta phải có một phương cách tư duy về sự tối đa hóa các tiện ích bằng các thuật ngữ toán học. Phương cách như vậy được gọi là hàm tiện ích. Bản đồ tiện ích cho một tác nhân được gọi là một “hàm” vì nó mô tả những sở thích theo trật tự những con số thực. Giả sử tác nhân x thích chùm a trên chùm b và chùm b trên chùm c. Sau đó chúng ta vẽ bản đồ các chùm này theo một trật tự các con số, mà ở đó hàm mô tả chùm có trật tự cao nhất lên trên con số lớn nhất trong trật tự, chùm cao thứ hai lên trên con số lớn nhất tiếp theo trong trật tự, vv…, vậy là
Chùm a >>3
Chùm b >>2
Chùm c >>1
Thuộc tính duy nhất được mô tả bằng hàm này là trật tự. Giá trị tuyệt đối của những con số này là không liên quan; có nghĩa là người ta nhất định không thể suy luận được rằng x nhận được tiện ích nhiều tới 3 lần từ chùm acũng như bà ta đã nhận được từ chùm c. Vì vậy chúng ta có thể thể hiện một cách chính xác cùng một hàm tiện ích như ở trên bằng
Chùm a >>7,326
Chùm b>>12.6
Chùm c>>1,000,000
Vì vậy những con số mô tả đặc điểm trong một hàm tiện ích theo thứ tự không đo đếm bất cứ một định lượng của bất cứ cái gì cả. Một hàm tiện ích trong đó các giá trị tuyệt đối tạo ra vấn đề thì được gọi là hàm “bản số”. Bất cứ khi nào một ai đó qui chiếu vào một hàm bản số mà không xác định muốn đề cập đến loại nào thì bạn có thể cho rằng đó là dãy số thứ tự. Đó chính là loại mà chúng ta cần, một tập trò chơi đầu tiên mà chúng ta xem xét. Sau đó, khi chúng ta bắt đầu xem phải giải quyết những trò chơi ngẫu nhiên hóa này như thế nào – trò chơi qua sông của chúng ta ở Phần I ở trên chẳng hạn – chúng ta sẽ cần phải xây dựng các hàm tiện ích bản số. Kỹ thuật để thực hiện trò chơi này đã được von Neumann & Morgenstern (1947) đưa ra và là một thuộc tính thiết yếu của sự can thiệp trong lý thuyết trò chơi của họ. Tuy nhiên trong lúc này chúng ta chỉ cần các hàm thứ tự mà thôi.
2.2. Trò chơi và Thông tin
 
Toàn bộ các trạng huống trong đó ít nhất là một tác nhân có thể hành động đơn độc để tối đa hóa tiện ích của ông ta thông qua việc đoán biết trước (có thể có ý thức hoặc vô thức trong hành vi của ông ta) thì những phản ứng đối với hành động của ông ta bởi một hoặc nhiều tác nhân khác được gọi là một trò chơi. Các tác nhân tham gia vào trò chơi được gọi là các tay chơi. Nếu tất cả các tác nhân đều có những hành động tối ưu bất chấp cái mà tác nhân khác thực hiện như trong các tình huống hoặc điều kiện thuần túy tham số của sự độc quyền hoặc cạnh tranh hoàn hảo (xem phần 1 ở trên) thì chúng ta có thể xây dựng mô hình này mà không cần viện đến lý thuyết trò chơi; nếu không thì chúng ta lại cần tới nó.
Chúng ta cho rằng các tay chơi là những người duy lý về phương diện kinh tế. Có nghĩa là một tay chơi có thể (i) đánh giá các kết quả, (ii) tính toán các con đường để đến được với các kết quả; và (iii) chọn các hành động để đạt được những kết quả ưa thích nhất, những hành động nhất định của các tay chơi khác. Trong một vài trường hợp, tính duy lý này có thể được tác nhân tự tính toán. Trong những trường hợp khác, nó đơn giản được bao hàm trong những cấu trúc hành vi được tạo dựng bởi sự chọn lọc kinh tế, văn hóa hoặc tự nhiên. Đặc biệt, trong khi tìm kiếm một hành động “được lựa chọn” chúng tôi ngụ ý về một sự thận trọng không cần thiết, dù có ý thức hay không. Chúng tôi chỉ muốn nói rằng hành động đó được thực hiện khi có sẵn một hành động thay thế, theo một nghĩa nào đó của từ “có sẵn” được thiết lập một cách chính thường bởi bối cảnh của sự phân tích đặc biệt. Trong một trò chơi mỗi tay chơi đối diện với một lựa chọn giữa hai hay nhiều chiến lược khả dĩ hơn. Một chiến lược là một “chương trình chơi” được quyết định trước, chương trình đó nói với tay chơi cần phải thực hiện hành động nào để đáp trả mỗi chiến lược có thể mà tay chơi kia sử dụng. Ý nghĩa của cụm từ in nghiêng trên đây sẽ trở nên rõ ràng khi chúng ta đưa ra một số mẫu trò chơi dưới đây.
Một khía cạnh quyết định của việc xác định một trò chơi liên quan đến thông tin mà các tay chơi có khi họ lựa chọn các chiến lược. Những trò chơi đơn giản nhất (theo quan điểm cấu trúc logic) là những trò chơi mà các tác nhân có một nguồn thông tin hoàn hảo, có nghĩa là tại mỗi điểm, mỗi chiến lược của tác nhân nói cho tác nhân biết cần phải hành động, tác nhân đó biết mọi thứ xảy ra trong trò chơi cho đến thời điểm đó. Một trò chơi lớn tiếp theo trong đó tất cả các tay chơi đều quan sát toàn bộ hành động (và biết các luật chơi chung), chẳng hạn như luật chơi cờ, là một ví dụ về một trò chơi như vậy. Ngược lại, ví dụ về trò chơi qua cầu ở phần I đã minh họa một trò chơi có thông tin hoàn hảo, vì người trốn chạy phải chọn một chiếc cầu để qua mà không biết rằng chiếc cầu nào có người săn đuổi đang vác súng đợi anh ta ở đó, cũng tương tự như vậy, người săn đuổi thực hiện các quyết định mà không hề biết các động thái đá rơi ở mỏ đá. Vì lý thuyết trò chơi đề cập đến các hành động duy lý mà những hành động nhất định có ý nghĩa chiến lược của những tác nhân khác, bạn sẽ không ngạc nhiên khi người ta nói rằng cái mà các tác nhân trong trò chơi biết hoặc không biết, về mỗi hành động của tác nhân khác tạo ra một sự khác biệt đối với logic của các phân tích của chúng ta như chúng ta sẽ thấy dưới đây.
 
2.3. Hình cây và Ma trận
Sự khác biệt giữa các trò chơi có thông tin hoàn hảo và không hoàn hảo gắn liền với (mặc dù chắn chắn không giống hệt) sự khác biệt giữa những cách thể hiện các trò chơi dựa trên trật tự của trò chơi. Chúng ta hãy bắt đầu bằng cách phân biệt giữa những trò chơi vận động đồng thời và vận động theo trật tự trong khuôn khổ thông tin. Cũng rất tự nhiên khi chúng ta nghĩ về những trò chơi vận động theo trật tự là những trò chơi mà trong đó các tay chơi lựa chọn các chiến lược của họ theo thứ tự, và nghĩ về những trò chơi vận động đồng thời mà trong đó các tay chơi lựa chọn các chiến lược cùng một lúc. Tuy nhiên điều này không hoàn toàn đúng vì cái có tầm quan trọng chiến lược thì về bản chất lại không phải là trật tự thời gian của các sự kiện, nhưng liệu có phải, và khi nào thì các tay chơi biết về các hành động của những tay chơi khác liên quan đến việc lựa chọn của riêng họ. Chẳng hạn nếu hai doanh nghiệp cạnh tranh đều đang xây dựng kế hoạch các chiến dịch marketing thì một doanh nghiệp có thể cam kết với chiến lược của nó nhiều tháng trước khi doanh nghiệp kia thực hiện; nhưng nếu doanh nghiệp này không biết doanh nghiệp kia cam kết hoặc sẽ cam kết cái gì khi họ ra các quyết định thì đó là một trò chơi vận động đồng thời. Ngược lại cờ tướng thường được chơi một cách chính thường như một trò chơi vận động theo trình tự: bạn thấy hết nhưng gì mà đối thủ của bạn đã thực hiện trước khi bạn lựa chọn hành động tiếp theo của mình. (Đánh cờ có thể trở thành một trò chơi vận động đồng thời nếu như mỗi tay chơi đưa ra một vận động trên một bàn cờ chung; nhưng đây là một trò rất khó đối với cách chơi cờ truyền thống).
Như đã nói ở trên, sự khác biệt giữa những trò chơi vận động đồng thời và những trò chơi vận động theo thứ tự không hoàn toàn giống với sự khác biệt giữa các trò chơi có thông tin hoàn hảo hay không hoàn hảo. Việc lý giải tại sao điều này lại là như vậy là một việc rất thú vị trong cách tạo lập được một sự hiểu biết đầy đủ về tất cả các tập khái niệm đó. Vì các trò chơi vận động đồng thời được xác định đặc trưng ở đọan trước nên sự thật là toàn bộ những trò chơi vận động đồng thời là những trò chơi thuộc loại thông tin không hoàn hảo. Tuy nhiên một số trò chơi lại có thể bao gồm cả vận động đồng thời lẫn vận động theo thứ tự. Chẳng hạn hai công ty có thể cam kết thực hiện các chiến lược marketing của họ một cách độc lập và bí mật đối với nhau, nhưng sau đó họ lại cam kết cạnh tranh giá cả một cách công khai với nhau. Nếu các chiến lược marketing tối ưu phụ thuộc một cách bộ phận hoặc toàn thể vào cái hy vọng sẽ xảy ra trong trò chơi giá cả tiếp theo thì cần phải phân tích hai giai đoạn như là một trò chơi độc lập trong đó một giai đoạn chơi theo thứ tự tiếp theo bằng một giai đoạn chơi đồng thời. Toàn bộ các trò chơi liên quan đến các giai đoạn hỗn hợp như vậy là những trò chơi thuộc loại thông tin không hoàn hảo, tuy nhiên chúng cũng có thể được phân đọan một cách tạm thời. Các trò chơi thuộc loại thông tin không hoàn hảo (như tên gọi đã ẩn ý) thể hiện những trường hợp trong đó không có vận động nào là đồng thời (và ở đó không có tay chơi nào đã từng quên cái diễn ra trước đó).
Như đã nói ở trên, các trò chơi thuộc loại thông tin hoàn hảo về mặt logic là loại trò chơi đơn giản nhất. Nó là đơn giản nhất bởi vì trong các trò chơi đó (chừng nào các trò chơi kết thúc, tức là hoàn thành sau một số hành động đã biết) những tay chơi và các nhà phân tích có thể sử dụng một thủ tục minh bạch để dự đoán kết quả. Trong một trò chơi như vậy, một tay chơi duy lý chọn hành động đầu tiên của bà ta bằng cách suy tính mỗi loạt phản ứng và những loạt phản ứng lại xuất hiện từ mỗi hành động mở đối với bà ta. Sau đó bà ta tự hỏi mình xem những kết quả cuối cùng nào sẽ đem lại cho bà ta tiện ích cao nhất, và lựa chọn hành động bắt đầu chuỗi dẫn đến kết quả. Quá trình này được gọi là qui nạp ngược (vì sự suy lý diễn ra ngược lại từ các kết quả cuối cùng đến những vấn đề quyết định hiện tại).
Chúng ta cần phải dừng lại lâu hơn với vấn đề qui nạp ngược và những thuộc tính của nó trong phần sau (khi chúng ta bắt đầu thảo luận về sự cân bằng và những chọn lựa cân bằng). Đến đây chúng tôi đã mô tả nó theo trật tự để sử dụng nó nhằm giới thiệu một trong hai loại đối tượng toán học được sử dụng để thể hiện các trò chơi:cây trò chơi. Một cây trò chơi là một ví dụ về cái mà các nhà toán học gọi là một đồ hình có hướng. Đó là một tập các nút liên thông từ đỉnh trang đến đáy hoặc từ bên trái sang bên phải. Trong trường hợp thứ nhất các điểm nút ở đỉnh trang được lý giải là xuất hiện sớm hơn trong chuỗi hành động. Trong trường hợp của một cây được vẽ từ trái qua phải thì các nút phía trái xuất hiện trước trong chuỗi rồi đến các nút phía phải. Một cây không dán nhãn có cấu trúc kiểu loại sau:
Hình 1
Vấn đề thể hiện trò chơi bằng cách sử dụng hình cây có thể được hiểu một cách dễ dàng nhất bằng việc hiển thị cách sử dụng chúng trong việc trợ giúp sự suy lý qui nạp ngược. Hãy tưởng tượng một tay chơi (hay một nhà phân tích) bắt đầu ở cuối của cái cây, nơi đó các kết quả được hiển thị và sau đó hành động ngược trở lại từ đó bằng cách tìm kiếm các tập chiến lược mô tả tuyến đường dẫn đến các kết quả đó. Vì một hàm tiện ích của người chơi chỉ rõ những kết quả nào bà ta ưa thích hơn, chúng ta có thể biết con đường nào bà ta sẽ thích hơn. Tất nhiên không phải tất cả các đường dẫn sẽ đều khả thể vì một tay chơi khác cũng có vai trò chọn lựa những đường dẫn và sẽ không thực hiện các hành động dẫn đến những kết quả ít được ưa thích hơn đối với ông ta. Chúng ta sẽ đưa ra một số ví dụ về việc lựa chọn đường dẫn tương tác này, và các kỹ thuật chi tiết cho việc suy lý cho chúng, sau khi chúng ta đã mô tả một tình huống có thể sử dụng một cái cây để mô tả.
Những hình cây được sử dụng để thể hiện các trò chơi theo trật tự, vì chúng chỉ ra cái trật tự trong đó các hành động được những người chơi thực hiện. Tuy nhiên các trò chơi đôi khi cũng được thể hiện bằng các Ma trận chứ không phải là những hình cây. Đây là loại đối tượng toán thứ hai được sử dụng để thể hiện các trò chơi. Các ma trận không giống với những hình cây đơn giản chỉ ra các kết quả, được thể hiện trong các thuật ngữ của những hàm tiện ích của người chơi mà đối với mỗi kết hợp chiến lược khả thể tay chơi có thể phải sử dụng. Chẳng hạn có thể tạo thành ý nghĩa để hiển thị trò chơi qua sông trong phần I trên một ma trận, vì trong trò chơi này cả người chạy trốn lẫn kẻ truy đuổi đều chỉ có một vận động và mỗi người lựa chọn vận động của họ mà không hề biết người kia lựa chọn vận động nào. Vậy thì ở đây là phần của ma trận:
Hình 2
Chú thích hình 2:
–                      Cobra Bridge               = cầu có rắn hổ mang
–                      Rocky Bridge   = cầu có đá rơi
–                      Safe Bridge     = cầu an toàn
–                      Fugitive                      = kẻ chạy trốn
–                      Hunter              = người săn
 
Ba chiến lược khả thể của người chạy – qua chiếc cầu an toàn, những tảng đá có nguy cơ bị rơi và nguy cơ gặp rắn hổ mang – tạo thành các hàng của ma trận. Tương tự như vậy ba chiến lược khả thể của người săn đuổi – đợi ở chiếc cầu an toàn, đợi ở chiếc cầu có đá rơi, và đợi ở chiếc cầu có rắn hổ mang – tạo thành cột của ma trận. Mỗi ô của ma trận chỉ rõ hoặc sẽ chỉ rõ nếu ma trận của chúng ta hoàn thiện – một kết quả được xác định trong khuôn khổ những khoản được trả của người chơi. Một khoản được trả của người chơi đơn giản là một con số được ấn định bởi hàm tiện ích thứ tự của bà săn đuổi cho hiện trạng của các sự kiện phù hợp với kết quả. Đối với mỗi kết quả, khoản được trả của Hàng luôn luôn được kê trước hết, sau đó đến khoản được trả của Cột. Vì vậy chẳng hạn như góc trái ở trên cùng cho thấy rằng khi người chạy trốn đi qua chiếc cầu an toàn còn người săn đuổi cũng đang chờ ở đó thì người chạy trốn nhận được một khoản được trả bằng 0, và người săn đuổi nhận được khoản được trả bằng 1. Chúng ta lý giải điều này bằng cách qui chiếu vào hàm tiện ích của họ mà trong cuộc chơi này là rất đơn giản. Nếu người chạy trốn qua sông được an toàn thì anh ta nhận được một khoản được trả là 1; nếu không an toàn thì anh ta được 0. Nếu người chạy trốn không thực hiện được vì anh ta bị bắn hoặc bị đá rơi vào hoặc bị rắn hổ mang tấn công thì người săn đuổi nhận được khoản được trả là 1 và người chạy trốn là 0.
Chúng tôi sẽ giải thích vắn tắt các phần của ma trận đã được ghi số, và sau đó nói rõ tại sao chúng ta vẫn không thể hoàn thiện được các ô còn lại. Bất cứ khi nào người săn đuổi đợi ở chiếc cầu mà người chạy trốn lựa chọn thì người chạy trốn sẽ bị bắn. Tất cả những kết quả này tạo ra vector của khoản được trả là (0, 1). Bạn có thể tìm ra chúng bằng cách vạch chéo xuống qua ma trận từ góc phía trên bên trái xuống. Bất cứ khi nào mà người bỏ trốn chọn chiếc cầu an toàn nhưng người săn đuổi lại đợi ở chỗ khác thì người chạy trốn qua sông được an toàn, bằng cách nhận được khoản được trả theo vector (1, 0). Hai kết quả này được chỉ rõ trong hai ô thứ hai của hàng đầu. Đến lúc này toàn bộ những ô còn lại được đánh dấu bằng dấu hỏi. Tại sao? Vấn đề ở đây là nếu người bỏ trốn qua sông ở chỗ cây cầu đá rơi hoặc chỗ cây cầu có rắn hổ mang thì anh ta đã đưa các yếu tố tham số vào trò chơi. Trong những trường hợp này anh ta đã hứng lấy rủi ro bị giết, và vì vậy mà tạo ra vector khoản được trả là (0, 1), có nghĩa là độc lập với bất cứ cái gì người săn đuổi làm. Chúng ta vẫn chưa giới thiệu đủ khái niệm để có thể chỉ rõ phương thức thể hiện các kết quả này như thế nào trong khuôn khổ của các hàm tiện ích – nhưng đã đến lúc chúng ta phải kết thúc cái điều mình cần kết thúc và điều đó sẽ cung cấp cho ta chiếc chìa khóa để giải vấn đề rắc rối ở phần I.
Các trò chơi ma trận được qui vào những trò chơi “dạng – chiến lược” hay “dạng – thông thường”, và các trò chơi như những hình cây được qui vào “dạng- mở rộng”. Hai loại trò chơi ấy không tương đương với nhau, vì những trò chơi dạng mở rộng bao gồm thông tin – về những trật tự chơi và các cấp độ thông tin về cấu trúc trò chơi của tay chơi – các trò chơi dạng chiến lược lại không có. Nhìn chung một trò chơi dạng chiến lược có thể thể hiện bất cứ một vài dạng trò chơi mở rộng nào, vì vậy một trò chơi dạng chiến lược được coi là một tập trò chơi mở rộng tốt nhất. Khi trật tự của trò chơi không liên quan đến một kết quả của trò chơi thì bạn nên nghiên cứu dạng chiến lược của nó, vì đó là toàn bộ cả tập mà bạn muốn biết về nó. Chỗ nào mà trật tự của trò chơi có liên quan thì dạng mở rộng của nó phải được xác định hoặc các kết luận của bạn sẽ không đáng tin cậy.
 
2.4. Nan đề người tù như là một ví dụ về dạng chiến lược
Những khác biệt được mô tả ở trên sẽ khó nắm bắt được đầy đủ nếu tất cả những gì mà người ta phải làm là những mô tả trừu tượng. Chúng được minh họa tốt nhất bằng một ví dụ. Với mục đích này chúng ta sẽ sử dụng trò chơi nổi tiếng nhất: trò chơi PD [Nan đề của người tù]. Nó thực sự cho chúng ta một logic về vấn đề mà những người lính của Cortez và của Henry V phải đối mặt, và kể cả các tác nhân của Hobbes cũng vậy trước khi họ tăng cường tính chuyên chế. (Phần I ở trên). Tuy nhiên đối với những lý do sẽ được làm rõ ngay dưới đây, bạn sẽ không coi PD  như là một trò chơi điển hình; nó không hề điển hình. Chúng tôi sử dụng nó như một ví dụ mở rộng chỉ vì nó đặc biệt hữu ích cho việc minh họa mối quan hệ giữa các trò chơi loại hình chiến lược và những trò chơi loại hình mở rộng (và sau đó để minh họa cho các mối quan hệ giữa các trò chơi duy nhất một lần và được lặp lại; xem Phần 4 dưới đây).
Tên của trò chơi nan đề người tù được bắt nguồn từ tình huống sau điển hình được sử dụng để làm thí dụ cho nó. Giả sử viên cảnh sát đã bắt hai người mà họ biết là có tham gia vào một vụ cướp có vũ khí. Nhưng không may họ lại thiếu bằng chứng có thể chấp nhận một cách đầy đủ để thành lập một ban hội thẩm để xử án. Tuy nhiên họ lạicó đủ bằng chứng để bắt những người tù này trong hai năm vì tội ăn trộm xe ô tô để chạy trốn. Giờ đây chánh thanh tra thực hiện một đề nghị như sau đối với mỗi người tù: nếu anh nhận tôi ăn cướp khi dính líu đến cả người cùng hành động với anh , mà cô ta lại không nhận thì anh sẽ được tự do, còn cô ta sẽ phải chịu 10 năm tù. Nếu cả hai cùng nhận tội thì anh sẽ phải chịu 5 năm tù. Nếu cả hai không nhận tội thì mỗi người sẽ phải chịu 2 năm vì tội ăn trộm xe. Bước đầu tiên chúng ta cần lên mô hình tình huống của bạn với tư cách một trò chơi là thể hiện nó dưới dạng các hàm tiện ích. Cả bạn và các hàm tiện ích của đối tác của bạn là giống hệt như nhau:
Được thả >>4
2 năm tù >>3
5 năm tù >>2
10 năm tù >> 0
Các con số trong hàm trên giờ đây được sử dụng để thể hiện cái khoản phải trả của đối tác của bạn bằng những kết quả khác nhau có thể xảy ra đối với tình huống của bạn. Chúng ta sẽ coi bạn là “Người chơi I” và đối tác của bạn là “người chơi II”. Giờ đây chúng ta có thể thể hiện toàn bộ tình huống trên một ma trận; đây là loại hình chiến lược trong trò chơi của bạn.
Hình 3
Chú thích hình 3:
–                      Confess            = thú tội
–                      Refuse             = từ chối
–                      Player              = người chơi
Mỗi ô của ma trận để ghi những khoản phải trả cho cả hai người chơi đối với mỗi kết hợp các hành động. Khoản phải trả của người chơi I thể hiện bằng số đầu tiên của mỗi cặp; người chơi II là số thứ hai. Vì vậy nếu cả hai đều nhận tội thì mỗi người nhận được một khoản phải trả là 2 (năm 5 tù cho mỗi người). Điều này thể hiện trong ô phía trên, bên trái. Nếu cả hai người đều nhận tội thì mỗi người nhận được khoản phải trả là 3 (mỗi người 2 năm tù). Điều này được thể hiện ở ô thấp bên phải. Nếu bạn nhận tội và đối tác của bạn không nhận thì bạn sẽ nhận được khoản phải trả là 4 (được trả tự do) và cô ta sẽ nhận được một khoản phải trả là 0 (10 năm tù). Điều này được thể hiện ở ô phía trên, bên phải. Tình huống đảo ngược khi cô ta nhận tội còn bạn thì từ chối, thể hiện ở ô thấp bên trái.
Bạn đánh giá hai hành động khả thể của mình bằng cách so sánh những khoản phải trả của bạn trong mỗi cột, vì điều này sẽ chỉ cho bạn thấy những hành động nào của bạn được ưa thích đối với mỗi hành động có thể mà đối tác của bạn sẽ thực hiện. Vì vậy hãy quan sát: nếu đối tác của bạn nhận tội thì bạn sẽ nhận một khoản phai trả là 2 bằng cách nhận tội và một khoản phải trả là 0 bằng cách từ chối. Nếu đối tác của bạn từ chối bạn sẽ nhận một khoản phải trả là 4 bằng cách nhận tội và một khoản phải trả là 3 bằng cách từ chối.
Vì vậy tốt hơn hết là bạn nhận tội bất kể cô ta hành động như thế nào. Trong khi đó đối tác của bạn đánh giá các hành động của cô ta bằng cách so sánh các khoản phải trả của cô ta dưới mỗi hàng, và cô ta bắt đầu đi tới cùng một kết luận hệt như bạn. Bất cứ ở đâu một hành động cho một người chơi đều được xếp cao hơn so với những hành động khác của cô ta cho mỗi hành động có thể bởi đối phương thì chúng ta nói rằng hành động đầu tiênthống trị một cách nghiêm nhặt hành động thứ hai. Vậy thì trong trò chơi PD, hành động nhận tội thống trị một cách nghiêm nhặt hành động chối tội đối với cả hai người chơi. Cả hai người chơi đều biết tình huống này đối với người kia, vì vậy việc hoàn toàn bỏ đi bất cứ sự cám dỗ nào đi trệch khỏi con đường thống trị một cách nghiêm nhặt. Vì vậy cả hai người chơi sẽ đều nhận tội, và cả hai sẽ đều ngồi tù 5 năm.
Những người chơi và các nhà phân tích có thể dự đoán được kết quả này bằng cách sử dụng một thủ tục cơ giới, gọi là sự loại bỏ lặp lại các chiến lược thống trị nghiêm nhặt. Bạn với tư cách là người chơi I có thể thấy bằng cách xem xét cái ma trận mà những khoản phải trả của bạn trong mỗi ô của hàng trên cùng là cao hơn những khoản phải trả của bạn trong mỗi ô tương ứng của hàng dưới cùng. Vì vậy có thể là không bao giờ duy lý đối với bạn để thực hiện cái chiến lược hàng dưới cùng của bạn, tức là từ chối nhận tội, bất kể đối tác của bạn làm gì. Vì chiến lược hàng đáy của bạn sẽ không bao giờ được chơi nên cách đơn giản nhất đối với chúng ta là bỏ hàng đáy khỏi ma trận. Giờ đây rõ ràng là người chơi thứ hai sẽ không từ chối nhận tội vì cái khoản phải trả từ sự từ chối của ông ta trong hai ô vẫn cao hơn khoản phải trả vì chối tội. Vì vậy một lần nữa chúng ta lại có thể xóa bỏ cột một ô ở bên phải khỏi ma trận trò chơi. Giờ đây chúng ta chỉ còn một ô tương ứng với kết quả nảy sinh bởi cả hai cùng nhận tội. Khi sự suy lý dẫn chúng ta tới xóa bỏ toàn bộ những kết quả có thể khác, ở mỗi bước chỉ tùy thuộc vào cái tiên đề là cả hai người chơi đều duy lý về phương diện kinh tế – nghĩa là cả hai đều thích những khoản trả cao hơn cho những kết quả thấp hơn – có những cơ sở rất chắc chắn cho việc coi hành động cùng nhận tội là giải pháp đối với trò chơi, mà kết quả trò chơi phải hội tụ vào nó. Bạn nên lưu ý rằng cái trật tự mà trong đó các hàng và các cột thống trị một cách nghiêm nhặt bị xóa đi là không có vấn đề gì. Chúng ta đã bắt đầu bằng việc xóa cột tay phải và sau đó xóa hàng đáy thì chúng ta sẽ đạt tới được cùng một giải pháp.
Điều đó nói lên rằng một cặp số lần mà trò chơi PD không phải là một trò chơi điển hình theo nhiều phương diện. Một trong những phương diện này là ở chỗ tất cả các hàng và các cột đều được thống trị một cách nghiêm nhặt, và là những hàng và cột thống trị một cách nghiêm nhặt. Trong bất cứ trò chơi loại hình chiến lược nào mà ở đó điều này là thật thì sự xóa bỏ lặp lại của các chiến lược thống trị được đảm bảo để đạt được một giải pháp duy nhất. Tuy nhiên sau đó chúng ta sẽ thấy rằng đối với nhiều trò chơi thì điều kiện này không áp dụng được, vậy thì nhiệm vụ phân tích của chúng ta là ít tính minh bạch.
Có lẽ bạn đã nhận thấy một điều gì đó bối rối về kết quả của trò chơi PD. Cả hai người bạn đã từ chối nhận tội thì bạn sẽ đạt tới một kết quả ô bên phải phía dưới trong đó mỗi người chỉ đi tù hai năm, do đó cả hai khi đạt được tiện ích cao hơn bạn nhận được khi nhận tội. Đây là sự kiện quan trọng nhất về trò chơi PD, và ý nghĩa của nó đối với lý thuyết trò chơi là hoàn toàn tổng quát. Vì vậy chúng ta sẽ còn tiếp tục đề cập đến nó dưới đây khi chúng ta thảo luận về những khái niệm cân bằng trong lý thuyết trò chơi. Còn bây giờ chúng ta vẫn cần phải tiếp tục dừng lại ở việc sử dụng trò chơi đặc biệt này để minh họa cho sự khác biệt giữa các loại hình chiến lược và mở rộng.
Khi người ta đưa trò chơi PD vào các thảo luận đặc biệt thì đôi khi bạn sẽ nghe thấy người ta nói rằng thanh tra cảnh sát cần nhốt những người tù vào những phòng khác nhau để cho họ không thể giao tiếp với nhau. Việc suy lý đàng sau ý tưởng này dường như đã rõ ràng, nếu bạn có thể giao tiếp thì chắn chắn bạn sẽ thấy rằng tốt hơn hết là cả hai đều chối tội, và họ có thể thỏa thuận với nhau để làm điều đó được không? Điều này, người ta có thể đoán chừng là, sẽ gỡ bỏ việc thú tội của bạn là thứ mà bạn phải nhận vì đàng nào thì bạn cũngđược đối tác của mình nhường sạch toàn bộ con sông. Tuy nhiên thực tế thì cái cảm nhận này là sai lầm và kết luận của nó là giả.
Khi chúng ta thể hiện trò chơi PD như một trò chơi dạng chiến lược, thì có nghĩa là chúng ta đã ngầm tuyên bố rằng những người tù không thể cố gắng thỏa thuận theo kiểu thông đồng vì họ chọn các hành động của họ một cách đồng thời. Trong trường hợp này việc thỏa thuận trước sự kiện đó là không thể. Nếu bạn được thuyết phục rằng đối tác của bạn sẽ gắn kết với việc mặc cả thì bạn có thể nắm bắt được cơ hội để không phải trả giá bằng việc nhận tội. Tất nhiên bạn nhận ra rằng sự cám dỗ sẽ đến với cô ta, nhưng trong trường hợp đó bạn lại muốn đảm bảo rằng bạn thú tội, vì đó chỉ là cái cách của bạn để tránh những kết quả xấu nhất. Thỏa thuận của bạn trở nên vô tích sự vì bạn không có cách gì để biến nó thành hiệu lực; nó tạo ra cái mà các nhà lý thuyết trò chơi gọi là “chuyện vặt”.
Nhưng bây giờ chúng ta giả sử rằng bạn không vận động đồng thời. Có nghĩa là giả sử rằng một người trong số bạn có thể chọn sau khi quan sát hành động của người kia. Đây là loại tình huống mà người ta nghĩ là phi giao tiếp quan trọng phải có trong đầu. Giờ đây chúng ta có thể thấy rằng đối tác của bạn vẫn kiên định khi nó bắt đầu đối với lựa chọn của bạn, và bạn không cần quan tâm đến việc bị lừa. Tuy nhiên điều đó không thay đổi được gì, một vấn đề được thực hiện tốt nhất bằng việc tái thể hiện trò chơi dưới dạng mở rộng. Điều đó cho chúng ta cơ hội để giới thiệu cây trò chơi và phương pháp phân tích phù hợp với chúng.
Tuy nhiên trước hết đây là những định nghĩa về một số khái niệm sẽ trở nên hữu dụng trong việc phân tích các cây trò chơi;
Điểm nút: là một điểm mà ở đó một người chơi thực hiện một hành động.
Nút khởi đầu: là một điểm mà ở đó hành động đầu tiên trong trò chơi xuất hiện.
Nút đầu cuối: là bất kỳ nút nào nếu đạt tới thì kết thúc trò chơi. Mỗi nút đầu cuối đều tương hợp với một kết quả.
Trò chơi phụ: là bất kỳ tập điểm nút nào và các nhánh chỉ đi xuống từ một nút.
Khoản phải trả: là một số tiện ích trật tự được chỉ định cho một người chơi tại một kết quả.
Kết quả: là việc chỉ định một tập các khỏan phải trả của người này cho người kia trong trò chơi.
Chiến lược: là một chương trình chỉ dẫn cho người chơi cần thực hiện hành động nào trong mỗi điểm nút trong hình cây đó nơi mà cô ta có thể được đề nghị để thực hiện một chọn lựa.
Các định nghĩa nhanh này không thể có quá nhiều ý nghĩa đối với bạn đến khi nào mà chúng được đưa vào sử dụng trong các phân tích của chúng ta về những hình cây ở dưới. Có lẽ sẽ là tốt nhất nếu bạn cuộn ngược và hướng về phía trước giữa chúng và những ví dụ khi chúng ta thực hiện với chúng. Cho đến khi bạn hiểu ra mỗi ví dụ , bạn sẽ phát hiện ra những khái niệm và các định nghĩa về chúng một cách hoàn toàn tự nhiên và trực giác.
Để làm cho bài tập này mang tính chỉ dẫn, chúng ta hãy giả định rằng bạn và đối tác của bạn đã nghiên cứu ma trận trên và khi nhận ra rằng cả hai bạn đều trở nên khá hơn trong kết quả được thể hiện ở ô dưới bên phải đã làm nên một thỏa thuận để hợp tác. Trước hết bạn cam kết vào việc từ chối mà ở điểm đó cô ta sẽ đáp lại. Chúng ta sẽ xem xét một chiến lược giữ vững thỏa thuận như một sự “hợp tác”, và sẽ gộp nó vào trong hình cây phía dưới bằng ký hiệu “C”. Chúng ta sẽ xem xét một chiến lược đột phá vào thỏa thuận đó như một sự “đảo ngũ”, và sẽ đưa nó vào hình cây phía dưới với ký hiệu “D”. Như trước, bạn là I và đối tác của bạn là II. Mỗi nút được đánh số 1,2,3…vv, từ đỉnh đến đáy cho dễ thảo luận. Vậy là ở đây là hình cây:
Hình 4
 
Trước hết hãy nhìn vào mỗi điểm nút đầu cuối (là những nút dọc theo đáy hình). Các nút này thể hiện những kết quả có thể. Mỗi nút được xác định bằng một ấn định khoản phải trả, hệt như trong trò chơi loại hình chiến lược với khoản phải trả của người chơi I thể hiện trức hết trong mỗi tập và người chơi II thể hiện ở tập thứ hai. Mỗi cấu trúc đi xuống từ nút 1, 2 và 3 tương ứng là một trò chơi phụ. Chúng ta bắt đầu việc phân tích qui nạp ngược – bằng cách sử dụng một kỹ thuật được gọi là thuật toán Zermelo –  với các trò chơi phụ xuất hiện cuối cùng trong chuỗi chơi. Nếu trò chơi phụ nghiêng xuống từ nút 3 được chơi thì người chơi II sẽ phải đối mặt với một lựa chọn giữa một khoản phải trả 4 và một khoản phải trả 3. (Tham khảo số thứ hai thể hiện khoản phải trả của cô ta trong mỗi tập ở một nút đầu cuối đi xuống từ nút 3). Người chơi thứ hai thu được một khoản phải trả bởi trò chơi D. Vì vậy chúng ta có thể thay toàn bộ trò chơi nhỏ bằng một chỉ định về khoản phải trả (0,4) trực tiếp cho nút 3, vì đây là kết quả sẽ được thực hiện nếu như trò chơi đạt tới được nút đó. Giờ đây hãy xem trò chơi phụ đi xuống từ nút 2. Trong trường hợp này người chơi II phải đối mặt với khoản phải trả 2 và khoản phải trả 0. Cô ta đạt được khoản phải trả cao hơn của mình là 2 bằng trò chơi D. Vì vậy chúng ta có thể ấn định khoản phải trả (2,2) trực tiếp cho nút 2. Giờ đây chúng ta chuyển đến trò chơi phụ đi xuống từ nút 1.(Trò chơi phụ này tất nhiên hoàn toàn giống với toàn bộ trò chơi; toàn bộ các trò chơi đều là những trò chơi phụ của bản thân chúng). Bạn (người chơi I) giờ đây phải đối mặt với chọn lựa giữa kết quả (2,2) và (0,4). Bằng cách tham khảo những con số đầu tiên trong mỗi tập trò chơi này bạn thấy rằng bạn đã nhận được khoản phải trả cao hơn của mình – 2 – bằng cách chơi D. Tất nhiên D là chọn lựa nhận tội. Vì vậy bạn nhận tội và sau đó đối tác của bạn cũng nhận tội bằng cách nhận được cùng một kết quả như trong sự thể hiện dạng trò chơi chiến lược. Cái đã xảy ra ở đây là bạn nhận ra rằng nếu bạn chơi C (từ chối nhận tội) ở nút 1 thì đối tác của bạn sẽ có thể tối đa hóa tiện ích của cô ta bằng cách lừa gạt bạn và chơi D.(Trên hình cây, điều này xảy ra ở nút 3). Trò chơi này để lại cho bạn khoản phải trả là 0 (10 năm trong tù), là thứ mà bạn có thể tránh chỉ bằng cách bắt đầu chơi D. Vì vậy mà bạn đã từ bỏ thỏa thuận.
Vì vậy chúng ta đã thấy rằng trong trường hợp Nan đề người tù thì những phiên bản theo trật tự thời gian và những phiên bản đồng thời đều đạt được cùng một kết quả. Tuy nhiên điều này thường không phải là thực. Đặc biệt chỉ có những loại trò chơi mở rộng hữu hạn (theo trật tự thời gian) thuộc loại thông tin hoàn hảo mới có thể được giải quyết bằng cách sử dụng thuật toán Zermelo.
Như đã lưu ý từ đầu chương này, đôi khi chúng ta phải thể hiện những vận động đồng thời bên trong các trò chơi theo trật tự thời gian. (Như đã nói ở trên, trong tất cả các trường hợp như vậy thì trò chơi như một tổng thể sẽ thuộc loại thông tin không hoàn hảo, vì vậy chúng ta sẽ không thể giải quyết nó bằng cách sử dụng thuật toán Zermelo). Chúng ta thể hiện những trò chơi như vậy bằng cách sử dụng phương pháp các tập thông tin. Hãy xem hình cây dưới đây:
Hình 5
Hình oval được vạch ra xung quanh các nút b c đã chỉ ra rằng chúng nằm bên trong một tập thông tin chung. Điều ấy có nghĩa là ở các nút này người chơi không thể suy luận ngược trở lại con đường mà từ đó họ xuất phát; trong khi lựa chọn chiến lược của mình, người chơi II không biết liệu cô ta đang ở b hay c. (Vì lý do đó cái chính xác chứa đựng những con số trong các trò chơi dạng mở rộng chính là những tập thông tin, được coi là các “điểm hành động” chứ không phải là bản thân các nút. Vì thế mà các nút bên trong hình oval được dán nhãn bằng các từ chứ không phải bằng các con số). Chúng ta đưa ra một cách khác, người chơi II khi chọn đã không biết cái mà người chơi I đã làm ở nut a. Nhưng bạn sẽ nhớ lại ngay ở đầu chương này đó chỉ là cái xác định hai vận động đồng thời. Vì vậy chúng ta có thể cho rằng phương pháp thể hiện những trò chơi hình cây là hoàn toàn khái quát. Nếu không có nút nào sau nút ban đầu là duy nhất trong một tập thông tin trên hình cây của nó sao cho trò chơi chỉ có một trò chơi phụ (tự thân nó) thì toàn bộ trò chơi là một trò chơi đồng thời. Nếu ít nhất một nút có chung tập thông tin của nó với nút khác, trong khi những nút khác lại đơn độc thì trò chơi liên quan đến cả cách chơi đồng thời lẫn cách chơi theo trật tự., và vì vậy đó vẫn là trò chơi thuộc loại thông tin không hoàn hảo. Chỉ khi toàn bộ các tập thông tin chỉ có duy nhất một nút đóng ở đó thì chúng ta mới thực sự có một trò chơi thuộc loại thông tin hoàn hảo.
 
 
Tác giả: Don Ross là Giáo sư Triết học tại Đại học Alabama ở Birmingham, Giáo sư Kinh tế học tại Đại học Cape Town, Nam Phi. Công trình chủ yếu:Economic Theory and Cognitive Science: Microexplanation (MIT Press, 2005).
Nguyên văn: Game Theory, The Stanford Encyclopedia of Philosophy (Fall 2010 Edition), Edward N. Zalta (ed.),First published Sat Jan 25, 1997; substantive revision Wed May 5, 2010
 
 
References
Baird, D., Gertner, R., and Picker, R. (1994). Game Theory and the Law. Cambridge, MA: Harvard University Press.
Binmore, K., Kirman, A., and Tani, P. (eds.) (1993). Frontiers of Game Theory. Cambridge, MA: MIT Press
Binmore, K. (1998). Game Theory and the Social Contract (v. 2): Just Playing. Cambridge, MA: MIT Press.
Camerer, C. (2003). Behavioral Game Theory: Experiments in Strategic Interaction. Princeton: Princeton University Press.

Danielson, P. (ed.) (1998). Modelling Rationality, Morality and Evolution. Oxford: Oxford University Press.
Fudenberg, D., and Levine, D. (1998). The Theory of Learning in Games. Cambridge, MA: MIT Press.
Fudenberg, D., and Tirole, J. (1991). Game Theory. Cambridge, MA: MIT Press.
Gintis, H. (2004). Towards the Unity of the Human Behavioral Sciences. In Philosophy, Politics and Economics31:37-57.
Guala, F. (2005). The Methodology of Experimental Economics. Cambridge: Cambridge University Press.
Hofbauer, J., and Sigmund, K. (1998). Evolutionary Games and Population Dynamics. Cambridge: Cambridge University Press.
Krebs, J., and Davies, N.(1984). Behavioral Ecology: An Evolutionary Approach. Second edition. Sunderland: Sinauer.
Kreps, D. (1990). A Course in Microeconomic Theory. Princeton: Princeton University Press.
Maynard Smith, J. (1982). Evolution and the Theory of Games. Cambridge: Cambridge University Press.
McMillan, J. (1991). Games, Strategies and Managers. Oxford: Oxford University Press.
Nash, J. (1950a). Equilibrium Points in n-Person Games. In PNAS 36:48-49.
Nash, J. (1950b). The Bargaining Problem. In Econometrica 18:155-162.
Nash, J. (1951). Non-cooperative Games. In Annals of Mathematics Journal 54:286-295.
Ormerod, P. (1994). The Death of Economics. New York: Wiley.
Rawls, J. (1971). A Theory of Justice. Cambridge, MA: Harvard University Press.
Robbins, L. (1931). An Essay on the Nature and Significance of Economic Science. London: Macmillan.
Ross, D. 2005. Evolutionary Game Theory and the Normative Theory of Institutional Design: Binmore and Behavioral Economics.In Politics, Philosophy and Economics, forthcoming.
Ross, D., and LaCasse, C. (1995). Towards a New Philosophy of Positive Economics. In Dialogue 34: 467-493.
Samuelson, L. (1997). Evolutionary Games and Equilibrium Selection. Cambridge, MA: MIT Press.
Samuelson, L. (2005). Economic Theory and Experimental Economics. In Journal of Economic Literature 43:65-107.
Samuelson, P. (1938). A Note on the Pure Theory of Consumers’ Behaviour. In Econimica 5:61-71.
Selten, R. (1975). Re-examination of the Perfectness Concept for Equilibrium Points in Extensive Games. InInternational Journal of Game Theory 4:22-55.
Sigmund, K. (1993). Games of Life. Oxford: Oxford University Press.
Smith, V. (1982). Microeconomic Systems as an Experimental Science. In American Economic Review 72:923-955.
Sober, E., and Wilson, D.S. (1998). Unto Others. Cambridge, MA: Harvard University Press.
Tomasello, M., M. Carpenter, J. Call, T. Behne and H. Moll (2004). Understanding and Sharing Intentions: The Origins of Cultural Cognition. In Behavioral and Brain Sciences, forthcoming.
Vallentyne, P. (ed.). (1991). Contractarianism and Rational Choice. Cambridge: Cambridge University Press.
von Neumann, J., and Morgenstern, O., (1947). The Theory of Games and Economic Behavior. Princeton: Princeton University Press, 2nd edition.
Weibull, J. (1995). Evolutionary Game Theory. Cambridge, MA: MIT Press.
Yaari, M. (1987). The Dual Theory of Choice Under Risk. In Econometrica 55:95-115.
Young, H.P. (1998). Individual Strategy and Social Structure. Princeton: Princeton University Press.
————————&&—————————-