Lý thuyết trò chơi

Lí thuyết trò chơi

Posted on 16.03.2016 by Tuấn Lê

(Nguồn: phantichkinhte123.com)

Game theory

® Giải Nobel: DEBREU, 1983 – HARSANYI, 1994 – NASH, 1994 – SELTEN, 1994.

“Ngay từ 1838, với tác phẩm Recherches sur les principes mathématiques de la théorie des richesses, lí thuyết kinh tế có được … một khái niệm cân bằng, khái niệm này không gì khác hơn là việc áp dụng vào một trường hợp đặc biệt lời giải của một trò chơi không hợp tác mà sau này được Nash hình thức hoá -và cũng có một công cụ để xác định sự tồn tại của cân bằng và tính toán những trạng thái thực hiện cân bằng này: hàm phản ứng”. Nhận định trên của Dos Santos Ferreira (1991) bộc lộ và biện minh cho tính chất gần như là một tiên đề của cách các nhà kinh tế đánh giá tác phẩm của Cournot như là điểm xuất phát của lí thuyết trò chơi. Hợp thành bởi toàn bộ những phương pháp toán học thích hợp cho việc nghiên cứu việc ra quyết định của những tác nhân duy lí và thông minh đứng trước một tình thế có sự tương hỗ lẫn nhau, lí thuyết này có hai mảng: những trò chơi hợp tác và những trò chơi không hợp tác. Trong trường hợp đầu những đấu thủ có thể kí kết những thoả thuận và/hoặc hứa hẹn và/hoặc đe doạ có hiệu lực, những dữ liệu cơ bản là các nhóm và những vấn đề được tìm hiểu là sự hình thành những liên minh và việc phân chia những thu hoạch. Trong trường hợp thứ hai, những đấu thủ không thể lấy những cam kết có tính ràng buộc trước khi hành động và điều được nhấn mạnh là chiến lược của họ. Minh hoạ cho sự phân biệt trên mà tác giả là Nash (1951), người đã đề nghị và gợi ý vượt qua sự phân biệt này bằng cách trình bày lại những trò chơi hợp tác dưới dạng những trò chơi không hợp tác (“chương trình Nash”). Có thể kể một lịch sử nhỏ của lí thuyết trò chơi (Weintraub, 1992).

Augustin Cournot (1801-1877)

Tất cả bắt đầu vào năm 1928 khi von Neumann chứng minh, cho các trò chơi không hợp tác có hai đấu thủ và tổng bằng không và với một số lớn chiến lược nhưng hữu hạn, định lí minimax (maximum minimorum = minimorum maximorum). Định lí này là “hòn đá tảng” (Auman, 1987) của lí thuyết trò chơi. Rồi von Neumann và Morgenstern (VNM) làm việc với nhau tại Princeton và kết quả của sự hợp tác này là tác phẩm, công bố năm 1944, The Theory of Games and Economic Behavior. Tiếp đó, bỏ qua những kết quả cơ bản thu được về những trò chơi hợp tác có hai đấu thủ, các nhà kinh tế quan tâm đến những trò chơi hợp tác có n đấu thủ. Khái niệm cái lõi của nền kinh tế, kết quả của những nghiên cứu này bắt nguồn từ tác phẩm của Edgeworth, Mathematical Psychics xuất bản năm 1881, nổi lên vào cuối những năm 1950 như một khái niệm lời giải cho những vấn đề kinh tế và cho phép, thông qua những định lí tương đương, củng cố lí thuyết cân bằng chung. Sau đó, những vấn đề do thông tin không đối xứng đặt ra phục hồi lại tất cả tầm quan trọng ngày nay được dành cho cân bằng Nash (1951). Dưới ánh sáng của những bài tổng hợp của Aumann (1987), Dimand và Dimand (1996), Schmidt (1990, 1995) và Weintraub (1992) cũng như những tuyển tập do Dimand và Dimand (1997) và Rubinstein (1990) tập hợp, có thể tu chỉnh vài điểm bản phác thảo lịch sử trên.

Dos Santos Ferreira

Về những nguồn gốc của lí thuyết trò chơi, dù không phải tìm ngược lên đến Thánh kinh (Brams, 1980) cần nói rõ là lời giải minimax đầu tiên với chiến lược hỗn hợp của một trò chơi (trò chơi bài tây có tên làLe Her) có hai đấu thủ và tổng không là do Waldegrave tìm ra vào năm 1713 và những công trình của Borel, xuất bản suốt những năm 1920, định nghĩa một cách chặt chẽ khái niệm chiến lược hỗn hợp và bổ sung định lí Zermelo (có từ 1913 về trò chơi cờ vua và vận dụng những chiến lược thuần tuý) vừa báo trước những kết quả của von Neumann được Ville khái quát hoá. Còn đối với thời kì được Weintraub (1992) nghiên cứu, cần nêu, một mặt, việc thực hiện “chương trình Nash” do lí thuyết mặc cả cung cấp, trong đó cách tiếp cận tiên đề hoá (Nash, 1950) và cách tiếp cận chiến lược (Rubinstein, 1982) được kết hợp và, mặt khác, sự xuất hiện của một tính đối ngẫu mới – chuẩn tắc, thực chứng – do sự nở rộ, như một đối trọng của những mô hình lí thuyết, của những công trình của kinh tế học thực nghiệm về trò chơi. Cuối cùng về thời kì gần đây, phải kể đến giải Nobel về kinh tế học năm 1994 được đồng thời trao cho Harsanyi, Nash và Selten. Sự kiện này, đặc biệt được các tạp chí International Journal of Game Theory vàGames and Economic Behavior chào mừng, đã làm rõ ưu thế hiện nay của lí thuyết trò chơi không hợp tác lẫn sự nở rộ, trong lí thuyết này, của ba ý tưởng (Gul, 1997): cân bằng, tính đáng tin và thông tin không đối xứng. Những sách giáo khoa mới đây (có thể thấy một danh sách có phân tích trong Binmore, 1992), sách cơ bản (Gibbons, 1992) hay sách mũi nhọn (Fudenberg & Tirole, 1991, và bằng tiếng Pháp, Gremaq, 1988 và Demange & Ponsard, 1994) phản ảnh tình hình này. Thật vậy, ngoài hai ngoại lệ đặc biệt là những sách của Moulin, nhưCooperative Microeconomics, 1995 và ba tập Handbook of Game Theory with Economic Applications do Aumann và Hart chủ biên trong những năm 1990, những tác phẩm trên có đặc điểm kép là bỏ qua lí thuyết trò chơi hợp tác để dành chỗ cho lí thuyết trò chơi không hợp tác và trình bày lí thuyết này bằng cách chéo hai phân biệt cơ bản: động và tĩnh; thông tin đầy đủ và thông tin không đầy đủ. Dàn trình bày điển hình này được dùng lại trong những phát triển dưới đây mà mục đích là, không quay lại những định nghĩa toán học của những khái niệm chính về cân bằng nhưng chỉ ra, thông qua những ví dụ, bằng cách nào tìm ra những cân bằng này.

Edgeworth (1845-1926)

Trò chơi tĩnh

Xét hai sinh viên – Camille (C) và Dominique (D) – ngày mai sẽ thi môn lí thuyết trò chơi. Để chuẩn bị ôn thi, cả hai đều cần đến quyển Games and Information của Ramusen mà thư viện chỉ có hai ấn bản: bản in lần đầu (R89) chỉ có thể tham khảo tại chỗ; bản in lần thứ hai (R94), đầy đủ hơn bản in lần thứ nhất, có thể mượn được về nhà. Do đó, đêm trước kì thi cả hai sinh viên đều giáp mặt với một đối chọn: ôn thi tại thư viện (B) hay mượn R94 (E) về ôn thi ở nhà. Nếu C và D đều chọn B thì họ sẽ cùng sử dụng R89 và R94 và cả hai đều ôn thi tốt. Nếu một trong hai chọn B và người kia chọn E thì người sử dụng một mình R94 sẽ làm bài thi tốt và người kia học trong R89 sẽ có một kết quả trung bình. Cuối cùng nếu C và D đều chọn E thì họ sẽ cãi nhau và bị đuổi ra khỏi thư viện. C và D phải lấy quyết định đồng thời. Như thế trò chơi số 1 như vừa được xác định là có thông tin đầy đủ nhưng không hoàn hảo vì mỗi đấu thủ biết tất cả những phần tử của cấu trúc của trò chơi nhưng, vào lúc ra quyết định, không biết người kia sẽ làm gì. Do đó, ta có trò chơi dưới dạng chiến lược và dưới dạng mở rộng:

Về mặt biểu đồ, dạng chiến lược có vẻ ngoài là một ma trận: C có những dòng, D có những cột và, trong mỗi ô, là chi trả (lợi ích VNM) của C và D được lần lượt xác định. Dạng mở rộng được biểu trưng bằng một cây mà mỗi mắt không cuối cùng được gán cho mỗi đấu thủ cho biết là đối thủ phải lấy một quyết định ở giai đoạn này của trò chơi, và những nhánh xuất phát từ cùng một mắt là những hành động có thể của đối thủ mà mắt này được gán cho đấu thủ ấy. Tập những mắt trong đó một đấu thủ không biết phân biệt mắt nào khi phải ra một quyết định vào một thời điểm của trò chơi, được lồng trong một viền tượng trưng cho tập thông tin của đấu thủ này. Bằng trò chơi này (trò chơi “kẻ nhát gan”), có thể minh hoạ hai khái niệm cơ bản về cân bằng: cân bằng Nash (1951) với chiến lược thuần tuý (được đánh dấu hoa thị * trong ma trận những thu hoạch) và với chiến lược hỗn hợp và cân bằng tương quan của Aumann (1974). Cân bằng đầu là một dạng những chiến lược sao cho chiến lược của mỗi đấu thủ là đáp trả tốt nhất cho những chiến lược được các đấu thủ khác chọn. Cân bằng thứ hai nằm trong sự tiếp nối của cân bằng Nash với chiến lược hỗn hợp: trong cả hai trường hợp, hành động của mỗi đấu thủ tuỳ thuộc vào thông điệp mà Tự nhiên gởi cho mỗi đấu thủ nhưng, trong trường hợp thứ nhất, những thông điệp là riêng tư và độc lập với nhau trong lúc trong trường hợp thứ hai các thông điệp có tương quan với nhau. Về khái niệm đầu, có thể phân biệt ba trường hợp được minh hoạ theo thứ tự bởi “thế lưỡng nan của người tù”, “cặp đôi tiền bạc” và trò chơi “kẻ nhát gan” (Walisser, 1988). Trong trò chơi đầu (theo thứ tự, thứ hai) chỉ có duy nhất một cân bằng Nash với chiến lược thuần tuý (theo thứ tự, chiến lược hỗn hợp). Trong trường hợp thứ ba, có hai cân bằng Nash với chiến lược thuần tuý và một cân bằng Nash với chiến lược hỗn hợp. Có một phương pháp sơ đẳng để tìm ra ba cân bằng này trong trò chơi số 1. Kí hiệu bằng (q, 1 – q) chiến lược hỗn hợp theo đó D chơi B với xác suất q và bằng (p, 1 – p) chiến lược hỗn hợp theo đó C chơi B với xác suất p. Nếu D chơi (q, 1 – q) thì những chi trả dự kiến của C là 3q + 1 (1 – q) = 2q + 1 nếu C chơi B và 4q nếu C chơi E. Do đó, nếu q > 1/2 thì đáp trả tốt nhất của C (MR_C) là E (p = 0). Ngược lại, nếu q < 1/2 thì MR_C là B (p = 1). Cuối cùng nếu q = 1/2 thì bất kì giá trị nào của p cũng là một MR_C. Tương tự như vậy, nếu D chơi (p, 1 – p) thì những chi trả dự kiến của D là 2p + 1 nếu D chơi B và bằng 4p nếu D chơi E. Do đó nếu p > 1/2 thì đáp trả tốt nhất của D (MR_D) là E (q = 0). Ngược lại, nếu p > 1/2 thì MR_D là B (q = 1). Cuối cùng nếu p = 1/2 thì bất kì giá trị nào của q cũng là một MR_D (xem biểu đồ dưới đây).

MR_C và MR_D cắt nhau tại ba điểm: (p = 1/2, q = 1/2), (p = 0, q = 1), và (p = 1 q = 0). Điểm đầu là cân bằng Nash với chiến lược hỗn hợp của trò chơi số 1: mục đích mỗi đấu thủ nhắm đến thông qua việc sử dụng những xổ số này là đặt mỗi đấu khủ khác vào một tình thế bàng quan trong đó đấu thủ đó không có chiến lược nào được ưa thích trong số những chiến lược được đấu thủ này gán cho một xác suất không bằng không. Hai điểm còn lại tương ứng với hai cân bằng Nash với chiến lược thuần tuý: (E, B) và (B, E). Để nhanh chóng tìm ra hai cân bằng này, chỉ cần so sánh theo hàng và theo cột thể theo định nghĩa của cân bằng Nash và gạch bên trên những chi trả tương ứng với những đáp trả tốt nhất. Mọi dạng chiến lược nào gắn với một ô trong đó có hai chi trả được gạch trên là một cân bằng Nash với chiến lược thuần tuý. Để giải thích sự trồi lên của một cân bằng như thế, có thể nêu bốn luận chứng cạnh tranh nhau: có liên lạc trao đổi trước, những dự kiến tự hoàn thành, lí thuyết mặc điểm và tập huấn (xem mục cân bằng Nash). Giải thích thứ nhất đặt cơ sở cho khái niệm cân bằng tương quan. Một cách nôm na, định nghĩa một cân bằng tương quan qui lại là tìm một xổ số trên những kết cục của trò chơi sao cho mỗi đấu thủ tối đa hoá lợi ích của bản thân có tính đến những chỉ thị mình nhận được. Kí hiệu bằng r₁, r₂, r₃, r₄ những xác suất của (B, B), (B, E), (E, B), và (E, E). Nếu C được lệnh chơi B (theo thứ tự E) thì quyền lợi của C là tuân thủ nếu 3r₁ + r₂³ 4r₁ (theo thứ tự 4r₃ + r₂³ 3r₃ + r₄), nghĩa là r₂ ³ r₁ (theo thứ tự r₃ ³ r₄). Tương tự như thế, nếu D nhận chỉ thị chơi B (hay E) thì quyền lợi của D là tuân thủ nếu r₃ ³ r₁ (theo thứ tự r₂ ³ r₄). Do đó để cho (r₁, r₂, r₃, r₄) hợp thành một cân bằng tương quan thì r₁ + r₂ + r₃ + r₄ = 1 và Min (r₂, r₃) ³ Max (r₁, r₄). Điều này xác định một continuum những cân bằng tương quan trong đó ta thấy có ba cân bằng Nash được định nghĩa như trên, mọi tổ hợp lồi của những cân bằng Nash với chiến lược thuần tuý và những cân bằng tương quan khác, như (1/3, 1/3, 1/3, 0). Có thể thu được cân bằng cuối này nhờ cơ chế phối hợp sau: một người thứ ba (A) ném một con súc sắc có sáu mặt; nếu mặt con súc sắc là 1 hay 2 thì A nói với C và D phải chơi B; nếu mặt con súc sắc là 3 hay 4 thì A nói với C (theo thứ tự D) phải chơi B (theo thứ tự E); và nếu mặt con súc sắc là 5 hay 6 thì A nói với C (theo thứ tự D) phải chơi E (theo thứ tự B). Thông điệp gởi cho mỗi đấu thủ không cho biết lệnh ra cho đấu thủ kia. Nếu C và D đồng ý với nhau thực hiện cơ chế phối hợp này, thì thoả thuận tự có hiệu lực: quyền lợi của mỗi đấu thủ là tuân thủ những chỉ thị mình nhận được; làm như thế mỗi đấu thủ sẽ nhận được một chi trả kì vọng bằng với 8/3 và do đó lớn hơn 2, vốn là chi trả kì vọng gắn với cân bằng Nash với chiến lược hỗn hợp. Đặc điểm cơ bản của cân bằng này là mỗi đấu thủ không biết chắc chắn lựa chọn của mỗi đấu thủ khác. Sự không chắc chắn này sinh ra từ tính ít nhiều không đầy đủ của thông tin mỗi đấu thủ có được.

John Nash (1928-2015)

Để nghiên cứu loại tình thế này, xét trò chơi số 2. Chris (C), một sinh viên nước ngoài, trình độ tiếng Pháp trung bình, phải chuẩn bị, giống như D, một bài trình bày về lí thuyết trò chơi. Hoặc là C khá (b) hoặc là yếu (m) tiếng Anh. C biết chính xác kiểu của mình; ngược lại D chỉ biết rằng có 90 % là C thuộc kiểu b (p = 0,9). Đối chọn C phải giáp mặt là như sau: lấy trên kệ sách hoặc là từ điển tiếng Anh Harrap’s (A) hoặc là từ điển tiếng Pháp Le Petit Robert(F). Còn D, giống như trong trò chơi số 1, phải lựa chọn giữa B hoặc E. Trong mọi trường hợp, phải học ở thư viện và càng chuẩn bị tốt nếu có được R94. Một cách thứ yếu, C càng có hiệu quả khi lựa từ điển có ích nhất đối với mình tuỳ theo kiểu của bản thân. D, có trình độ tiếng Anh trung bình, có một cái nhìn lưỡng phân về tình hình: thích chuẩn bị ở thư viện với C nếu C thuộc kiểu b; trường hợp ngược lại thích tự chuẩn bị ở nhà một mình. C và D phải lấy quyết định đồng thời. Hai tình thế này, dưới dạng chiến lược, là như sau:

Nhờ Harsanyi (1967-1968), có thể biến đổi một trò chơi như thế với thông tin không đầy đủ thành một trò chơi với thông tin không hoàn hảo trong đó Tự nhiên (N) đi trước và chọn kiểu của C:

Trong biểu trưng dưới dạng chiến lược, mỗi chiến lược của C làm rõ lần lượt hành động của C là thuộc kiểu b và thuộc kiểu m: nếu C chơi, ví dụ, FA thì có nghĩa là, nếu hành động của C là thuộc kiểu b thì chơi F và nếu hành động của C là thuộc kiểu m thì C chơi A. Trong mỗi ô, những thu hoạch lần lượt được ghi là những thu hoạch của C nếu C thuộc kiểu b, nếu C thuộc kiểu m và D (có tính đến p). Bằng trò chơi này, ta có thể minh hoạ cân bằng bayesian, tức là một cân bằng Nash của trò chơi bayesian trong đó mỗi đấu thủ ước tính thu hoạch của mình bằng kì vọng lợi ích bị điều kiện hoá bởi thông tin riêng của mình. Trong trường hợp này, ở thế cân bằng, C chơi FA và D chơi B. Một cách tiên nghiệm điều này là hiển nhiên vì F và A là những chiến lược khống chế của C khi C thuộc, theo thứ tự, kiểu b và m. Đương nhiên, nếu p nhỏ hơn 0,5 thì D sẽ chọn E. Vấn đề trở thành ít tầm thường hơn nếu ta cho C khả năng chơi trước D.

Trò chơi động

Để thấy điều này, trước hết xét trò chơi số 1’, trò chơi này là phiên bản động của trò chơi số 1 trong đó C đi trước:

Oscar Morgenstern (1902-1977)

Bằng trò chơi này, vốn là một trò chơi có thông tin không chỉ đầy đủ mà còn là hoàn hảo vì D khi phải ra một quyết định biết C đã làm những gì, có thể minh hoạ hai khái niệm cân bằng: cân bằng Nash động và cân bằng Nash động hoàn hảo (Selten, 1965). Khái niệm sau chỉ đơn giản khái quát hoá cân bằng Nash. Trong trò chơi số 1’, những so sánh theo dòng và theo cột làm nổi lên ba cân bằng loại này: (B, EE), (E, BB)* và (E, EB). Khi D chọn chiến lược EE (theo thứ tự BB) thì D quyết định chơi E (theo thứ tự B) bất luận quyết định của C là gì đi nữa và khi D chọn EB thì D quyết định chơi E (theo thứ tự B) nếu C chơi B (theo thứ tự E). Trong hai trường hợp đầu, D có lời đe doạ nhưng sẽ không thực hiện đe doạ này nếu bị thách thức: quả thế, D không có quyền lợi gì để chơi E (theo thứ tự B) nếu C chơi E (theo thứ tự B). Trong trường hợp cuối, D là đáng tin vì nếu C chơi B (hay theo thứ tự E), thì quyền lợi của D là phải chơi E (theo thứ tự B). Ý tưởng này về tính đáng tin tạo cơ sở cho khái niệm cân bằng Nash động hoàn hảo (trong trò chơi con), khái niệm này là một dạng những chiến lược sao cho những hành động được những chiến lược này chủ trương hợp thành một cân bằng Nash trong tất cả những trò chơi con, một trò chơi con trong một trò chơi với thông tin hoàn hảo, là mọi cây trò chơi có được bằng cách lấy một mắt bất kì của cây ban đầu như điểm gốc. Để tìm ra một cân bằng như thế, phương pháp đơn giản nhất – thuật toán Kuhn – là xuất phát từ cuối trò chơi và tiến hành truy toán lùi. Như vậy đối với trò chơi số 1’, lập luận là như sau: nếu C chơi B thì D chọn E (vì 4 > 3); nếu C chơi E thì D chọn B (vì 1 > 0); biết được điều này nên quyền lợi của C là nên chơi E (vì 4 > 3); do đó (E, EB) là cân bằng hoàn hảo của trò chơi số 1’. Được định nghĩa và minh hoạ như thế, tiêu chuẩn tính hoàn hảo tỏ ra là xác đáng trong một trò chơi động với thông tin đầy đủ, không chỉ khi thông tin là hoàn hảo mà cả khi thông tin là không hoàn hảo, nghĩa là khi, ví dụ, một trò chơi tĩnh được lặp lại.

Von Neumann (1903-1957)

Để nghiên cứu trường hợp này, trước hết giả sử là trò chơi số 1 không còn được chơi một lần mà là hai lần. Trong trường hợp này C và D có thể thay phiên nhau chơi E. Như thế, kế hoạch đầy đủ của C (theo thứ tự D) là, trong lần đầu, chơi E (theo thứ tự B), và lần thứ nhì, bất luận lịch sử của trò chơi là như thế nào, chơi B (theo thứ tự E). Những chiến lược được xác định như thế hợp thành một cân bằng hoàn hảo. Thu hoạch trung bình của mỗi đấu thủ là 5/2. Tất nhiên có thể hoán đổi vai trò của các đấu thủ. Hơn nữa, ba cân bằng Nash của trò chơi cấu thành có thể được lặp lại. Cuối cùng có thể luân phiên chơi cân bằng Nash với chiến lược hỗn hợp và một trong hai cân bằng Nash với chiến lược thuần tuý. Nếu trò chơi số 1 không chỉ được chơi một lần mà T (T ³ 3) lần, thì xuất hiện một một cân bằng hoàn hảo mới trong đó C và D trước hết đồng thời chơi B, T – 2 lần, tiếp đấy rồi mỗi người lần lượt chơi B (người kia chơi E); nếu C (theo thứ tự D) chơi E (theo thứ tự E) ở một trong những T – 2 thời kì đầu, thì trong tất cả những thời kì sau đó sẽ chơi (B, E) (theo thứ tự (B, E)). Nếu các đấu thủ chọn những chiến lược này thì tổng thu hoạch của mỗi người là 3 (T – 2) + 5 = 3T – 1. Nếu một đấu thủ đi chệch khỏi chiến lược này tại thời điểm t £ T – 2 thì tổng thu hoạch sẽ là 3 (t – 1) + 4 + 1 (T – 1) £ 3T – 3 < 3T – 1. Những chiến lược này hợp thành một cân bằng Nash hoàn hảo vì những trừng phạt là việc lập lại những cân bằng Nash của trò chơi cấu thành. Một cách tổng quát hơn, người ta có thể chứng minh là nếu một trò chơi được lặp lại một số hữu hạn lần và không hiện tại hoá, trong phiên bản cơ bản của trò chơi, có một vectơ chi trả trung bình cân bằng khống chế vectơ min-max thì mọi vectơ chi trả duy lí cá thể ngặt và thực hiện được, tới giới hạn, là một vectơ chi trả trung bình của một cân bằng hoàn hảo. Trong một trò chơi có hai đấu thủ, một chi trả duy lí cá thể ngặt là, đối với một đấu thủ, một chi trả cao hơn hay bằng chi trả min-max của đấu thủ đó khi tìm cách tối đa hoá thu hoạch của bản thân với chiến lược của đấu thủ kia là cho trước và đối thủ này chọn chiến lược của mình sao cho tối thiểu hoá thu hoạch tối đa của đối thủ của mình. Phiên bản này của “định lí dân gian” cho phép chứng minh là, trong trò chơi số 1 lặp lại, với vectơ chi trả min max là (1, 1), thì có thể gắn một cân bằng hoàn hảo cho mọi điểm của vùng tô đậm trong biểu đồ dưới đây:

Khi số lần lặp lại trò chơi cấu thành là hữu hạn thì không nhất thiết là tính bội của những cân bằng, như đã được làm rõ, hiện ra: ví dụ, nếu trò chơi cấu thành được đặc trưng, như trong “thế lưỡng nan của người tù”, bởi tính đơn nhất của cân bằng thì trò chơi lặp lại không hiện tại hoá có một cân bằng hoàn hảo duy nhất, tức là việc lặp lại cân bằng của trò chơi cấu thành. Ngược lại, khi số lần lặp lại trò chơi cấu thành là vô hạn thì việc mở rộng tập những vectơ chi trả trung bình thực hiện được dưới dạng cân bằng hoàn hảo là qui tắc phổ biến. Tính bội này của những cân bằng cũng thường đặc trưng cho những trò chơi động với thông tin không đầy đủ.

Để thấy điều này, xét trò chơi số 2’, là một phiên bản động của trò chơi số 2 trong đó C chơi trước:

Trong biểu trưng dưới dạng mở rộng của trò chơi này, q, 1 – q, r và 1 – r là những tin tưởng hậu nghiệm của D. Ví dụ, đối với D, q là xác suất rằng C thuộc kiểu b khi biết là C đã chơi F. Ở cuối mỗi nhánh, con số nằm trên (theo thứ tự nằm dưới) chỉ thu hoạch của C (theo thứ tự của D). Trò chơi tín hiệu này (đối lập với trò chơi có lọc đòi hỏi là đấu thủ không được thông tin chơi đầu), trong đó C là người phát tín hiệu và D là người nhận tín hiệu có hai cân bằng (Nash động) bayesian: (FF, BE, q = 0,9, r) và (AA, EB, q, r = 0,9). Đây là hai cân bằng pha trộn: trong mỗi trường hợp, người phát tín hiệu vẫn chơi theo cùng một cách bất luận mình thuộc kiểu nào và do đó những tin tưởng của người nhận tín hiệu bằng với những tin tưởng tiên nghiệm: p = 0,9 và 1 – p = 0,1. Giữa hai cân bằng này có thể thử lựa chọn bằng cách vận dụng nguyên lí truy toán lùi (nguyên lí đặt cơ sở cho tính hoàn hảo) theo đó phải loại trừ những cân bằng có một đe doạ không đáng tin. Trong vấn đề được nghiên cứu, bộ lọc được Kreps và Wilson (1982) xây dựng tỏ ra là quá thô thiển để ngăn chặn một trong hai cân bằng bất kì nào vừa được xác định trên đây: trong cả hai trường hợp, những đáp trả của người nhận tín hiệu nằm ngoài quĩ đạo cân bằng đều tương hợp với ít nhất một phân phối xác suất có điều kiện. Chính xác hơn, (FF, BE, q = 0,9, r £ 0,5) và (AA, EB, q £ 0,5, r = 0,9) là hai cân bằng bayesian hoàn hảo, nghĩa là những tổ hợp chiến lược và tin tưởng sao cho những chiến lược này là tối ưu với những tin tưởng cho trước và những tin tưởng này được xét lại theo qui tắc Bayes. Trong cân bằng đầu (theo thứ tự cân bằng thứ hai) r (theo thứ tự q) phải nhỏ hơn hay bằng 0,5 vì với điều kiện này thì răn đe của D định chơi E (theo thứ tự E) ở ngoài đường cân bằng mới đáng tin. Để lựa chọn giữa hai cân bằng bayesian hoàn hảo được xác định như trên, phải vận dụng nguyên lí truy toán tiến đặt cơ sở cho tiêu chuẩn trực giác của Cho và Kreps (1987). Tiêu chuẩn này tinh vi hoá tiêu chuẩn trước hơn nữa bằng cách kéo theo là nếu tập thông tin theo một thông điệp nằm ngoài quĩ đạo cân bằng và nếu ở thế cân bằng thông điệp này không bị khống chế cho tất cả các kiểu, thì người nhận tín hiệu phải gán một xác suất bằng không cho kiểu được xem xét. Trong trò chơi đuợc nghiên cứu, tiêu chuẩn này cho phép loại trừ (AA, EB, q £ 0,5, r = 0,9): từ cân bằng này, quyền lợi của một người nhận tín hiệu thuộc kiểu b có thể là nên đi chệch khỏi quĩ đạo cân bằng (như vậy, người này có thể thu hoạch hoặc 2 hoặc 4 thay vì 3,5), ngược lại một người nhận tín hiệu thuộc kiểu m không bao giờ có lợi khi hành động như thế (vì 4 > 3 và 4 > 1); do đó D phải gán một xác suất (1 – q) bằng không cho kiểu m. Do điều kiện này và điều kiện đảm bảo tính hoàn hảo của cân bằng (q £ 0,5) là không tương hợp nên (AA, EB, q £ 0,5, r = 0,9) là không thoả đáng một cách trực giác. Ngược lại, dễ dàng chứng minh rằng (FF, BE, q = 0,9, r £ 0,5) là thoả đáng theo trực giác và ổn định (phổ cập), để nêu lên những tiêu chuẩn tinh vi hoá chính (đặc biệt được trình bày trong Fudenberg & Tirole, 1991) bổ sung cho những tiêu chuẩn được dùng trên đây. Cuối cùng, xin nhấn mạnh là trong trò chơi số 2’, không có cân bằng tách, nghĩa là sao cho C chơi theo một cách nếu thuộc kiểu b và theo một cách khác nếu thuộc kiểu m. Tuy nhiên, nếu p có một giá trị nhỏ hơn 0,5, ví dụ như 0,1, sao cho lời giải nổi lên là một cân bằng nửa tách; nếu C thuộc kiểu b thì bao giờ C cũng chơi F, và nếu thuộc kiểu m thì chơi F với xác suất 1/9 và chơi A với xác suất 8/9; nếu C chơi F, thì D chơi B hay E theo đồng xu xấp ngửa và, nếu C chơi A thì D bao giờ cũng chơi E.

Được trình bày như trên, lí thuyết trò chơi không hợp tác, dựa trên giả thiết kép về tính duy lí và tính vị kỉ của các đấu thủ, tỏ ra đặc biệt phong phú: lí thuyết cho phép đổi mới không chỉ “kinh tế học công nghiệp”, để lấy lại tựa một tác phẩm của Tirole, và của hầu hết những nhánh của khoa học kinh tế mà còn cả những khoa học xã hội khác, như luật học (Baird, Gerner & Picker, 1994) và khoa học chính trị (Ordeshook, 1992). Tính phong phú rõ rệt này đã không loại trừ những công trình đặt lại vấn đề về mặt lí thuyết. Dưới góc độ này, có thể nêu hai khái niệm mới: cân bằng ổn định theo quan điểm tiến hoá của Maynard Smith và Price (1973) và cân bằng phù hợp với công lí của Rabin (1993). Trong trường hợp sau mỗi đấu thủ được giả định không phải là vị kỉ nhưng sẵn sàng hi sinh một phần thu hoạch của mình để thưởng sự tử tế hay phạt sự ác độc cuả người khác, hai động cơ này càng mạnh khi sự hi sinh tài chính để công bằng ngự trị càng yếu. Trong trường hợp đầu, các đấu thủ được xem là không phản ứng một cách duy lí: họ lựa chọn không ý thức hành động của mình nhưng thừa hưởng hành vi của những người đi trước họ. Trò chơi số 1 cho phép minh hoạ hai khái niệm mới này: nếu C và D được giả định là quan tâm đến công bằng và nếu những thu hoạch tiền tệ được thay thế cho những chi trả (không làm thay đổi cấu hình của trò chơi) thì (B, B) và (E, E) nổi lên như những cân bằng Rabin; nếu C và D được xem như hai phần tử bất kì của một tập những sinh viên và nếu chơi E (hay B) là có một hành vi “diều hâu” (hay “bồ câu”) thì cân bằng Nash với chiến lược hỗn hợp trở thành cân bằng Maynard Smith và Price. Để tìm hiểu thêm về cách tiếp cận sau này và cách tiếp cận gắn với tập huấn thích nghi, có thể tham khảo Kreps và Wallis (1997).

▶ AUMANN R. J., “Subjectivity and correlation in randomized strategies”, Journal of Mathematical Economics, 1974, n⁰ 1, p. 67-96; “Game Theory” trong EATWELL J. MILGATE M. & NEWMAN P. chủ biên, The New Palgrave: A Dictionary of Economics, vol.2, London, Macmillan, 1987. – BAIRD E. G., GERTNER R. H. & PICKER R. C., Game Theory and the Law, Cambridge, Harvard University Press, 1994. – BINMORE K., Fun and Games: a Text on Game Theory, Lexington (DC), Heath, 1992. – BRAMS S., Biblical Games: A Strategic Analysis of Stories in the Old Testament, Cambridge, MIT Press, 1980. – CHO I. K. & KREPS D. M., “Signaling games and stable equilibria”, Quarterly Journal of Economics, 1987, n⁰ 2, p. 179-221. – DEMANGE G. & PONSARD, Théorie des jeux et analyse économique, Paris, PUF, 1994. – DIMAND M. A. & DIMAND R. W., The History of Game Theory, London, Routledge, vol. 1, 1996; The Foundations of Game Theory, vol. I, II và III, Cheltenham, Edward Elgar, 1997. – DOS SANTOS FERREIRA R., “Introduction”, Revue économique, 1991, n⁰ 6, p. 959-966. – FUDENBERG D. & TIROLE J., Game Theory, Cambridge, MIT Press, 1991. – GIBBONS R., A Primer in Game Theory, New York, Harvester Wheatsheaf, 1992. – GREMAQ A.-A., Dynamique, information incomplète, stratégies industrielles, Paris,Economica, 1988. – GUL F., “A Nobel prize for game theorists: the contribution of Harsanyi, Nash and Selten”, Journal of Economic Perspectives, 1997, n⁰ 3, p. 159-174. – HARSANYI J. C., “Games with incomplete information played by “bayesian“ players”, Management Science, 1967-1968, vol. 14, 3, p. 159-182, n⁰ 5, p. 320-334, n⁰ 7, p. 486-502; “Games with randomly disturbed payoffs a new rationale for mixed-strategy equilibrium points”,International Journal of Game Theory, 1973 n⁰ 1, p. 1-23. – KREPS D. M. & WALLIS K. F.,Advances in Economics and Econometrics: Theory and Applications, vol. I, Cambridge, University Press, 1997. – KREPS D. M. & WILSON R., “Sequential equilibria”, Econometrica, 1982, n⁰ 4, p. 863-894. – MAYNARD SMITH J & PRICE G. R., “The logic of animal conflict”,Nature, 1973, vol. 246, p. 15-18. – NASH J. F., “The Bargaining Problem”, Econometrica, 1950, n⁰ 2, 155-162m; “Non cooperative games”, Annals of Mathematics, 1951, n⁰ 2, 286-295. – ORDESHOOK P. C., A Political Theory Primer, New York, Routledge, 1992.- RABIN M., “Incorporating fairness into game theory and economics”, American Economic Review, 1993, n⁰ 5, p. 1281-1302. – RUBINSTEIN A., “Perfect equilibrium in a bargaining model”,Econometrica, 1982, n⁰ 1, p. 97-109; Game Theory in Economics, Aldershot, Edward Elgar, 1990. – SCHMIDT C., “Game theory and economics: an historical survey”, Revue d’économie politique, n⁰ 5, p. 589-618; “Présentation”, n⁰ 4, p. 529-538. – SELTEN R., “Spieltheoretische Behandlung eines Oligopolmodells mit Nachfrageträgheit”, Zeitchrift für die gesamteStaatwissenschaft, 1965, vol. 121, p. 301-324 và 667-689. – WALISER B., “A simplified taxonomy of 2 x 2 games”, Theory and Decision, 1988, n⁰ 2, p. 163-191, – WEINTRAUB E. R. chủ biên, Toward a History of Game Theory, Durnham, Duke University Press, 1992.

Régis Deloche

Giáo sư đại học Franche-Comté (BesanVon)

Nguyễn Đôn Phước dịch

Nguồn: Dictionnaire des sciences économiques, sous la direction de Claude Jessua, Christian Labrousse, Daniel Vitry, PUF, Paris, 2001.

® Cân bằng Nash; Kinh tế học thực nghiệm; Kinh tế toán học; Lí thuyết mặc cả; Thế lưỡng nan của người tù; Thông tin không đối xứng.

————-&&————

Filed under: Lý thuyết trò chơi | Leave a comment »

Tuyển sinh đại học và Sự ổn định của hôn nhân

Posted on 02.09.2015 by Tuấn Lê

“Gale-Shapley’s 1962 paper on the stable marriage problem provides the first formal statement and proof of a problem that has far-reaching implications in many matching markets and is currently being applied in New York and Boston public school systems in assigning students to schools. In 2012 The Nobel Prize in Economics was awarded to Shapley for this work.”

Về việc áp dụng thuật toán DAA của Gale-Shapley trong xét tuyển

(Tác giả: Nhóm Đối Thoại Giáo Dục – Nguồn: hocthenao.vn)

BÁO CÁO SƠ BỘ VỀ KHẢ NĂNG ÁP DỤNG THUẬT TOÁN DAA (DEFERRED-ACCEPTANCE ALGORITHM) CỦA GALE-SHAPLEY TRONG TUYỂN SINH ĐẠI HỌC

I. Lý thuyết ‘xe duyên’ (matching) và thuật toán Gale-Shapley

Thuật toán stable matching (kết duyên bền vững) Gale-Shapley được Lloyd Shapley và David Gale giới thiệu từ những năm 1960. Đến những năm 1980, Alvin Roth đã có những nỗ lực liên tục để sử dụng thuật toán này tìm ra các giải pháp thực tiễn nhằm giải quyết các vấn đề thực trong cuộc sống thường ngày.

Thành công của Alvin Roth mang lại cho Roth và Shapley giải Nobel kinh tế năm 2012.

Các ứng dụng từ Roth và Shapley có thể mở rộng từ phân công tân bác sĩ vào các bệnh viện, ghép các tú tài vào các trường đại học phù hợp và phân phối (theo cơ chế bao cấp) nội tạng đến các bệnh nhân cần ghép.

Thuật toán “xe duyên” Gale – Shapley có thể giải quyết được bài toán kinh tế truyền thống “cung và cầu gặp nhau” nhưng không cần cơ chế “giá”. Ví dụ phía cung (các trường đại học) sẽ kết duyên ổn định với phía cầu (các tân tú tài muốn học đại học) mà không cần có một cơ chế giá mua/bán.

Thuật toán này hoạt động trên một tiên đề chung (common notion) về tính ổn định của hệ thống và năng lực nhận thức thuần lý của người tham gia hệ thống bên cầu (thí sinh). Thí sinh được giả định có lý tính tốt, biết rõ mình muốn gì và hành vi lựa chọn (chọn trường) của họ tuân theo lý tính. Thí sinh sẽ tham gia việc chọn và được chọn trường, được thay đổi lựa chọn của mình, cho đến khi họ có dược kết quả tốt nhất. Tình trạng khi mà thí sinh tiếp tục có thay đổi lựa chọn trường, nhưng không làm họ có kết quả tốt hơn, được gọi là ổn định (stable).

Trạng thái “kết duyên bền vững” (stable matching) sẽ đạt được “khi tất cả thí sinh vào được trường cao nhất có thể”. Lúc đó cung (các trường đại học) đáp ứng cầu (thí sinh) ở trạng thái ổn định bền vững.

Giải pháp của Gale-Shapley, được biết với tên gọi thuật toán deferred acceptance”, là một bộ các quy tắc đơn giản luôn đi trực tiếp đến trạng thái kết duyên bền vững (stable matching) trong môt số điêu kiện nhất định. Có hai cách thiết kế thuật toán: phía cung (các trường đại học) chủ động chọn (thí sinh); hoặc phía cầu (các thí sinh) chủ động nộp đơn (tới các trường mình muốn học).

II. Ứng dụng vào kỳ Thi quốc gia ở Việt Nam

2.1 Một vài vấn đề cần cân nhắc

Triết lý giáo dục đại học của nhóm VED, như đã thể hiện trong Đề xuất cải cách đại học VED 2015, là ủng hộ tự do đại học trong đó đề cao tính tự chủ của đại học.

Các trường tự chủ trong tuyển sinh là một trong những đề xuất quan trọng của VED.

Như vậy một hệ thống xét tuyển tập trung có thể đi ngược với quan điểm và triết lý của VED, đồng thời tạo ra một e ngại là hệ thống xét tuyển tập trung sẽ làm mất đi tính cạnh tranh cần phải có giữa các đại học.

Bên cạnh đấy, việc sử dụng một hệ thống xét tuyển tập trung có thể sẽ làm các trường đại học nhỏ mất đi phần lớn cơ hội tuyển được thí sinh khá giỏi .

Về việc triển khai ứng dụng của thuật toán Gale-Shapley cho một hệ thống xét tuyển tập trung phục vụ thí sinh và các trường đại học trên toàn quốc chắc chắn sẽ có ảnh hưởng đến hàng triệu con người. Vì vậy rất cần những nghiên cứu khoa kỹ lưỡng trước khi đi đến một bản thiết kế tốt nhất để đem vào ứng dụng trong thực tiễn.

Ứng dụng thực tiễn nổi tiếng nhất của thuật toán phát triển lên từ Gale-Shapley là “xe duyên” các bác sĩ mới tốt nghiệp chọn bệnh viện để thực tập (bang NY). Ứng dụng này khác với việc tuyển sinh nhiều mặt.

a) Thứ nhất đây là người đã trưởng thành, đi tìm việc, tâm lý thái độ khác với hs đi học đại học. Nếu để so sánh, thì so sánh chính xác phải là ứng dụng Gale-Shapley cho sinh viện sư phạm tốt nghiệp đi tìm việc ở Việt Nam.

b) Ngoải ra các bác sĩ đã được interview trước, nên biết khả năng mình sẽ được vào nhưng trường cỡ nào, nên việc lựa chọn bản thân nó đã tự chính xác.

Một năm việc tuyển sinh đại học ở Mỹ tốn kém chừng 10 tỷ dollar. Câu hỏi là sao họ không ứng dụng G-S vào việc tuyển sinh chung? Nhất là khi các trường ở Mỹ có xếp hạng (ranking) rất rõ ràng. Một lý do hiển nhiên là không trường nào muốn làm như thế cả vì có lẽ nó làm giảm tính cạnh tranh.

Nếu muốn ứng dụng Gale-Shapley vào xét tuyển chung cho Việt Nam, ta cần làm rõ giải pháp này để tối ưu hóa cái gì? Có thể tính ổn định không chưa phải là ưu tiên. Mục đích của giải pháp, nên chăng, là tối ưu hóa số lượng thí sinh thỏa mãn (hoặc gần thỏa mãn) với trường đại học mình được nhận vào. Tính ổn định và tối ưu hóa số lượng thí sinh thỏa mãn nguyện vọng của mình là những bài toán khác nhau, sẽ dẫn đến những kết quả khác nhau.

2.2 Từ thực tiễn tuyển sinh năm nay

Tuy nhiên với thực tiễn Việt Nam, có nhiều trường đại học vì nhiều lý do đã không tự tổ chức thi đầu vào riêng cho mình. Thay vào đó những trường này sử dụng kết quả của kỳ thi THPT quốc gia cho xét tuyển.

Kỳ thi quốc gia 2 trong 1 năm nay tuy có nhiều sự cố, nhưng lợi ích (chi phí) xã hội của kỳ thi này tương đối rõ: thi phân tán và sử dụng kết quả của một kỳ thi cho các mục đích khác nhau, dẫn đến giảm bớt phí tổn xã hội.

Như vậy một kỳ thi quốc gia với kết quả được sử dụng như một công cụ tập trung hóa cao độ để xét tuyển đại học tuy trái ngược với chủ trương của VED, nhưng VED cố gắng thực hiện các thảo luận và tranh luận nội bộ để trả lời câu hỏi: nếu sử dụng các công cụ toán và kinh tế hiện đại vào hình thức tuyển sinh tập trung hiện nay có cải thiện được hiệu quả của hệ thống này hay không.

III. Một vài phân tích.

3.1 Về tính tự chủ của đại học

Việc tuyển sinh đã từng liên quan đến những cuộc thảo luận của VED trước đây. Khi so sánh với phương pháp tuyển sinh ở các nước phát triển, cũng có mức độ đa dạng đáng kể. Ở Mỹ hệ thống hoàn toàn phân tán (decentralized) và ngoại trừ khớp thời gian thì hoàn toàn không thống nhất (uncoordinated).

Nhưng ở một số nước châu Âu như Pháp lại có hệ thống thi cử quy mô lớn.

Tại sao các đại học Mỹ không áp dụng G-S?

Lý do đầu tiên là do Mỹ không có cơ quan quản lý và điều phối chung cho tất cả các trường đại hoc (không có Bộ giáo dục và đào tạo như ở Việt Nam). Để áp dụng G-S cần phải có một hệ thống đại học tập trung hóa (centralized) như VN hoặc các đại học phải có tính phối hợp (coordination) rất cao, cùng từ chối – nhận học (defer-offer) vào cùng một thời điểm.

Lý do thứ hai là các đại học Mỹ tuyển sinh dựa vào nhiều tiêu chí chứ không chỉ dựa vào duy nhất điểm thi đại học như VN. Nhiều tiêu chí phi định lượng (non-quantitative) nên không thể/khó có thể thực hiện nhiều vòng từ chối – nhận học (defer-offer) vì sẽ rất tốn kém và mất thời gian cho cả đại học lẫn thí sinh.

Trong hệ thống của Pháp (hệ thống Trường Lớn), thí sinh thi rất nhiều môn, có cả thi vấn đáp và phỏng vấn, để sau đó được đánh giá bởi một điểm tổng hợp (composite) các thành tích gộp lại. Sau khi hình thành điểm composite thì trường không còn tự chủ nữa: họ tự động nhận thí sinh từ trên xuống dưới cho đến khi đủ số. Trong nhiều trường hợp, vì không có hệ thống matching tốt, có những trường cuối cùng phải chọn thí sinh yếu hơn, vì thí sinh giỏi đã trót nhận trường khác, v.vv.

Nhìn ở tầm dài hạn hơn, việc tuyển sinh Đại học ở Mỹ (chủ yếu theo triết lý giáo dục liberal arts) nhằm vào một *lớp/class* chứ không phải chỉ là mức ưu tiên trên mỗi cá nhân (preference over individuals). Nghĩa là họ muốn đảm bảo trong class phải có sinh viên đa dạng, mang lại trải nghiệm đại học (college experience) đặc sắc cho các bạn. Theo triết lý này thì các phương pháp như DAA của Gale-Shapley không có chỗ ứng dụng: Triết lý này đánh giá cao ngoại tác qua lại (externalities) giữa sinh viên với nhau, và dựa vào xếp hạng mức ưu tiên (preference ranking) giữa các tập sinh viên (sets of students) chứ không phải chỉ là so sánh giữa các cá nhân. Trong khi phương pháp như DAA hoàn toàn dựa vào preference giữa các cá nhân (thậm chí còn phải là ưu tiên chặt chẽ strict preference nữa). Đây là điểm mấu chốt để nhận xét xem môi trường nào thích hợp cho DAA, môi trường nào không.

Câu hỏi là, Việt Nam nên theo triết lý này của các Đại học ở Mỹ, hay theo một triết lý khác, ví dụ đi theo các trường lớn ở Pháp?

Trả lời câu hỏi này rất quan trọng nhưng cần lưu ý rằng hiện nay Việt Nam phần nào vẫn đang thực hiện theo triết lý Pháp, xét tuyển chỉ dựa vào điểm thi đại học (ngoại trừ một số trường hợp nhỏ được ưu tiên bằng hình thức cộng điểm). Vấn đề là hệ thống hiện nay (kỳ tuyển sinh 2015 vừa rồi) có nhiều điểm bất cập mà chỉ cần áp dụng G-S thuần tuý cũng đã cải thiện thêm nhiều.

3.2 Về tính cạnh tranh của toàn hệ thống đại học

Hệ thống “xe duyên” tập trung (matching system) có thể sẽ không làm hỏng tính cạnh tranh của đại học. Trong hệ thống matching, các trường vẫn cạnh tranh để được nhiều thí sinh tốt chọn mức ưu tiên (prefer). Chuyện này trong hệ thống nào cũng có, và vẫn được đề cao. Thực chất là khi thí sinh được thoải mái ghi ra toàn bộ nguyện vọng (list of preference) của mình, chứ không phải chỉ chọn ra một vài trường, thì sức ép về competition còn cao hơn trước.

Song song với mối lo mất tính cạnh tranh là mối lo các trường nhỏ bị thiệt.

Sử dụng G-S hay một hệ thống tuyển sinh tập trung hóa (centralized) nào khác chưa chắc đã làm hỏng tính cạnh tranh giữa các trường, nhưng có thể sẽ làm giảm đa dạng hóa (diversification) giữa các trường và trong nội bộ từng trường, ví dụ vấn đề công bằng (equality). Ví dụ như thí sinh giỏi vào hết trường ở tốp đầu..

Đây là mối lo hợp lý, chủ yếu là do cạnh tranh (theo nghĩa trường nào tốt hơn sẽ được nhiều thí sinh tốt hơn) luôn là việc phải đánh đổi (trade-off) với công bằng. Các trường nhỏ, yếu cũng mong có thí sinh tốt. Một hệ thống xếp hạng dựa vào danh hiệu và uy tín (meritocratic) nặng hơn (giữa các trường) có thể dẫn đến việc các trường yếu hơn chịu thiệt hơn.

Đối nghịch với một hệ thống cạnh tranh ác liệt sẽ là một hệ thống thiên về công bằng, san sẻ toàn bộ: thí sinh chọn ngẫu nhiên vào các trường, bất kể là trường tốt hay yếu.

Như vậy có thêm một câu hỏi: về dài hạn, hệ thống nào sẽ tốt hơn cho sự phát triển của xã hội?

Về lâu dài, sự cạnh tranh bắt các trường phải tự cải thiện để thu hút thí sinh. Họ cũng có thể đưa ra chính sách nhắm vào một nhóm học sinh giỏi đặc biệt bằng cách đưa ra đối xử tốt hơn, không chỉ dựa vào điểm thi. Việc này có thể đưa vào hệ thống matching được. Ví dụ, trường A thuộc loại làng nhàng, những thí sinh trên 27 điểm sẽ được thêm tiền học bổng nếu chọn vào A. Như thế vẫn có thể ảnh hưởng lên nguyện vọng (preference) của thí sinh giỏi, và có thể thu hút một nhóm thí sinh giỏi có cảm tình với trường.

Hơn nữa, nguyện vọng (nhìn từ phía các trường đại học ở Việt Nam) từ trước đến giờ tương đối đơn giản (chỉ dựa theo điểm thi), nên có thể dự đoán là “kết quả tệ nhất” cho các trường cũng sẽ không quá tệ.

3.3 Nguyện vọng của thí sinh và chiến lược chọn trường

Mỗi thí sinh đưa ra danh sách nguyện vọng cá nhân của mình, hoàn toàn không phụ thuộc vào cơ hội trúng tuyển hay không. Nói cách khác, danh sách này là nguyện vọng của thí sinh nếu như được nhận tất cả các trường.

Nếu sử dụng thuật toán DAA của Gale Shapley với hướng thí sinh là bên “cầu hôn” (student proposer) thì cũng đồng nghĩa chiến lược chọn trường tốt nhất (best strategy) mà mỗi thí sinh nên làm là nộp danh sách nguyện vọng thực sự của mình. Đây là đặc tính nói thật (truth telling), hay là manipulation-proof, của phương pháp này.

Nếu chọn phương pháp khác, thì không đảm bảo đấy là best strategy, nên các thí sinh có thể chọn cách nộp danh sách không phải là nguyện vọng thực sự để tìm cách can thiệp (manipulate) vào kết quả cuối cùng. Đây cũng là một điểm quan trọng để chọn phương pháp “xe duyên”.

Việc mỗi thí sinh đưa ra một danh sách các trường theo nguyện vọng thực của mình còn tạo ra một sản phẩm phái sinh có ích. Đó là xếp hạng (ranking) các trường đại học dựa vào nguyện vọng được công bố (revealed preference).

Việc so sánh trực tiếp được 2 trường với nhau (bao nhiêu thí sinh thích trường A hơn B, so với bao nhiêu thí sinh thích trường B hơn A) có thể làm thước đo trực tiếp để các trường, khoa giống nhau có thể cạnh tranh và phấn đấu. Hiện giờ cũng có thể nhìn chút ít vào điểm chuẩn, nhưng thông tin từ đây rất ít so với dang sách nguyện vọng.

Ví dụ, trường A có thể có điểm chuẩn thấp hơn trường B, nhưng không phải vì A ít được ưa thích hơn so với B, mà lý do có thể là vì A nhận nhiều sinh viên hơn B, hoặc thậm chí cùng nhận 500 sinh viên, nhưng A nhận 400 em điểm trên 28 và 100 em điểm tầm 20 đến 21 (nên điểm chuẩn là 20), trong khi B nhận 400 em điểm từ 21 đến 22 (nên điểm chuẩn là 21). Đây không phải là cách duy nhất để xếp hạng các trường. Trước đây nhóm VED cũng đã bàn nhiều đến các cách xếp hạng dựa vào nội dung học, nhận xét của sinh viên, nhận xét của nhà tuyển dụng, khả năng sinh viên có việc vv. Ý tưởng ở đây là nguyện vọng được công bố (revealed preference) là một thông tin rất có giá trị cho việc đánh giá so sánh, nhất là về lâu dài, khi sinh viên có dự kiến và tự đánh giá tốt được vào mỗi trường sẽ như thế nào.

Lưu ý: để thực sự có được “revealed preference”, thì cách xe duyên (match) phải bảo đảm tính chất nói thật (truth telling), tức là thí sinh không can thiệp vào thứ tự nguyện vọng (manipulate preference order) của mình. Vì thế thuật toán DAA student-proposer lại có lợi thế nữa ở đây.

3.4 Tính ổn định và độ thỏa dụng xã hội của hệ thống

Đúng là không có phương pháp lựa chọn có được tất cả các yếu tố ưu việt nhưng trong trường hợp này DAA có vẻ như có nhiều yếu tố ưu việt quan trọng.

Vệc chọn kết quả tối ưu cho phe “cầu hôn” (thí sinh) là tương đối hợp lý nhìn từ quan điểm tối ưu cho người đề xuất (suitor-optimal) và bất lợi cho bên xét duyệt đề xuất (reviewer-pessimal). Trong ngữ cảnh các trường đại học công, phía thí sinh vào vai suitor sẽ không có vấn đề gì nghiêm trọng. Đại học công phục phụ cộng đồng, không phải là ngược lại.

Ví dụ gần với tuyển sinh cho đại học công của Việt Nam nhất là đóng góp của Roth trong việc chọn trường trung học ở New York. Xem thêm:http://www.nytimes.com/2014/12/07/nyregion/how-game-theory-helped-improve-new-york-city-high-school-application-process.html

Tính ổn định (stability) là một yếu tố rất quan trọng, vì nó quyết định tính khả thi trong thực tế. Nếu không có tính ổn định, thì sẽ có những thí sinh không chấp nhận mối kết duyên (match) của mình. Ví dụ thí sinh chỉ được nhận vào trường B, trong khi thích trường A hơn, mà có các bạn khác điểm thấp hơn vẫn được vào trường A. Đây là yếu tố có thể dẫn đến chuyện sụp đổ hoàn toàn hệ thống, dù cho có nhiều thí sinh được nguyện vọng số 1.

Về thỏa dụng xã hội (social utility). Rất khó để định nghĩa rõ ràng các lựa chọn xã hội (social choices). Có thể nhìn thấy rất nhiều trạng thái kết duyên không ổn định (non-stable matches) có giá trị hơn trạng thái cân bằng khi sử dụng DAA (student-proposer). Dựa vào trật tự Pareto (Pareto-order) trong các thí sinh với nhau: trạng thái cân bằng DAA (student-proposer) chính là tối ưu Pareto. Có thể có nhiều trạng thái kết duyên không ổn định cũng là tối ưu Pareto, nhưng giữa các kết duyên ổn định thì cân bằng DAA (student-proposer) hoàn toàn vượt trội.

Một đặc tính ưu việt của DAA (student-proposer) đó là việc thí sinh không thể can thiệp được vào kết quả. Đây là một tính chất rất đáng cân nhắc. Hiện nay rất nhiều thí sinh ở Việt Nam lựa chọn trường chỉ dựa vào khả năng được trường đó nhận học (thi đỗ) mà không quan tâm nhiều đến giá trị của ngành mình sẽ học, trường mình sẽ học. Hệ thống xét tuyển sử dụng DAA sẽ hiệu quả nếu các thí sinh nộp đơn với danh sách nguyện vọng thực tâm của mình.

IV. Đề xuất: Một số ý kiến

Nếu ứng dụng DAA vào xét tuyển đại học tập trung cho toàn quốc, cần phải có một trung tâm xét tuyển tập chung (centralized matching maker), tốt nhất là một cơ quan độc lập.

Hệ thống matching hoàn toàn có thể chỉ là một dạng định chế (institution), tức là một hệ quy tắc (system of rules) để thực hiện theo cách phi tập trung (decentralized). Tính ổn định của hệ thống giúp việc thực hiện phi tập trung hóa).

Yếu tố quan trọng nhất là công bố thông tin trung thực (reveal truthful information) toàn bộ nguyện vọng của thí sinh. Trong dài hạn, đây là điểm cải thiện tính minh bạch trong xã hội.

Đề xuất các bước tiến hành:

a) Tìm hiểu xem liệu chính phủ và Bộ GD ĐT có mong muốn và có khả năng cải hiện hệ thống matching hiện nay giữa các đại học và thí sinh.

b) Nếu câu trả lời là có, mời thêm các nhà nghiên cứu đầu ngành về “matching markets” và các lĩnh vực liên quan để thành lập một nhóm nghiên cứu (study group) để nghiên cứu kỹ lưỡng các khả năng khác nhau. Mở rộng thảo luận ra nhiều đối tượng khác nhau, kể cả ra xã hội, về các ưu tiên của một hệ thống được coi là tốt.

c) Về chuyên gia, VED có thể mời sang cùng làm việc với MoET và Chính phủ: Giáo sư Parag Pathak (MIT) , Giáo sư Alvin Roth (Stanford, Giải Nobel Kinh Tế). Những cá nhân như Parag Pathak có kinh nghiệm vượt trội trong việc thiết kế một hệ thống matching cho thế giới thực cũng như đánh giá được hệ thống hiện tại. Có thể kể thêm một số nhà kinh tế khác đang nghiên cứu về matching markets: Fuhito Kojima (Stanford), Mihai Manea (MIT), Alfred Galichon (Sciences Po).

d) Chính phủ và MOET tổ chức hội thảo khoa học với các diễn giả quốc tế nói trên, để đánh giá hệ thống hiện tại và các cách tiếp cận để cải thiện hệ thống này. .

Ý kiến đề xuất trên đây chỉ có thể thực hiện được nếu nó gắn liền với mong muốn và trở thành một phần trong sáng kiến của MOET về cải cách xét tuyển chung. Nếu những nghiên cứu có thể đi đến một kết luận (nội bộ) cụ thể, MOET có thể sử dụng kết luận nội bộ này để xây dựng một nhóm chuyên trách trách (special team) bao gồm các chuyên gia của nhóm nghiên cứu.

Nhóm chuyên trách sẽ nghiên cứu thiết kế tốt nhất (best design) và trình lên MOET để đưa vào triển khai thử nghiệm (pilot), cũng như kiểm tra với dữ liệu (backtest) của kết quả thi 2015.

Quá trình thực hiện trong thực tế cần được theo dõi (monitor) và đánh giá (evaluation). Thành công trong dài hạn phụ thuộc nhiều vào việc đánh giá triển khai.

V. Nhóm Đối Thoại GIáo Dục

1. Đỗ Quốc Anh (Học viện Nghiên cứu Chính trị Sciences Po, Paris, Pháp)

2. Ngô Bảo Châu (Đại học Chicago, Hoa Kỳ và Viện nghiên cứu cao cấp về toán, Việt Nam)

3. Lê Hồng Giang (Brisbane, Úc)

4. Ngô Quang Hưng (Đại học bang New York ở Buffalo, Hoa Kỳ)

5. Vũ Hà Văn (Đại học Yale, Hoa Kỳ)

và các thành viên khác trong nhóm Đối Thoại Giáo Dục

Phụ Lục

Năm 2014, từ thuật toán DAA, Đại học Thăng Long và Giáo Sư Hà Huy Khoái đã phát triển một thuật toán tuyển sinh và đã giới thiệu giải pháp này (đã được lập trình) tới Cục Khảo Thí.

HTN trích đăng phần giới thiệu giải pháp từ bản proposal của GS Hà Huy Khoái:

ĐỀ XUẤT MỘT PHƯƠNG ÁN TUYỂN SINH MỚI

Việc xét tuyển sẽ được thực hiện trên máy tính, theo một chương trình có nền tảng là thuật toán CHẤP NHẬN TRÌ HOÃN (DEFERED ACCEPTANCE ALGORITHM) do Gale và Shapley đưa ra năm 1964 [1] . (GS A. Roth.đã phát triển thuật toán này và áp dụng trong việc tuyển sinh các trường trung học ở Mỹ, điều tiết thị trường bác sĩ mới tại Mỹ, Anh và nhiều nước khác; nhờ đó đã được nhận giải Nobel về kinh tế năm 2012 cùng với Shapley [2])

Cách tuyển sinh này có các điểm ưu việt sau:

Thí sinh được vào học trường tốt nhất có thể đối với kết quả thi của họ (được vào học trường cao nhất có thể theo thứ tự ưu tiên của họ, tương quan với số điểm mà họ có). Thí sinh có thể bày tỏ nguyện vọng thật sự của mình về việc chọn trường mà không cần thông tin về kết quả thi của mình và người khác;

Các trường có được danh sách trúng tuyển tốt nhất theo nguyện vọng của thí sinh;

Loại bỏ triệt để các trường hợp ‘ảo” (mỗi thí sinh chỉ trúng tuyển chính thức tối đa 1 nguyện vọng);

Tiết kiệm công sức của các trường và của thí sinh;

Tiết kiệm tiền cho gia đình thí sinh, giảm một khoản chi lớn cho xã hội;

Rút ngắn rất nhiều thời gian xét tuyển.

Theo phương án này, Ban tuyển sinh của Bộ sẽ chạy “chương trình xét tuyển” (mục 4) để xác định danh sách trúng tuyển cho từng “đơn vị xét tuyển” (mục 1) trên cơ sở công thức tính “điểm xét tuyển” của các trường (mục 2), với dữ liệu từ “hồ sơ đăng ký tuyển sinh” của thí sinh (mục 3) và điểm thi của thí sinh.

Khái niệm “đơn vị xét tuyển”

Trong một kỳ tuyển sinh (theo phương thức “ba chung”), một cơ sở tuyển sinh (đại học, trường đại học, trường cao đẳng) sẽ được chia thành một hay nhiều “đơn vị xét tuyển” sao cho:

Mỗi đơn vị xét tuyển

chỉ tuyển sinh theo một khối thi duy nhất (có thể có nhiều ngành);

có một chỉ tiêu tuyển sinh chung, không quy định riêng cho từng ngành;

có cách tính điểm xét tuyển chung (xem phần sau), không phân biệt theo ngành.

Ví dụ 1: Trường X tuyển sinh 6 ngành: a, b, c, d, e và g. Ngành a thi khối A với chỉ tiêu tuyển sinh là 100; ngành b thi khối A với chỉ tiêu tuyển sinh là 150; ngành c thi khối A với chỉ tiêu tuyển sinh là 200; ngành d thi khối B với chỉ tiêu tuyển sinh là 100; ngành e thi khối B với chỉ tiêu tuyển sinh là 150; ngành g thi khối C với chỉ tiêu tuyển sinh là 200.

Hội đồng tuyển sinh trường quyết định tuyển sinh chung cho cả 3 ngành thi khối A với tổng chỉ tiêu là 450 rồi phân ngành sau, còn 2 ngành thi khối B thì tuyển riêng. Khi đó trường X sẽ được chia thành 4 đơn vị xét tuyển: đơn vị 1 phụ trách khối A của ba ngành a, b, c; đơn vị 2 phụ trách khối B của ngành d; đơn vị 3 phụ trách khối B của ngành e; đơn vị 4 phụ trách khối C của ngành g.

Ví dụ 2: Trường Y tuyển sinh 3 ngành: a, b và c. Ngành a nhận 200 thí sinh thi khối A và 200 thí sinh thi khối D1; ngành b nhận 150 thí sinh thi khối A và 250 thí sinh thi khối D1; ngành c nhận 300 thí sinh thi khối D1 và 100 thí sinh thi khối C.

Hội đồng tuyển sinh trường quyết định tuyển chung 450 chỉ tiêu khối D1 cho cả 2 ngành a, b; tuyển riêng 200 chỉ tiêu khối A cho ngành a, 150 chỉ tiêu khối A cho ngành b, 300 chỉ tiêu khối D1 cho ngành c và 100 chỉ tiêu khối C cho ngành c. Khi đó trường X sẽ được chia thành 5 đơn vị xét tuyển: đơn vị 1 phụ trách khối D1 của hai ngành a, b; đơn vị 2 phụ trách khối A của ngành a; đơn vị 3 phụ trách khối A của ngành b; đơn vị 4 phụ trách khối D1 của ngành c, đơn vị 5 phụ trách khối C của ngành c.

Chú ý: Đơn vị xét tuyển là “ảo” về mặt nhân sự. Nói cách khác, không cần có nhân sự nào cho các đơn vị xét tuyển.

Khái niệm “Điểm xét tuyển”

Mỗi đơn vị xét tuyển có một cách tính “Điểm xét tuyển” theo quy định của Hội đồng tuyển sinh trường.

Điểm xét tuyển là tổng của điểm thi và một số điểm cộng.

Điểm thi là tổng điểm các môn thi tuyển sinh của thí sinh (có thể có môn được nhân hệ số).

Các điểm cộng gồm: điểm ưu tiên khu vực (bắt buộc), điểm ưu tiên đối tượng (bắt buộc), điểm ưu tiên nguyện vọng 1 (không bắt buộc). Sau này, khi điều kiện thuận lợi hơn, một số trường có thể đưa thêm các điểm cộng mới như: điểm thành tích học tập ở bậc trung học. điểm thành tích về thể thao, hoạt động xã hội…

Ví dụ 1: Điểm thi của đơn vị xét tuyển α của trường X được tính như sau:

Điểm thi = 2*Điểm môn Toán + Điểm môn Lý + Điểm môn Hóa.

Ví dụ 2: Điểm thi của đơn vị xét tuyển β của trường Y được tính như sau:

Điểm thi = Điểm môn Toán + Điểm môn Lý + Điểm môn Hóa.

Việc đăng ký nguyện vọng của thí sinh

Trước kỳ thi tuyển sinh 3 – 4 tháng, các trường đại học công bố các ngành tuyển sinh, các khối thi, chỉ tiêu tuyển sinh và cách xác định điểm xét tuyển của các đơn vị xét tuyển của trường trên các phương tiện thông tin đại chúng và chuyển các dữ liệu đó cho Ban Tuyển sinh của Bộ GD và ĐT.

Trên cơ sở các thông tin của các trường, điều kiện và nguyện vọng của bản thân, mỗi thí sinh sẽ đăng ký dự thi tuyển sinh.

Phương án 1

Thí sinh thực hiện đăng ký dự thi tuyển sinh trên giấy theo mẫu mới của Bộ Giáo dục và Đào tạo. Điểm khác cơ bản của mẫu mới so với mẫu cũ là thí sinh có thể đăng ký tới 10 nguyện vọng theo thứ tự ưu tiên từ 1 đến 10 (số 10 là số tạm đề xuất, có thể thay bởi 1 số khác lớn hơn hay nhỏ hơn). Thí sinh không nhất thiết phải đăng ký đủ 10 nguyện vọng, nhưng bắt buộc phải đăng ký nguyện vọng 1. Nơi tiếp nhận hồ sơ đăng ký dự thi của thí sinh có trách nhiệm kiểm tra và xác nhận tính chính xác của các dữ liệu thí sinh kê khai trong hồ sơ, đặc biệt là các dữ liệu liên quan đến việc cộng điểm.

Cũng như trước đây, hồ sơ đăng ký dự thi của thí sinh được chuyển về trường nơi thí sinh sẽ dự thi để trường đó nhập vào máy tính và chuyển dữ liệu cho Bộ GD và ĐT.

Phương án 2

Thí sinh thực hiện đăng ký dự thi tuyển sinh như trước đây. Sau khi các trường công bố kết quả chấm thi, thí sinh sẽ đăng ký các nguyện vọng bổ sung theo thứ tự ưu tiên từ 2 đến 10 (cũng như trên, số 10 là số tạm đề xuất, và thí sinh không bắt buộc phải điền đủ cả 9 nguyện vọng bổ sung). Cách đăng ký nguyện vọng bổ sung cần phải nghiên cứu kỹ thêm, có thể qua các trường trung học phổ thông và các Sở Giáo dục và Đào tạo, hoặc qua đường bưu điện, hay qua mạng máy tính …

So sánh 2 phương án:

Phương án 1 thuận tiện trong việc đăng ký các nguyện vọng bổ sung và không làm tăng thời gian xét tuyển, tuy nhiên phương án này có nhược điểm: thí sinh thiếu dữ liệu quan trọng là điểm thi để lựa chọn các nguyện vọng bổ sung.

Phương án 2 gặp phải rắc rối trong việc đăng ký các nguyện vọng bổ sung và làm tăng thời gian xét tuyển nhưng lại có ưu điểm là thí sinh đã biết điểm thi khi lựa chọn các nguyện vọng bổ sung.

Như sẽ thấy sau đây, việc biết điểm thi không quá quan trọng đối với thí sinh để đưa ra nguyện vọng. Điều cốt yếu là thí sinh phải đưa đúng nguyện vọng THẬT, không phụ thuộc kết quả của mình so với người khác. Nếu thí sinh không nêu đúng nguyện vọng thật của mình thì chính họ là người bị thiệt thòi. Vì thế có thể chỉ cần Phương án 1.

—————–&&——————

Bài toán tuyển sinh trong Mechanism Design và Game Theory

(Tác giả: Nguyễn An Nguyên – Nguồn: hocthenao.vn)

***

1. Vấn đề thiết kế cơ chế tuyển sinh thuộc lớp bài toán kinh điển (1), đã giải xong từ những năm 1960s.

Lời giải cho bài toán này khá đơn giản, và đã được áp dụng thành công ở các tình huống tương tự. Chẳng hạn như chương trình tuyển bác sỹ nội trú ở Mỹ (2).

Đúng ra, đây phải là điểm khởi đầu của đề án cải cách tuyển sinh của Bộ GD, và trung tâm của cuộc tranh luận. Vì thế, tôi ngạc nhiên vì các bên quan tâm vẫn chưa đề cập tới.

***

2a. Phương án tối ưu là thu thập thông tin về thứ tự ưu tiên từng trường (school preference) của các học sinh, và đưa về một trung tâm xử lý cho cả nước (3).

Ví dụ, Bộ, thông qua các trường THCS, phát phiếu đăng ký tuyển sinh đến từng học sinh, với 10 – 20 lựa chọn theo thứ tự ưu tiên (ví dụ, 1. ĐH Quốc gia HN, ngành Máy tính; 2. Đại học Bách khoa HN, ngành Tự động hoá .v.v.). Các phiếu đăng ký này được gom về trung tâm xử lý.

Trung tâm này nhập liệu, kết hợp với thông tin về chỉ tiêu của từng bộ môn của các trường, dùng thuật toán để sắp xếp học sinh vào các trường.

Phương án này là công bằng và tối ưu (xem chú thích 1), đồng thời tiết kiệm nhất, vì chỉ cần khớp tuyển một lần (xem chú thích 2).

2b. Phương án hiện nay không hiệu quả là vì cả Bộ và các trường ĐH không biết thông tin về sở thích trường của học sinh (private information), cho đến khi họ nộp và rút đơn nhiều lần.

Tình trạng nộp/rút nhiều lần (“unstable marriage”) không những là kết quả, mà còn là cơ chế để hệ thống tìm ra thông tin về sở thích trường của các em học sinh.

Ngoài việc tốn kém, thì kết quả chung cuộc của cơ chế này vẫn không tối ưu.

Đấy là điều đáng tiếc.

***

3. Tuy thế, tôi vẫn trân trọng việc Bộ Giáo dục nhận thức được việc cần thay đổi cơ chế tuyển sinh, và đã thử nghiệm.

Học kỹ để làm nhanh thì tất nhiên là tốt hơn. Nhưng làm trước học sau, gắng chịu búa rìu dư luận để sửa chữa thì vẫn hơn là không làm gì.

Xin chia sẻ với các vị phụ huynh và các em học sinh phải chạy đôn chạy đáo trong những ngày hè nóng nực này. Hi vọng là từ 2016, chuyện này sẽ chỉ còn là một ký ức, như thời xếp hàng mua gạo.

—————————————

(1) Bài toán Tuyển sinh có thể được quy về Stable Marriage Problem, một chủ đề yêu thích của sinh viên ngành Mechanism Design và Game Theory.

Đề bài như sau: cho tập N trường học với chỉ tiêu c1, …, cN. Mỗi trường đều ưu tiên học sinh có điểm cao. Cho tập M học sinh i với thứ tự ưu tiên i1 > i2 >… > iM. Hãy ghép học sinh với các trường sao cho không tồn tại:
– học sinh H không được nhập học, hoặc thích trường T mà không vào được, trong khi
– trường T vẫn còn thừa chỗ, hoặc là đang nhận học sinh H’ có điểm thấp hơn H.

Tiêu chí này chính là tối ưu Pareto trong bài toán này.

Bạn nào hứng thú tìm lời giải thì có thể đọc từ Gale & Shapley-1962 (College Admissions and the Stability of Marriage) trở đi. Tiếc là tôi không chuyên về Mechanism Design, và từ lâu không nghiên cứu Kinh tế học nên không còn cập nhật.

Các bạn sinh viên ngành toán và computer science thì nên tự giải.

P/S: Các bạn giải xong thì nên nói chuyện với Trusting Social. smile emoticon Đây là startup dùng Big Data để giải quyết bài toán giúp người nghèo vay tiền, do tôi đồng sáng lập.

(2) https://goo.gl/B9AguK. Bài toán này còn đơn giản hơn là National Resident Matching Program như ví dụ trên, vì hiện tại các trường ĐH ở Việt Nam chỉ dựa trên điểm thi để nhận học sinh mà không cần xét tuyển từng học sinh. Trung tâm Xử lý có thể khớp học sinh/trường ĐH không cần đợi điểm chuẩn từ các trường.

(3) Trung tâm có thể là một công ty tư nhân, như https://natmatch.com/

——————-&&——————

TS Lương Hoài Nam đề xuất dùng thuật toán tuyển sinh

(Tác giả: Lương Hoài Nam – Nguồn: vnexpress.net)

Trong một kỳ tuyển sinh đại học, cao đẳng, dù ở nước ta hay các nước khác, số lượng thí sinh luôn lớn, từ hàng chục nghìn đến hàng trăm nghìn, thậm chí hàng triệu. Trong thâm tâm, mỗi thí sinh có nhiều nguyện vọng đại học, mỗi nguyện vọng lại có mức độ ưu tiên khác nhau, kiểu như “Tôi ao ước nhất là được vào trường này để học ngành này, còn bét ra thì vào trường kia để học ngành kia”. Có nguyện vọng cao nhất, có nguyện vọng thấp nhất và giữa chúng là các nguyện vọng khác.

Trong một kỳ tuyển sinh, số lượng trường tuyển sinh cho các ngành đào tạo cũng là một số lớn, với số lượng các cặp “trường – ngành” từ hàng trăm đến hàng nghìn, thậm chí đến hàng chục nghìn. Trường nào cũng muốn thu hút được học sinh giỏi cho các ngành đào tạo để có chất lượng đầu ra tốt và tạo được uy tín đào tạo đại học tốt.

Tuyển sinh đại học là một việc khó. Để làm tốt nó, phải sử dụng các thuật toán để biến nó từ khó trở nên dễ.

Trong lịch sử tuyển sinh đại học, nước ta từng sử dụng một thuật toán rất đơn giản nhưng khá được việc. Đó là cho phép mỗi thí sinh đăng ký duy nhất một ngành ở duy nhất một trường và xét chọn theo điểm từ trên xuống dưới, cho đến khi lấy đủ chỉ tiêu vào ngành đó của trường đó. Các thí sinh không được nhận vào trường duy nhất đó mặc nhiên trượt đại học. Thuật toán này dễ hiểu, dễ dùng, có thể làm bằng tay, không cần có phần mềm tuyển sinh. Excel đã là xa xỉ.

Nhưng thuật toán tuyển sinh đơn giản đó bất cập ở chỗ làm cho không ít thí sinh giỏi bị trượt đại học vì đăng ký thi vào cặp trường – ngành có mức cạnh tranh cao (mà thí sinh không thể biết trước). Trong khi đó, các học sinh yếu hơn lại đậu đại học vào các cặp trường – ngành có điều kiện tuyển sinh dễ hơn. Một số em giỏi hơn bị trượt đại học có thể vui vẻ vào học ở các trường – ngành tuyển sinh dễ hơn, nhưng thuật toán tuyển sinh áp dụng đã loại bỏ cơ hội của em ngay từ đầu.

Để giải quyết bất cập trên, hầu hết các nước đã cho phép thí sinh đăng ký nhiều nguyện vọng xét tuyển đại học trong một kỳ tuyển sinh. Việc tuyển sinh đại học trở nên phức tạp hơn nhiều và phải dùng thuật toán khác. Đó là thuật toán “Hôn nhân ổn định” (Stable Marriage) do Gale và Shapley (Mỹ) đưa ra vào năm 1962. Đối với cách tuyển sinh tập trung (Bộ Giáo dục chủ trì) và cách tuyển sinh phân tán (mỗi trường tự thực hiện), thuật toán này được sử dụng theo các cách khác nhau.

Trong trường hợp tuyển sinh tập trung, tôi xin mượn bảng tính Excel để mô tả một cách trực quan khả năng sử dụng thuật toán của Gale và Shapley, theo hình dung của tôi, như sau:

Ký hiệu một cặp “trường – ngành” là TxNy, trong đó T là mã trường, N là mã ngành. Trên một hàng của bảng Excel, điền tất cả cặp TxNy cho tất cả các trường, ngành tuyển sinh trong kỳ. Phía trên mỗi cặp TxNy, ghi tất cả điều kiện tuyển sinh vào cặp “trường – ngành” đó (khối thi, điểm thi tối thiểu của từng môn thi, tổng điểm thi tối thiểu của các môn thi, tổng số chỉ tiêu tuyển sinh…). Cho tất cả thí sinh cùng với kết quả thi của họ, tất cả nguyện vọng tuyển sinh của họ và thứ tự ưu tiên của mỗi nguyện vọng vào một “Đám mây thí sinh”. Kết thúc việc nhập thông tin đầu vào ở đây.

Chạy một bộ lệnh trên Nguyện vọng thứ nhất để “nhặt” từ Đám mây thí sinh vào mỗi một cột và tất cả các cột TxNy các thí sinh đạt điều kiện tuyển sinh, theo kết quả thi từ cao xuống thấp, cho đến khi mỗi cột đạt đủ chỉ tiêu tuyển sinh (hoặc cho đến khi không tìm được thêm thí sinh đạt điều kiện tuyển sinh theo Nguyện vọng thứ nhất nữa). Lập một Danh sách trúng tuyển sơ bộ cho mỗi cột TxNy, đồng thời, đánh đấu “Từ chối” tất cả các thí sinh khác có Nguyện vọng thứ nhất vào các cột.

Chạy một bộ lệnh trên Nguyện vọng thứ hai của Những người bị từ chối ở Nguyện vọng thứ nhất theo cách tương tự như trên và điều chỉnh Danh sách trúng tuyển sơ bộ ở mỗi cột trên cơ sở Danh sách trúng tuyển sơ bộ được lập theo Nguyện vọng thứ nhất và các thí sinh mới đạt điều kiện tuyển sinh theo Nguyện vọng thứ hai, xếp theo kết quả thi của các thí sinh từ cao xuống thấp, cho đến khi mỗi cột đạt đủ chỉ tiêu tuyển sinh (hoặc cho đến khi không tìm được thêm thí sinh đạt điều kiện tuyển sinh theo Nguyện vọng thứ hai trong số Những người bị từ chối ở Nguyện vọng thứ nhất).

Tiếp tục làm tương tự theo Nguyện vọng thứ ba, Nguyện vọng thứ tư,… và kết thúc ở nguyện Nguyện vọng thứ “n”. Đó là khi mà mỗi một thí sinh hoặc là đã nằm ở các Danh sách trúng tuyển sơ bộ, hoặc đã bị tất cả các cặp TxNy, mà thí sinh đó đăng ký đánh dấu “Từ chối”. Sau bước thứ “n”, các Danh sách trúng tuyển sơ bộ ở các cột sẽ trở thành các Danh sách trúng tuyển chính thức. Tất cả các thí sinh còn lại trong Đám mây thí sinh là những thí sinh trượt đại học trong kỳ tuyển sinh.

Để kiểm tra tính chính xác của việc tuyển sinh, cần “chạy” chương trình nhiều lần và đối chiếu kết quả giữa các lần. Về nguyên tắc, kết quả tuyển sinh trong tất cả các lần thực hiện phải tuyệt đối giống nhau. Mặc dù vậy, khi sử dụng thuật toán tuyển sinh này, vẫn có thể phát sinh một số trường hợp ngoại lệ, cần sự cân nhắc và can thiệp của con người.

Trong trường hợp tuyển sinh phân tán (các trường tự tuyển sinh, Bộ Giáo dục không can thiệp), việc áp dụng thuật toán này phức tạp hơn. Lý do là mỗi trường biết việc thí sinh đăng ký vào một hoặc một số cặp TxNy của trường mình, nhưng lại không biết thí sinh còn đăng ký tuyển sinh vào những trường khác, cũng không biết mức độ ưu tiên của từng nguyện vọng của thí sinh. Việc tuyển sinh trong trường hợp đó không thể kết thúc ngay trong một đợt, mà phải qua nhiều đợt.

Tôi xin sử dụng ngôn ngữ mô tả rất sinh động và thú vị của GS Vũ Hà Văn trong bài viết “Lấy người mình yêu và… không bỏ được”: “Trong bước thứ nhất, mỗi anh chàng sẽ ngỏ lời với cô gái mà anh ta thích nhất. Tất nhiên, cô nào sáng giá sẽ có nhiều cây si. Mỗi cô gái sẽ trả lời một cách lửng lơ “Để tớ xem!”, với anh chàng sáng giá nhất trong những cây si, và đá đít thẳng thừng những chàng còn lại. Sau bước này, nàng coi như có hẹn ước với cây si cao nhất đó, và chàng cũng coi như có hẹn ước với nàng.

Trong những vòng tiếp theo, mỗi chàng trai chưa có hẹn ước sẽ ngỏ lời với cô gái mà anh ta thích nhất vẫn còn nằm trong danh sách những cô chưa đá đít anh ấy. Anh chàng sẽ không quan tâm là cô gái đó đã có hẹn ước hay chưa. (Chiến thuật mặt dày này được ứng dụng tương đối hiệu quả sau khi thuật toán “bố mẹ đặt đâu con ngồi đấy” trở nên lỗi thời trong một số năm gần đây.) Về phần các cô gái, nếu được một anh chàng mới ngỏ lời, nàng sẽ cân nhắc so sánh với cây si hiện có (nếu có), và sẽ giữ lại cây cao điểm hơn”.

Chúng ta có thể thay các chàng bằng các thí sinh, còn các nàng bằng các trường đại học. Tất nhiên, trong trường hợp tuyển sinh phân tán, các trường đại học còn sử dụng các phương pháp tuyển sinh khác. Do trường toàn quyền quyết định việc tuyển sinh, họ hoàn toàn có thể xét và xác nhận kết quả tuyển sinh với từng thí sinh đăng ký vào trường mình, mà không quá phụ thuộc vào thuật toán tuyển sinh như trong trường hợp tuyển sinh tập trung.

——————–&&——————-

Filed under: Lý thuyết trò chơi | Leave a comment »

“Cha đẻ” của lý thuyết trò chơi giải bài toán khó “nợ công Hy Lạp”

Posted on 25.06.2015 by Tuấn Lê

“Cha đẻ” của lý thuyết trò chơi giải bài toán khó “nợ công Hy Lạp”

(Nguồn: cafef.vn)

Cuộc gặp gỡ giữa Bộ trưởng Tài chính Hy Lạp, người đàn ông ngang tàng Yanis Varoufakis, và các quan chức cấp cao châu Âu mặc áo motor jacket đi kèm với một chiếc sơ mi cổ hở có lẽ sẽ thu hút được John F. Nash Jr., “cha đẻ” của lý thuyết trò chơi và là nhà Toán học từng đạt giải Nobel vừa qua đời tháng trước.

Bản thân Yanis Varoufakis cũng là một nhà lý thuyết trò chơi rất đáng chú ý, ông là tác giả của cuốn: “Game Theory: a Critical Introduction” (tạm dịch Lý thuyết trò chơi: lời giới thiệu then chốt), và ông cũng là người hâm mộ lâu năm của Tiến sĩ Nash. Hai người đã từng gặp nhau tại Athens hồi tháng 6 năm 2000 sau khi Tiến sĩ Nash thuyết giảng về tiền tệ. Sau khi biết tin về cái chết của Tiến sĩ Nash, ông Varoufakis đã viết trên Twitter : “Đọc những tác phẩm của ông là niềm cảm hứng của tôi, gặp ông và dành thời gian bên ông như một phần thưởng chúa ban, vĩnh biệt John Nash Jr”.

Những cuộc đàm phán căng thẳng, quyết liệt giữa Hy Lạp và các chủ nợ ròng rã nhiều tháng trời đã khuẩy đảo thị trường tài chính toàn cầu và có vẻ như đang lên đến đỉnh điểm. Chúng chính là một phần trong trò chơi sinh tử đã hấp dẫn Tiến sĩ Nash, người đạt giải Nobel kinh tế học và cống hiến hết mình cho những nghiên cứu mà ông đi tiên phong.

Tác giả của cuốn “A Beautiful Mind” – cuốn tiểu sử cuối cùng của nhà Nobel kinh tế học Nash và cũng là tiền đề cho một số bộ phim đoạt giải Oscar, bà Sylvia Nasar nói rằng : “Đây chính xác là kiểu trò chơi win – win mà Nash đã có trong tâm trí. Hai người chơi đều có cả lợi ích chung và lợi ích đối lập”.

Thật không may cho tương lai thị trường tài chính Liên minh Châu Âu, không có một đảm bảo nào cho Hy Lạp và các chủ nợ sẽ đạt được thỏa thuận ngăn chặn viễn cảnh ngày tận thế – Hy Lạp vỡ nợ, điều mà sẽ làm cho Hy Lạp mất đi quyền thành viên trong Liên minh tiền tệ châu Âu và nổi lên những cuộc khủng hoảng khác.

Câu hỏi dành cho ông Varoufakis: tuần tới sẽ như thế nào khi định mệnh cả một nền kinh tế toàn cầu rộng lớn đặt lên vai ông.

Ông nói: “ Tôi không thấy gánh nặng của nền kinh tế toàn cầu, tôi cảm thấy gánh nặng của người dân Hy Lạp đặt trên vai ông. Nếu Hy Lạp nhỏ bé để sống sót mà làm ảnh hưởng đến nền tài chính thế giới thì đó là lỗi của chúng ta. Điều đó có thể lắm nếu Delaware làm sụp đổ nền kinh tế Hoa Kỳ. Đó là lỗi của Hoa Kỳ chứ không phải của Delaware.

Thật ra mọi người đều đồng ý rằng viễn cảnh Hy Lạp vỡ nợ đều là kết cục mà cả Hy Lạp và chủ nợ đều mong muốn. Ở giữa là Đức và Pháp; Ngân hàng Trung ương châu Âu và IMF. Một trong những điểm mấu chốt trong lý thuyết trò chơi của John Nash là cân bằng Nash – điều xảy ra khi chiến lược của mỗi bên là tối ưu dựa vào quyết định họ cho là người còn lại sẽ chọn.

Ví dụ, nếu Đức và các chủ nợ không tin rằng Hy Lạp đang đe dọa vỡ nợ và đánh giá thấp kết cục đó, họ sẽ phải giữ vững lựa chọn tối ưu đối với yêu cầu về cải cách kinh tế ở Hy Lạp. Một mặt khác, nếu Đức tin rằng ông Varoufakis được thúc đẩy về ý thức hệ để ngăn chặn tương lai đau thương, điều đó có thể sẽ nhượng bộ cho những yêu cầu của Hy Lạp rất tốt.

Đó có thể là một phần trong chiến lược của ông Varoufakis với cách hành xử màu mè và bài công báo quá khích đã bị người Hy Lạp coi nhẹ trong những lần đàm phán, một động thái dường như chỉ có thể tăng cường mức độ phổ biến đáng kể của ông. Ông tiếp tục là người chơi dẫn dắt trong các cuộc hội đàm và tiếp tục duy trì vị trí người cố vấn chính cho Thủ tướng Hy Lạp, Alexis Tsipras.

Trong cuộc đối thoại của chúng tôi tuần này, ông Varoufakis đã tìm ra được nhà kinh tế đứng đắn hơn là những kẻ cực đoan với đôi mắt hoang dã hoặc là những tay đua liều mạng. Ông trưng bày ra cả nguyên tắc trò chơi và những động thái phức tạp của các cuộc đàm phán hiện nay giữa Hy Lạp và các chủ nợ.

Mặt khác của cuộc đàm phán ông Varoufakis tỏ ra là một nhà lý thuyết trò chơi thực thụ nói rằng: “vẽ chân dung tôi như một thằng hề cũng chính làm làm việc cho tôi. Tôi là người đã từng sống trong nghịch cảnh và tất nhiên không để bản thân mình bị quấy rối bởi nghịch cảnh đó.Tôi biết tôi là ai và họ biết tôi là ai”.

Trò chơi tương đối đơn giản Game of chicken thường được viện dẫn để minh họa cho tình huống của Hy Lạp, nhưng nó chỉ có bề ngoài là liên quan. Bởi vì trong trò Game of chicken, hai xe ngược chiều di chuyển trên con đường hẹp đều muốn chuyển hướng – hai bên không có trao đổi lẫn nhau trước khi đưa ra quyết định, tuy nhiên Hy Lạp và các chủ nợ đã có thời gian trao đổi qua lại hàng tháng trời. Trong khi kết cục bi thảm chưa từng xảy ra với Hy Lạp nhưng lại xảy ra trong trò Game of chicken – một trong hai xe bị vỡ vụn và chết.

Chuyên gia lý thuyết trò chơi, ông Barry Nalebuff thuộc trường Yale School of management cho rằng: tình huống của Hy Lạp gần với các viễn cảnh phức tạp của Nash hơn: “Cả hai bên đều đồng ý tốt hơn hết là không nên đẩy Hy Lạp vào vực thẳm. Nhưng đẩy xa đến đâu vẫn còn đang bỏ ngỏ. Cả hai bên đều biết rằng bên kia đồng ý nhượng bộ vì lợi ích cá nhân của họ. Không bên nào chịu nhượng bộ nếu họ cho rằng đối phương sẽ hành động khác. Đó chính là bế tắc. Rất khó để thỏa mãn lợi ích cả hai bên. Do đó có thể có rất nhiều những phương án và điểm cân bằng khác nhau

Ông Varoufakis đồng ý rằng trong tình huống Hy Lạp, “trò chơi có vô vàn điểm cân bằng, và vì vậy, lỗi lầm có thể làm nổ ra một chuỗi các kết cục mà không ai có thể vừa dự đoán và cầm lái.”Ông cũng cho rằng: “ chúng ta có rất nhiều đối tác. Một vài người vẫn còn đang e dè chờ đợi thảm họa Hy Lạp vỡ nợ. Một vài người khác thì ít hơn. Một số khác thì hoàn toàn không lo sợ. Họ nghĩ rằng điều đó có thể ngăn chặn được. Đó là những dự đoán bất đồng lớn về kết cục có thể xảy ra. Ngay cả riêng Đức cũng có nhiều quan điểm trái ngược.

Không chắc chắn rằng tương lai hoàn toàn làm rối bất kỳ nhà phân tích lý thuyết trò chơi nào. Lấy dẫn chứng tác phẩm của giáo sư Frank Knight trường đại học Chicago, ông Varoufakis chỉ ra sự khác biệt giữa rủi ro và sự không chắc chắn. Đánh cuộc bằng cách tung đồng tiền thì có rủi ro cao, nhưng kết quả tiềm tàng và xác suất thì đều biết trước. “Không chắc chắn khi bạn không biết được tất cả những kết quả hoặc xác suất của mỗi kết quả có thể xảy ra. Đó là một sự không chắc chắn ”. Làm cho vấn đề phức tạp hơn, “những cuộc đàm phán bằng cả tình cảm và lý trí mà 2 bên tham gia, cộng đồng bên ngoài – nhà đầu tư, người dân trong và bao quanh Hy Lạp đang hiểu nhầm rằng lý thuyết trò chơi có thể cắt qua nút thắt Gordian.”

Nhà kinh tế và chuyên gia khủng hoảng tài chính trường đại học Harvard Kenneth Rogoff đồng ý sự không chắc chắn của kết cục Hy Lạp vỡ nợ góp phần làm duy trì tình trạng tắc ngẽn. Người Đức có thể đánh giá sai rủi ro ảnh hưởng xấu từ vỡ nợ của Hy Lạp, giống như chính phủ Mỹ đã sai lầm đối với thất bại của Lehman Brothers. “Đó là một mớ hỗn độn”, Rogoff kết luận. “Nếu bạn trong một trò chơi mà bạn không biết điều gì sắp xảy ra thì lý thuyết trò chơi có quyền lực”.

Mọi người vẫn đang rất hy vọng vào tình thế hiện nay. Ông Nalebuff nói rằng, một trong những đóng góp quan trọng của tiến sĩ Nash là thuyết allocentrism (tạm dịch: thuyết vị tha) yêu cầu các bên tham gia truy cập lợi ích các bên còn lại nhằm hiểu thêm vị thế mặc cả của họ. (điều này đối lập với thuyết vị kỷ – egocentrism). Để các chủ nợ biết có thể đẩy Hy Lạp đến đâu, họ cần phải hiểu về lợi ích và mục đích của chính phủ Hy Lạp. Và người Hy Lạp cần gì để bắt kịp những giải pháp hiệu quả cho Đức. Điều này rất cần sự ăn ý lẫn nhau, cho dù không được đảm bảo giải quyết bằng giải pháp tối ưu.

Tuần này, chính phủ Hy lạp đệ trình một bản kế hoạch mới, và chi tiết như thế nào thì vẫn được giữ kín, ông Varoufakis nói rằng: “Tất nhiên là chúng tôi đã cố gắng để hiểu họ muốn gì. Ở trong cuộc đàm phán này suốt hơn ba tháng trời giúp chúng tôi biết điều họ muốn. Chúng tôi chấp nhận mọi điều khoản cho dù khó nhằn đến đâu. Bản hòa ước cuối cùng mà Hy Lạp chấp thuận cho cải cách cấu trúc bao gồm vấn đề đang nóng hổi hiện nay là lương hưu và cải cách thuế, bù lại cho “một vài giao dịch hoán đổi nợ và ít thắt lưng buộc bụng”.

“Cực đoan là gì? Đó là cái gì đó kiểu như một luật sư phố Wall phải vượt qua ngày tháng vỡ nợ. Những ngày này, bất kỳ điều gì nhạy cảm mà bạn kiến nghị sẽ bị cho là cực đoan”, Varoufakis nói.

Hai bên vẫn có những cuộc đàm phán kéo dài và không hề có kết quả khả quan nào nổi lên. Ông Varoufakis cho rằng bên kia đang cố gắng để lừa Hy Lạp vào bẫy và đợi Hy Lạp quy hàng. “Có những phần tử có ý quy thuận và nói với các cử tri “Chúng tôi cảm thấy bẽ mặt với chính phủ Hy Lạp”. Có những phần tử mong muốn chúng ta thất bại và hy vọng chính quyền sẽ bị lật đổ. Điều này thật vớ vẩn. Đôi khi tôi ước phe họ có một nhà lý thuyết trò chơi lão luyện”.

Thảo Trang

Theo Trí thức trẻ/New York Times

————————&&———————-

Filed under: Lý thuyết trò chơi | Leave a comment »

Hiểu thêm về lý thuyết trò chơi của thiên tài John Nash

Posted on 11.06.2015 by Tuấn Lê

Hiểu thêm về lý thuyết trò chơi của thiên tài John Nash

(Nguồn: cafef.vn)

Lý thuyết trò chơi nghe có vẻ tầm thường và không quan trọng. Tuy nhiên, nó đã tạo nên một cuộc cách mạng trong việc tổ chức các ngành kinh tế, đồng thời ảnh hưởng đến nhiều nhánh khác của bộ môn kinh tế học, đặc biệt là trong chính sách tiền tệ và thương mại quốc tế.

Nhà toán học người Mỹ John Nash và vợ ông vừa không may thiệt mạng trong một vụ tai nạn xe hơi ở Mỹ. Năm 1994, ông cùng với hai nhà kinh tế học khác đã đoạt giải Nobel Kinh tế vì những đóng góp trong lĩnh vực lý thuyết trò chơi. Dưới đây là bản lược dịch của bài báo viết về lý thuyết trò chơi và những đóng góp của John Nash được tờ The Economist đăng tải từ năm 1994, ngay sau khi ông nhận giải Nobel.

Mọi thứ giống như một giấc mơ của những người yêu thích các hoạt động thể thao. Ngày 11/10/1994, tại Stockholm, ba người đàn ông chia nhau giải thưởng trị giá 1 triệu USD vì kỹ năng phân tích các trò chơi của họ. Họ không phải là những bình luận viên truyền hình hay những người phê phán kịch liệt Manchester United. Họ là những nhà kinh tế học. Hai nhà kinh tế học người Mỹ là John Harsanyi và John Nash cùng với Reinhard Selten (nhà kinh tế học người Đức) đã giành giải Nobel Kinh tế năm 1994 vì những nghiên cứu về “lý thuyết trò chơi”.

Lý thuyết trò chơi nghe có vẻ tầm thường và không quan trọng. Tuy nhiên, quan điểm đó hoàn toàn sai. Trong 20 năm trở lại đây, lý thuyết trò chơi đã tạo nên một cuộc cách mạng trong việc tổ chức các ngành kinh tế, đồng thời ảnh hưởng đến nhiều nhánh khác của bộ môn kinh tế học, đặc biệt là trong chính sách tiền tệ và thương mại quốc tế. Không có sinh viên kinh tế nào có thể hi vọng họ sẽ tốt nghiệp được mà không am hiểu những khái niệm cơ bản của lý thuyết trò chơi.

Cho tới khi lý thuyết trò chơi ra đời, hầu hết các nhà kinh tế học đều kết luận rằng các công ty có thể bỏ qua những tác động từ hành vi của họ đối với hành động của người khác. Kết luận này hoàn toàn đúng khi thị trường cạnh tranh hoàn hảo: hành động của một công ty hay một khách hàng không thể khiến bức tranh toàn cảnh trở nên khác biệt.

Tuy nhiên, trong rất nhiều trường hợp, kết luận trên hoàn toàn sai. Nhiều ngành bị thống trị bởi một số ít các doanh nghiệp. Bằng cách xây dựng một nhà máy mới hoặc đại hạ giá hay đơn giản là bóng gió về việc hạ giá, một doanh nghiệp có thể tác động đến hành vi của các doanh nghiệp khác. Một số quốc gia có thể áp đặt (hoặc dọa sẽ áp đặt) lệnh cấm vận thương mại. Chính phủ có thể tăng lãi suất ngắn hạn khi lạm phát quá thấp nhằm thuyết phục thị trường tài chính rằng họ đang nghiêm túc chống lại lạm phát.

Các ví dụ kể trên cũng giống như những trò chơi. Không có huấn luyện viên bóng đá nào lên kế hoạch cho một cuộc tấn công mà không tính toán đến phản ứng của các hậu vệ.

Lý thuyết trò chơi hiện đại được cho là “con đẻ” của nhà toán học John von Neumann và nhà kinh tế học Oskar Morgenstern. Đây là hai đồng tác giả của cuốn sách có tựa đề “Theory of Games and Economic Behaviour” (tạm dịch: Lý thuyết trò chơi và các hành vi kinh tế học) được xuất bản năm 1944. Messrs Harsanyi, Nash và Selten đã chuyển chúng thành các công cụ chính sách mà các nhà kinh tế học sử dụng ngày nay.

Đầu những năm 1950, Nash đưa ra khái niệm “điểm cân bằng Nash”, khi không người chơi nào muốn thay đổi chiến thuật vì đã biết tất cả mọi thứ về chiến thuật của những người chơi khác.

Sau đây là một ví dụ nổi tiếng về điểm cân bằng Nash. A và B là hai doanh nghiệp hoạt động trong cùng một ngành và cả hai đều có thể chọn chính sách giá thấp hoặc giá cao. Nếu cùng chọn giá cao, họ sẽ thu được mức lợi nhuận đầy đặn 3 triệu USD cho mỗi bên. Nếu giá thấp, mỗi công ty sẽ chỉ thu được 2 triệu USD. Tuy nhiên, nếu một bên chọn giá cao và bên còn lại chọn giá thấp, bên giá thấp sẽ thu được 4 triệu USD trong khi bên giá cao chỉ có 1 triệu USD. Mặc dù cùng chọn mức giá cao là lựa chọn có lợi nhất cho cả hai bên, họ sẽ không làm như vậy. Nếu A đưa ra giá cao, lựa chọn tốt nhất của B là đưa ra giá thấp hơn. Với suy nghĩ tương tự, A cũng sẽ đưa ra mức giá thấp và vì thế mỗi bên chỉ kiếm được 2 triệu USD.

Tuy nhiên, kết luận của Nash chỉ được áp dụng cho các trò chơi 1 lượt, hoặc trong các trường hợp người chơi hành động cùng thời điểm. Trên thực tế tất cả các trò chơi thú vị trong kinh tế đều có sự tương tác liên tục giữa nhiều bên. Selten đã mở rộng điểm cân bằng Nash để phù hợp với thực tế, từ đó nổi lên tầm quan trọng của lòng tin: không có điểm nào mà trong đó một người chơi đi theo kế hoạch mà người khác biết rằng sẽ phải thay đổi ở điểm nào đó.

Ví dụ, một công ty độc quyền có thể cố gắng ngăn cản đối thủ trong tương lai gia nhập vào thị trường bằng cách đe dọa sẽ có một cuộc chiến về giá nổ ra nếu đối thủ bước vào. Cuộc chiến này sẽ khiến người mới thua lỗ. Tuy nhiên, công ty độc quyền cũng phải trả giá. Nếu cuộc chiến về giá quá tốn kém, công ty độc quyền sẽ buộc phải chia sẻ thị phần với người mới. Trong trường hợp này, lời đe dọa sẽ có cuộc chiến về giá là không có cơ sở và do đó công ty mới hoàn toàn có thể bước vào thị trường.

Bên cạnh đó, khó có thể kết luận rằng người chơi có thể biết được chính xác suy nghĩ của người khác. Như giáo sư Adam Brandenburger của trường Kinh doanh Harvard đã nói, “đám sương mù bao phủ các trò chơi”. Tuy nhiên Harsanyi đã chỉ ra rằng các trò chơi mà trong đó người chơi không có được thông tin đầy đủ về những người chơi còn lại có thể được phân tích giống hệt cách phân tích các trò chơi cơ bản.

Khi một số người chơi có được thông tin mà người khác không có, họ có thể biến danh tiếng của mình thành lợi thế. Chính phủ nâng lãi suất để phát tín hiệu sẽ chống lại lạm phát là một ví dụ. Công ty độc quyền cũng có thể xây dựng hình ảnh sẵn sàng tham gia cuộc chiến về giá để ngăn các đối thủ mới.

Một số nhà kinh tế học vẫn hoài nghi về lý thuyết trò chơi. Nguyên nhân là bởi học thuyết này khá khó nắm bắt và đòi hỏi nhiều phép toán phức tạp. Tuy nhiên, đây cũng chính là ưu điểm bởi nó có thể phản ánh sự phức tạp của thế giới thực.

Thu Hương

Theo Trí thức trẻ/The Economist

—————–&&——————

Filed under: Lý thuyết trò chơi | Leave a comment »

LÝ THUYẾT TRÒ CHƠI VÀ KINH TẾ HỌC (KỲ III)

Posted on 31.07.2014 by Tuấn Lê

LÝ THUYẾT TRÒ CHƠI VÀ KINH TẾ HỌC (KỲ III)

(Tác giả: Don Ross – Người dịch: Hà Hữu Nga – Nguồn: vanhoanghean.com.vn)

4. Những trò chơi lặp lại và việc điều phối

Đến bây giờ chúng ta đã giới hạn sự chú ý của mình vào trò chơi một lần duy nhất, có nghĩa là những trò chơi trong đó các mối quan tâm chiến lược của các tay chơi không mở rộng hơn nút cuối của mối tương tác đơn của họ. Tuy nhiên các trò chơi thường được chơi với các trò chơi tương lai trong tư duy, và điều này có thể thay thế đáng kể cho những kết quả và các chiến lược cân bằng của họ. Đề tài của chúng ta trong phần này là những trò chơi lặp lại, có nghĩa là các trò chơi trong đó các tập hợp tay chơi mong muốn đối đầu với nhau ở những tình huống tương tự trong nhiều cơ hội. Chúng ta tiếp cận với những trò chơi này trước hết thông qua cái bối cảnh giới hạn của các nan đề người tù (PD) được nhắc lại.

Chúng ta đã thấy rằng trong một trò chơi PD một lần duy nhất thì chỉ có duy nhất một cân bằng Nash NE là sự phản bội chung. Tuy nhiên điều này có thể không duy trì được nữa khi các tay chơi mong muốn gặp lại nhau trong các trò chơi PD tương lai. Hãy tưởng tượng rằng bốn công ty khi tất cả đều thực hiện các cải tiến đồng ý với nhau giữ giá cao bằng cách hạn chế cung. (Tức là họ thành lập một cartel.) Điều đó sẽ chỉ thực hiện được khi mỗi công ty duy trì được hạn ngạch xuất đã được thỏa thuận. Một cách rất đặc trưng là mỗi công ty có thể tối đa hóa lợi nhuận của mình bằng cách không tuân thủ hạn ngạch đã được cam kết trong khi các công ty khác quan sát được công việc của họ, vì thế sau đó nó bán nhiều đơn vị ở mức giá thị trường cao hơn mức cartel qui định hầu như nguyên vẹn đó. Trong trường hợp một lần duy nhất toàn bộ các công ty sẽ cùng chung động cơ này để bỏ cam kết và cartel ấy sẽ lập tức sụp đổ. Tuy nhiên các công ty mong muốn đối mặt với nhau trong cạnh tranh trong một giai đoạn dài. Trong trường hợp này mỗi công ty biết rằng nếu nó vi phạm thỏa thuận của cartel thì các công ty khác có thể trừng phạt nó bằng cách định giá dưới giá trong một thời gian dài đủ để loại bỏ cái thắng lợi ngắn hạn của nó. Tất nhiên các công ty trừng phạt sẽ chịu thiệt thòi ngắn hạn trong giai đoạn định giá dưới giá. Nhưng những thiệt thòi này cũng đáng để chịu nếu họ mong muốn tái lập cartel và để tối đa hóa mức giá về lâu dài.

Một chiến lược đơn giản và rất nổi tiếng (nhưng không nhất thiết là tối ưu, ngược lại với cái huyền thoại phổ biến rộng khắp) trong việc bảo vệ sự hợp tác trong các trò chơi PD lặp lại được gọi là tit-for-tat. Chiến lược này bảo cho mỗi tay chơi cách hành xử như sau:

i) Luôn luôn hợp tác ở vòng đầu

ii) Sau đó thực hiện bất cứ hành động nào mà đối thủ của bạn thực hiện ở vòng trước.

Một nhóm tay chơi tất cả đều chơi trò tit-for-tat sẽ không bao giờ thấy bất cứ một sự bội ước nào. Vì trong một tập hợp nơi mà những người khác chơi tit-for-tat, thì tit-for-tat đáp trả duy lý đối với mỗi tay chơi, mỗi tay chơi tit-for-tat đều là một cân bằng Nash NE. Bạn vẫn thường thấy một số người biết đôi chút về lý thuyết trò chơi (nhưng không đủ) nói cứ như đây là nơi kết thúc của câu chuyện. Thực ra thì không phải như vậy.

Có hai điều phức tạp ở đây. Trước hết, các tay chơi phải không chắc chắn về việc là khi nào thì hành động của họ kết thúc. Giả sử các tay chơi biết khi nào thì vòng cuối cùng sẽ đến. Trong vòng đó, người chơi sẽ là người duy lý để bội ước, vì không có sự trừng phạt nào có thể thực hiện được. Bây giờ chúng ta hãy xem vòng cuối cùng-thứ hai. Trong vòng này, các tay chơi cũng không phải đối mặt với bất cứ sự đe dọa trừng phạt nào, vì họ biết thế nào họ cũng sẽ bội ước ở vòng cuối cùng. Vì vậy họ bội ước ở vòng cuối cùng thứ hai. Nhưng điều đó có nghĩa là họ không phải đối mặt với đe dọa trừng phạt ở vòng cuối cùng thứ ba, và cũng bội ước ở đó. Chúng ta có thể đơn giản lặp đi lặp lại điều đó qua cây trò chơi cho đến khi chúng ta đạt được vòng đầu tiên. Vì hợp tác không duy lý trong vòng đó nên trò chơi tit-for-tat không còn là một chiến lược duy lý, và chúng ta đạt được cùng một kết quả – sự bội ước chung – như trong trò chơi PD một lần duy nhất vậy. Vì vậy hợp tác chỉ là có thể trong trò chơi PD lặp lại mà ở đó số lần lặp lại mong muốn là vô định. (Tất nhiên, điều này áp dụng cho nhiều trò chơi trong đời thực).

Nhưng giờ đây chúng tôi xin giới thiệu một rắc rối thứ hai. Hãy giả định rằng khả năng của những người chơi để phân biệt sự bội ước khỏi sự hợp tác là không hoàn hảo. Hãy xem xét trường hợp của chúng ta về cái cartel thực hiện các cải tiến đã nói. Giả sử các tay chơi thấy rõ thị trường sản phẩm xuống giá. Có lẽ đó là vì một thành viên trong cartel đã bội ước. Hoặc có lẽ đã nảy sinh ra một tình trạng khủng hoảng cầu ngoại sinh. Nếu các tay chơi tit-for-tat mắc lỗi ở trường hợp thứ hai thay cho trường hợp thứ nhất thì họ sẽ bội ước, vậy là tình trạng tăng phản ứng dây truyền những bội ước chung mà từ đó chúng có thể không bao giờ khôi phục lại được, vì mỗi tay chơi sẽ đáp lại cái bội ước đầu tiên mà họ gặp phải, vậy là bội ước ngày càng tăng thêm, vv….

Nếu các tay chơi biết rằng có thể xảy ra tình trạng giao tiếp sai lệch như vậy thì họ phải viện đến các chiến lược tinh vi hơn. Đặc biệt họ cần chuẩn bị để đôi khi phải liều thực hiện các bội ước để kiểm tra các suy luận của họ. Tuy nhiên họ không được đối xử quá tha thứ, vì sợ những tay chơi khác phát hiện được rằng tối ưu duy lý có thể giúp khai thác thông qua những bội ước cố ý. Nói chung các chiến lược tinh vi đều có vấn đề. Vì đối với những người chơi khác chúng khó suy luận hơn nên càng ngày họ càng sử dụng nhiều xác suất giao tiếp sai. Nhưng giao tiếp sai lại là cái tạo ra những cân bằng hợp tác trong trò chơi lặp lại để tháo gỡ ở ngay vị trí đầu tiên! Đạo lý của vấn đề này là ở chỗ các trò chơi PD thậm chí ngay cả những trò chơi lặp lại cũng rất khó thoát ra được. Các tay chơi duy lý tìm mọi cách để tránh các tình huống PD, mà không dựa vào các mưu chước tinh quái để cố thoát ra khỏi chúng.

Các màn kịch chính trị xã hội thực và phức tạp đôi khi cũng là những ví dụ rất sáng rõ cho những trò chơi đơn giản như PD. Hardin (1995) đã đưa ra một phân tích về hai trường hợp chính trị rất thực (và rất bi kịch) mới đây là cuộc nội chiến Yugoslavia 1991-1995, và sự diệt chủng tại Rwanda như là những trò chơi PD ẩn bên trong các trò chơi phối hợp. Một trò chơi phối hợp xuất hiện khi tiện ích của hai hoặc nhiều tay chơi được tối đa hóa bằng cách thực hiện cùng một việc, và ở nơi mà đối với họ sự phù hợp quan trọng hơn cái mà cả hai bên cùng làm.

Một ví dụ tiêu biểu thể hiện qua các qui tắc đi đường: “Tất cả đều lái xe bên trái” vừa là những kết quả thuộc các cân bằng Nash, lại vừa không hiệu quả hơn kết quả khác. Trong các trò chơi phối hợp “thuần túy”, thậm chí việc sử dụng các tiêu chuẩn cân bằng lựa chọn nhiều hơn cũng không ích gì. Chẳng hạn giả sử rằng chúng ta yêu cầu các tay chơi suy lý theo qui tắc Bayes (xem phần 3 ở trên). Trong các hoàn cảnh này, bất cứ chiến lược nào là lời đáp hiệu quả nhất đối với bất cứ vector nào của các chiến lược hỗn hợp có sẵn trong cân bằng Nash thì đều được gọi là có thể duy lý hóa. Có nghĩa là một tay chơi có thể phát hiện ra một tập hệ thống các niềm tin cho những tay chơi khác đến mức mà bất cứ một lịch sử trò chơi nào đi theo một đường dẫn cân bằng thì cũng đều phù hợp với tập hệ thống đó. Các trò chơi phối hợp thuần túy đều được đặc trưng bởi những vector không-duy nhất của các chiến lược có thể duy lý hóa. Trong những tình huống như vậy, các tay chơi có thể cố tiên đoán những cân bằng bằng cách đi tìm những tiêu điểm, có nghĩa là các đặc điểm của một vài chiến lược mà họ tin là quan trọng nhất đối với các tay chơi khác, và họ tin là những tay chơi khác cũng sẽ tin là quan trọng nhất đối với họ. (Chẳng hạn nếu hai người muốn gặp nhau vào một ngày nhất định trong một thành phố lớn nhưng lại không thể liên lạc được với nhau để sắp xếp về thời gian và địa điểm, thì có lẽ cả hai phải rất nhạy bén đi đến các quảng trường nổi tiếng nhất ở trung tâm thành phố vào buổi trưa). Không may là trong nhiều trò chơi chính trị và xã hội do con người thực hiện (và đôi khi cả những con thú khác) thì các thuộc tính bề mặt mang tính sinh học mà con người tự phân loại thành các nhóm chủng tộc và dân tộc đều tỏ ra có hiệu quả cao như những đặc điểm đó. Phân tích của Hardin về các cuộc diệt chủng là dựa vào sự thật này.

Theo Hardin, không phải các thảm họa ở Yugoslavia, cũng không phải các thảm họa ở Rwanda là những trò chơi mà người ta bắt đầu với chúng. Có nghĩa là không phải là tình thế, mà là phe phái, chính hầu hết mọi người bắt đầu bằng cách đối chiếu sự hủy hoại của người khác với sự hợp tác chung. Tuy nhiên cái logic chết người của sự phối hợp, được tiếp tay làm bậy một cách chu đáo của các chính khách đã tạo ra các trò chơi PD một cách sôi động. Một số cá nhân người Serbs (Hutus) đã được cổ vũ để lĩnh hội các quyền lợi cá nhân như là những gì đúng đắn nhất thông qua việc đồng nhất với các lợi ích nhóm của người Serbs (Hutus). Có nghĩa là họ nhận thức rằng một số hoàn cảnh của họ chẳng hạn như những hoàn cảnh liên quan đến cạnh tranh về việc làm thực sự có hình thức giống hệt các trò chơi phối hợp. Vì vậy họ đã hành động sao cho có thể tạo ra được các tình huống mà trong đó điều này cũng là thật đối với những người Serbs (Hutus) khác. Rốt cuộc, một khi đủ người Surbs đồng nhất tư lợi với quyền lợi nhóm thì sự đồng nhất đó trở nên hầu như là hoàn toàn chính xác, vì (1) mục đích quan trọng nhất đối với mỗi người Serb là thực hiện một cái gì đó na ná như mỗi người Serb khác sẽ làm, và (2) hầu hết những gì mà người Serb phải làm để có thể phối hợp lại thì chính là loại trừ người Croats (Tutsi). Có nghĩa là các chiến lược liên quan đến hành vi loại trừ như vậy được lựa chọn như là một kết quả của việc xác định được các tiêu điểm hiệu quả. Chính tình huống này đã làm nảy sinh trường hợp là quyền tư lợi của một cá nhân – và bị đe dọa về phương diện cá nhân – người Croat (Tutsi) được tối đa hóa một cách tốt nhất bằng việc phối hợp lại dựa trên bản sắc-nhóm Croat (Tutsi) quả quyết, chính là thứ làm tăng thêm sức ép đối với người Serbs (Hutus) để họ phối hợp lại, vv….Cần lưu ý rằng đó không phải là một khía cạnh của việc phân tích này, một khía cạnh mà những người Serbs hoặc Hutus bắt đầu các công việc của họ; quá trình đó có thể hoàn toàn mang tính thuận nghịch (ngay cả khi nó không diễn ra trong thực tế). Nhưng kết quả thì lại thật là khủng khiếp: người Serbs và Croats (Hutus và Tutsis) hình như càng ngày càng đe dọa nhau khi họ cùng chạy đua tự vệ, cho đến khi cả hai đều thấy bắt buộc phải hành động trước để ngăn chặn đối thủ và đánh phủ đầu. Nếu Hardin đúng – và vấn đề ở đây không phải là nhất quyết rằng ông ta đúng hay không, mà điều cần thiết là phải chỉ ra rằng tầm quan trọng mang tính thế giới của việc quyết định xem những tác nhân trò chơi nào thực sự đang chơi – sau đó sự hiện diện duy nhất của một áp lực bên ngoài (NATO?) cũng sẽ không thay đổi được trò chơi, thay đổi được thế cờ mà sự phân tích theo quan niệm của Hobbes, vì áp lực đó có thể đã không đe dọa bên này hai bên kia bằng bất cứ cái gì tồi hơn cái khiến cho tay chơi này e ngại tay chơi kia. Cái cần thiết chính là sự chia lại các thang giá trị của các lợi ích, là thứ (người ta có thể cho rằng) đã xảy ra ở Yugoslavia khi quân đội Croatian bắt đầu chiến thắng một cách quyết định, trong cái thời điểm mà những người Serbs Bosnia quyết định rằng các lợi ích cá nhân/nhóm của họ được đáp ứng tốt nhất bằng sự hiện diện của các lực lượng giữ gìn hòa bình của NATO. Trong khi cuộc xung đột ở Rwanda đã kéo theo vào đó các quốc gia láng giềng (Congo) mà những phát triển chính trị và quân sự đã làm cho nó thay đổi.

Tất nhiên vấn đề không phải là ở chỗ hầu hết những trò chơi lặp lại đều dẫn tới thảm họa. Cơ sở sinh học của tình bạn ở con người và ở động vật có lẽ phần nào là một hàm logic của các trò chơi lặp lại. Tầm quan trọng của khoản nhận được thông qua sự hợp tác trong các trò chơi tương lai hướng dẫn những con người mong muốn tương tác với nhau trở nên ít ích kỷ hơn sự cám dỗ sẽ gợi ý trong các trò chơi hiện tại. Hơn nữa, việc chăm sóc cho những lợi ích và tình cảm chung đem đến những mạng lưới của các tâm điểm xung quanh những gì mà sự phối hợp có thể được tạo thêm điều kiện thuận lợi.

5. Cam kết

Trong một số trò chơi, các tay chơi cải thiện các kết quả của họ bằng cách thực hiện các hành động làm cho họ không thể thực hiện được những gì là hành động thành công nhất của mình trong các trò chơi vận động đồng thời tương ứng. Những hành động như vậy được coi như là các cam kết, và chúng có thể được coi là các thay thế cho sự tăng cường ngoại sinh trong các trò chơi gắn chặt với các cân bằng không hiệu quả-Pareto.

Hãy xem xét kỹ lưỡng cái ví dụ giả định sau đây (đây không phải là một trò chơi PD). Giả sử bạn sở hữu một mảnh đất nằm kề một cái mỏ, và tôi muốn mua nó để mở rộng thêm mảnh đất của tôi. Chẳng may bạn lại không muốn bán với cái giá mà tôi muốn mua. Nếu chúng ta đồng thời thay đổi – bạn thông báo một giá bán còn tôi thì cũng độc lập đưa cho nhân viên của tôi một cái giá hỏi mua lúc đầu – sẽ không có sự mua bán trong trường hợp này. Vì vậy tôi có thể cố gắng thay đổi các động cơ của tôi bằng cách thực hiện một vận động mở trong đó tôi tuyên bố rằng tôi sẽ xây dựng một nhà máy xử lý nước thải có mùi thối trên mảnh đất của tôi, bên cạnh mảnh đất của bạn trừ khi bạn bán miếng đất đó, bằng cách ấy giảm giá của bạn. Giờ đây chúng ta quay trở lại với trò chơi vận động tuần tự. Tuy nhiên cho đến bây giờ vận động này vẫn không thay đổi được điều gì cả. Nếu bạn từ chối ngay cả khi tôi đe dọa, sau đó tôi cũng chẳng quan tâm gì đến vấn đề đó nữa, bởi vì trong khi phá bạn, tôi cũng phá chính bản thân tôi. Vì khi bạn biết điều này thì bạn cũng sẽ lờ đi lời đe dọa của tôi. Lời đe dọa của tôi là không đáng tin, một câu chuyện vớ vẩn.

Tuy nhiên tôi vẫn có thể làm cho câu truyện của mình đáng tin bằng cách cam kết với chính bản thân mình. Tôi có thể ký một hợp đồng với một số nông dân bằng cách hứa cung cấp cho họ nước thải đã xử lý (phân bón) từ nhà máy của tôi, nhưng bao gồm một điều khoản thoát trong hợp đồng giải thoát tôi khỏi trách nhiệm chỉ khi tôi có thể mở rộng gấp đôi mảnh đất của tôi và đưa nó vào một mục đích sử dụng khác. Giờ đây lời đe dọa của tôi là đáng tin: nếu bạn không bán, tôi sẽ cam kết xây dựng một nhà máy xử lý chất thải. Vì bạn biết điều này nên giờ đây bạn có một động cơ để bán mảnh đất của bạn cho tôi để thoát khỏi sự phá sản đó.

Loại trường hợp này bộc lộ một trong nhiều khác biệt cơ bản giữa logic của sự tối đa hóa tham số và phi tham số. Trong các tình huống tham số, một tác nhân có thể không bao giờ bị chơi xấu bằng cách có nhiều lựa chọn hơn. Nhưng ở đâu các hoàn cảnh là phi tham số thì chiến lược của một tác nhân có thể bị ảnh hưởng vào sở thích của người khác nếu các lựa chọn rõ ràng là hạn chế. Sự kiện đốt thuyền của Cortez (xem phần I) tất nhiên là một ví dụ về trường hợp này, một ví dụ có thể được sử dụng để tạo ra cái ẩn dụ thông thường.

Một ví dụ khác sẽ minh họa cho điều này, cũng như minh họa cho tính có thể ứng dụng của các nguyên tắc các loại trò chơi. Trong trường hợp này chúng ta sẽ xây dựng một tình huống tưởng tượng, một tình huống không phải là một trò chơi PD – vì chỉ duy nhất một tay chơi có động cơ để bội ước – nhưng là một song đề xã hội đến mức mà cân bằng Nash của nó lại không có sự cam kết thì chính là Pareto-cấp thấp so với một kết quả có thể đạt được với một phương thức cam kết. Hãy giả định rằng hai chúng ta cố gắng săn trộm một con linh dương hiếm trong một vườn quốc gia để bán cho nhà trưng bày. Một người trong chúng ta phải lùa con vật chạy về hướng người kia đang đợi để bắn nó và đưa nó vào một chiếc xe tải. Tất nhiên bạn hứa chia cho tôi khoản tiền thu được. Tuy nhiên lời hứa của bạn là không đáng tin cậy. Khi bạn đã nhận được tiền, bạn không có lý do gì để ném món tiền đi mà lại bỏ được vào túi toàn bộ giá trị của nó. Cuối cùng tôi không thể oán trách cảnh sát sao lại không bắt giữ cả tôi. Nhưng giờ đây hãy giả sử rằng tôi bổ sung thêm một vận động tiếp theo vào trò chơi. Trước khi săn tôi lắp vào xe tải một chiếc chuông báo động mà tôi có thể tắt nó chỉ bằng cách bấm vào một mã số. Chỉ có mình tôi biết mã số đó. Nếu bạn cố tách ra khỏi tôi thì chuông sẽ kêu và cả hai chúng ta sẽ bị bắt. Vì biết rõ về điều này nên bạn có động cơ để đợi tôi. Vấn đề quyết định cần lưu ý trong tình huống này là bạn muốn tôi lắp chuông vì điều đó làm cho lời hứa chia tiền của bạn cho tôi là đáng tin cậy. Nếu tôi không làm thế bằng cách làm cho lời hứa của bạn không đáng tin cậy thì chúng ta sẽ không thể đồng ý để trước hết là thử cái tội lỗi đó, và cả hai chúng ta sẽ bỏ mất một dịp kiếm được tiền. Vậy là bạn được hưởng lợi từ sự giàng buộc của tôi đối với bạn.

Chúng ta có thể kết hợp phân tích của mình về PD và các phương cách cam kết trong thảo luận về việc ứng dụng đầu tiên làm cho lý thuyết trò chơi trở nên nổi tiếng bên ngoài các cộng đồng học thuật. Tác dụng làm cân bằng hạt nhân giữa các Siêu cường trong Chiến tranh lạnh đã được nghiên cứu một cách thấu đáo bởi thế hệ đầu tiên của các nhà lý thuyết trò chơi, trong đó có nhiều người phục vụ cho Bộ quốc phòng Mỹ. Xem (Poundstone 1992 để biết chi tiết về phương diện lịch sử). Cả Mỹ và Liên Xô đều duy trì chính sách sau. Nếu một bên tiến hành tấn công trước thì bên kia đe dọa trả đũa bằng một cuộc phản công hủy diệt. Cặp chiến lược thuận nghịch này vào cuối những năm 1960s đã có khuynh hướng thực sự làm cho thế giới căng thẳng theo cách “Sự huỷ diệt Được bảo hiểm Chung – ‘Mutually Assured Destruction’, or ‘MAD’). Các lý thuyết gia trò chơi phản ứng rằng MAD quá mát (điên) vì nó làm cho Nan đề Người tù trở thành kết quả của một sự thật là những đe dọa đối địch nhau là không thể tin được. Giả sử Liên Xô khởi sự tấn công trước chống lại Mỹ. Trong thời điểm đó, tổng thống Mỹ đối mặt với tình huống sau. Đất nước ông đã bị hủy diệt. Ông không thể làm cho nó hồi sinh lại được bằng cách làm cho thế giới căng lên, vì vậy ông không có động cơ để thực hiện lời đe dọa của mình, là thứ mà giờ đây đã thất bại rõ ràng.Vì người Nga biết rõ điều đó nên họ sẽ phớt lờ lời đe dọa và tấn công trước! Tất nhiên người Mỹ cũng ở vào tình trạng tương tự. Mỗi cường quốc sẽ nhận ra động cơ này của phía bên kia, và vậy là sẽ đoán trước được cuộc tấn công nếu họ không tiến hành trước. Vì vậy cái mà chúng ta sẽ chờ đợi, vì nó là một cân bằng Nash duy nhất nên nó là cuộc chạy đua giữa hai cường quốc để trở thành kẻ tấn công đầu tiên.

Việc phân tích lý thuyết trò chơi đó đã gây ra một nỗi kinh hoàng thực sự và sự hoảng sợ đối với cả hai bên trong thời gian Chiến tranh lạnh, và được cho là đã tạo ra một số cố gắng to lớn trong việc xây dựng các phương cách cam kết chiến lược. Chẳng hạn một số giai thoại ỡm ờ rằng Tổng thống Nixon đã bắt CIA cố gắng chứng tỏ cho người Nga biết rằng ông ta điên khùng hoặc say rượu đến mức mà họ tin rằng ông ta sẽ tiến hành tấn công trả thù ngay cả khi ông ta không hề còn quan tâm đến nó nữa. Tương tự như vậy, KGB Sôviết cũng tiết lộ để khẳng định rằng đã có những báo cáo chi tiết về y học thổi phồng tình trạng suy nhược thần kinh tương tự của Brezhnev. Cuối cùng thì sự cân bằng chiến lược làm cho các nhà phân tích thuộc Lầu năm góc quan tâm trở nên rất phức tạp và có lẽ đã bị sụp đổ bởi những thay đổi trong các chiến thuật triển khai tên lửa Mỹ. Họ trang bị cho các hạm đội tàu ngầm với số tên lửa đủ để phá hủy Liên Xô. Điều này đã làm cho mạng lưới truyền thông của họ ít tính đáng tin, và bằng cách làm như vậy, họ đã đưa ra được một yếu tố về tính bất định có liên quan về phương diện chiến lược. Có lẽ tổng thống có thể ít được đảm bảo tiếp cận được với các hạm đội tàu ngầm và ngừng ra lệnh tấn công nếu bất cứ tên lửa nào của Liên Xô xuất hiện trên màn hình rađa ở Bắc Canada. Tất nhiên giá trị của vấn đề này trong việc phá vỡ tính cân bằng tùy thuộc vào việc người Nga có nhận thức được về vấn đề tiềm tàng hay không. Trong bộ phim kinh điển của Stanley Kubrick Tiến sĩ Strangelove, thì thế giới bị phá hủy bởi một sự tình cờ vì người Nga chế tạo ra một chiếc máy cho ngày phán xử cuối cùng nó sẽ tự động ấn nút phát động cuộc chiến tranh hủy diệt bất chấp quyết định của người lãnh đạo của đất nước họ theo đuổi đến cùng đối với răn đe MAD, nhưng sau đó lại giữ bí mật về nó! Kết quả là khi một đại tá Mỹ rõ ràng là bị điên đã phóng các tên lửa vào Nga theo ý muốn của anh ta, thì tổng thống Mỹ phải cố thuyết phục đối tác Sô viết của mình rằng cuộc tấn công đó là không hề cố ý, và thủ tướng Nga đã bẽn lẽn nói với ông về chiếc máy tự động bí mật của họ. Giờ đây có thể cả hai lãnh đạo sẽ không làm gì, mà chỉ nhìn vào sự mất hết tinh thần khi thế giới bị căng cứng sợ hãi vì một sai lầm trong lý thuyết trò chơi.

(Nên có một cuộc thảo luận với đầy đủ trách nhiệm về tác dụng cân bằng trong Chiến tranh lạnh đề cập đến các lý thuyết gia trò chơi đầu tiên hầu như chắc chắn đã mắc sai lầm trong việc xây dựng mô hình Chiến tranh lạnh như một Nan đề Người tù một lần duy nhất. Một mặt trò chơi cân bằng hạt nhân bị mắc kẹt trong những trò chơi lớn hơn có tính chất phức tạp cao hơn. Mặt khác, người ta vẫn chưa biết rõ là đối với một trong hai siêu cường khi hủy diệt siêu cường kia mà lại tránh được tự hủy diệt mình trong thực tế là một kết quả được xếp loại cao nhất. Nếu cả hai trường hợp đều không như vậy thì trò chơi ấy không phải là một trò PD.

Cam kết đôi khi có thể được đảm bảo thông qua giá trị đối với một người chơi về tăm tiếng riêng của người đó. Chẳng hạn một chính phủ liều lĩnh đàm phát với bọn khủng bố để đảm bảo việc giải thoát con tin trong một tình huống đặc biệt có thể cam kết với một chiến lược “con đường trên cát” vì mục đích duy trì một tăm tiếng về tính bền bỉ có mục đích giảm thiểu động cơ các cuộc tấn công trong tương lai. Một ví dụ khác được hãng hàng không Qantas của Australia cung cấp. Qantas chưa bao giờ phải chịu bất cứ sự cố nào và nó luôn luôn quảng cáo về vấn đề này. Điều này có nghĩa là các máy bay của nó an toàn hơn trung bình ngay cả khi cái lợi thế đầu tiên chỉ là một con toán thống kê, vì giá trị khả năng của nó để khẳng định một kỷ lục hoàn hảo xuất hiện khi khả năng đó còn tiếp tục, vì vậy mà mang lại cho Hãng các động cơ liên tục để chịu các chi phí cao hơn trong việc đảm bảo an toàn cho các chuyến bay của nó.

Bất cứ điều kiện nào cũng phải đảm bảo nếu các hiệu quả của tăm tiếng là một cam kết. Trước hết trò chơi phải được lặp lại với tính bất định liên quan đến vòng chơi nào là cuối cùng. Trò chơi PD lặp lại có thể được sử dụng để minh họa cho tầm quan trọng của nguyên tắc này. Hợp tác có thể là một chiến lược thống trị trong các trò chơi PD lặp lại vì một tay chơi có thể đạt được nhiều hơn từ tiếng tăm của anh ta nhờ hợp tác, thông qua việc kích thích các hy vọng của sự hợp tác với người khác hơn là anh ta có thể đạt được nhờ sự bội ước chỉ trong một vòng chơi. Tuy nhiên nếu các tay chơi biết trước vòng chơi nào sẽ là vòng cuối cùng của họ thì cân bằng đó đã được làm sáng tỏ. Trong vòng cuối cùng, tăm tiếng không còn giá trị, và vì vậy cả hai tay chơi đều bội ước, vì vậy ở đây tăm tiếng trở nên vô giá trị và họ sẽ lại bội ước. Điều đó làm cho tăm tiếng trở nên vô giá trị trong vòng cuối cùng thứ ba, vv….Quá trình đó lặp đi lặp lại đến vòng đầu tiên, vì vậy không hề có một sự hợp tác nào. Vấn đề này có thể được khái quát hóa để ấn định điều kiện cơ bản nhất về khả năng đối với việc sử dụng các hiệu quả tăm tiếng như là những phương thức cam kết: giá trị của tăm tiếng đối với người vun trồng nó phải lớn hơn cái giá trị mà anh ta hy sinh nó trong bất cứ vòng nào. Vì vậy các tay chơi có thể thiết lập cam kết bằng việc giảm giá trị của mỗi vòng sao cho sự cám dỗ bộ ước trong mỗi vòng không bao giờ đủ cao để làm cho nó trở thành duy lý. Chẳng hạn các bên tham gia một hợp đồng có thể đổi nghĩa vụ của họ bằng các khoản tiền lãi nhỏ để giảm động cơ bội ước cho cả hai phía. Vì vậy các nhà xây dựng trong các dự án xây dựng có thể được thanh toán nhiều lần theo tháng, hoặc theo tuần. Tương tự như vậy Qũi tiền tệ Quốc tế thường miễn nợ cho các chính phủ bằng khoản nhỏ, vì vậy giảm được động cơ của các chính phủ vi phạm các điều kiện cho vay khi tiền đã nằm trong tay họ; và các chính phủ có thể thực sự thích các cách sắp xếp như vậy để giảm các sức ép chính trị đối với việc sử dụng không tuân theo các điều khoản qui định.

6. Lý thuyết Trò chơi Tiến hóa

Gintis [2000, 2009] mới đây đã cảm thấy có lý do chính đáng trong việc tuyên bố một cách táo bạo “lý thuyết trò chơi là một ngôn ngữ phổ quát cho việc thống nhất các khoa học hành vi”. Cách nói như vậy có vẻ khác thường, nhưng lại hoàn toàn hợp lý. Binmore (1998, 2005) đã xây dựng mô hình lịch sử xã hội như là một loạt những hội tụ vào các cân bằng hiệu quả ngày càng tăng trong các trò chơi giao dịch đụng độ ngắt đoạn theo các phần trong đó một vài người cố thay đổi thành các cân bằng mới bằng cách bỏ các đường dẫn cân bằng tĩnh như là kết quả của các tai biến giai đoạn. (Chẳng hạn Stalin đã cố thay đổi xã hội của ông thành một tập hợp các cân bằng trong đó người ta quan tâm nhiều hơn đến cái cường quốc chính trị, quân sự và công nghiệp tương lai của đất nước họ hơn là quan tâm đến cuộc sống riêng của họ. Ông đã không thành công; tuy nhiên các nỗ lực của ông thực sự đã tạo ra một tình huống mà trong một vài thập kỷ nhiều người Sô viết đã gán tầm quan trọng không đáng kể cho cuộc sống của những người khác dưới mức bình thường). Hơn nữa các ứng dụng lý thuyết trò chơi vào các đề tài hành vi đã mở rộng vượt khỏi vũ đài chính trị.

Chẳng hạn vào năm 1969, nhà triết học David Lellog Lewis đã xuất bản cuốn Qui ước (Convention: A Philosophical Study, 1969, Havard University Press), trong đó khung khái niệm của lý thuyết trò chơi đã được áp dụng vào một trong những vấn đề cơ bản của tri thức luận thế kỷ XX, bản chất và mức độ của các qui ước thống trị ký hiệu học và mối quan hệ của nó với sự biện minh cho các niềm tin mang tính định đề. Cuốn sách này đã đứng được như một trong những tác phẩm kinh điển của triết học phân tích, và danh tiếng của nó hiện đang ngày càng nổi bật khi chúng ta ngày càng thức tỉnh về ý nghĩa vạch đường của nó. Việc sử dụng ví dụ đơn giản này có thể đưa lại cho chúng ta một sự hiểu biết rất cơ bản. Từ “gà” là để chỉ những con gà và từ “đà điểu” là để chỉ những con đà điểu. Chúng ta cũng sẽ không trở nên tốt hơn hay xấu hơn khi “gà” lại chỉ đà điểu, và “đà điểu” lại để chỉ gà; tuy nhiên chúng ta sẽ trở nên xấu đi nếu một nửa trong số chúng ta sử dụng một cặp từ theo cách thứ nhất, và một nửa theo cách thứ hai, hoặc nếu tất cả chúng ta tùy tiện sử dụng chúng để qui vào những con chim không biết bay nói chung.

Tất nhiên các tri thức này đã có trước Lewis; nhưng điều mà ông nhận ra là ở chỗ tình huống này mang hình thức logic của một trò chơi phối hợp. Vì vậy trong khi những qui ước đặc biệt có thể mang tính võ đoán thì các cấu trúc tương tác duy trì chúng và làm cho chúng bền vững thì lại không võ đoán. Hơn nữa các cân bằng liên quan đến việc phối hợp về các ý nghĩa-danh từ lại có vẻ là có một yếu tố võ đoán chỉ vì chúng ta không thể phân loại chúng theo cân bằng Pareto; nhưng Millikan (1984) đã ngầm chỉ ra rằng về phương diện này chúng không điển hình cho các phối hợp ngôn ngữ. Nói chung các loại cân bằng Nash khác nhau trong các trò chơi phối hợp thường thường đều có thể được phân loại. Ross & LaCasse (1995) đã đưa ra ví dụ sau. Trong một thành phố, những người lái xe phải điều phối dựa vào một trong những cân bằng Nash liên quan đến hành vi của họ ở chỗ có đèn giao thông. Tất cả phải đi gấp khi đèn vàng và dừng lại để đợi đèn xanh hoặc đi chậm lại khi đèn vàng hoặc vọt lên khi chuyển sang đèn xanh. Cả hai mô hình này đều là cân bằng Nash trong đó một khi cộng đồng đã phối hợp vào một trong số cân bằng đó thì không một cá nhân nào có một động cơ để vi phạm: những người nào đi chậm lại khi có đèn vàng trong khi những người khác lại lao vào họ thì họ sẽ bị đâm vào đuôi xe, trong khi những người khác vọt lên khi đèn vàng trong sự cân bằng khác thì sẽ có nguy cơ va chạm với vọt lên nhanh khi đèn xanh. Vì vậy, khi một mô hình giao thông thành phố đặt trên một trong những cân bằng này thì nó sẽ có khuynh hướng dừng lại ở đó. Tuy nhiên cả hai tình trạng trên đều không phải là những trung lập-Pareto, vì cân bằng Nash thứ hai cho phép nhiều xe rẽ trái trong mỗi chu kỳ (theo luật tay lái bên phải), là loại giảm mức độ cổ trai và cho phép tất cả các lái xe hy vọng đạt hiệu quả cao hơn trong giao thông.

Những qui ước về các tiêu chuẩn bằng chứng và tính duy lý có vẻ thuộc về đặc trưng này. Trong khi có nhiều sự bố trí có thể là cân bằng Nash trong các trò chơi xã hội của khoa học, vì các môn đệ của Thomas Kuhn muốn nhắc chúng ta rằng không thể có chuyện tất cả mọi cân bằng này đều dựa vào đường cong trung hòa Pareto. Những đề tài này đã được thể hiện rõ ràng trong nhận thức luận hiện đại, trong triết học khoa học, triết học ngôn ngữ mà tất cả đều là di vật của lý thuyết trò chơi theo cách của Lewis (chí ít thì cũng gián tiếp). (Người đọc có thể phát hiện ra nhiều ví dụ ứng dụng và qui chiếu hơn trong các tập văn liệu lớn hơn, trong Nozick 1998). Tuy nhiên Lewis đã giới hạn sự chú ý của mình vào lý thuyết trò chơi tĩnh trong đó các tác nhân chọn các chiến lược là những hàm tiện ích cố định ngoại sinh. Như một kết quả của sự giới hạn này, việc lý giải của ông có thể chỉ cho chúng ta thấy tại sao các qui ước này lại quan trọng và bền vững, nhưng nó lại làm nảy sinh một vấn đề khó khăn và có lẽ không hiệu quả đối với một lý thuyết tổng quát về tính duy lý. Có hiện tượng đó là vì như chúng ta đã thấy ở phần 3 ở trên, trong các trò chơi kết hợp (và các trò chơi khác) có rất nhiều cân bằng Nash, cái được coi là một giải pháp chính là cái nhạy cảm cao với các phỏng đoán được thực hiện bởi các tay chơi về các niềm tin và khả năng tính toán của một tay chơi khác. Điều này gây ra một sự chú ý đáng kể, đặc biệt là từ các nhà triết học về những mối liên hệ của nhiều loại khác biệt mơ hồ trong các chuẩn mực của tính duy lý chiến lược. Tuy nhiên nếu như lý thuyết trò chơi thực sự giải thích được các hành vi tự nhiên và lịch sử của nó theo cái cách do Gintis (2000) gợi ý thì chúng ta cần một lý giải nào đó về cái có tính hấp dẫn về những cân bằng trong các trò chơi thậm chí ngay cả khi không có bất cứ nhà phân tích hoặc nhà tính toán duy lý nào ở xung quanh để xác định chúng. Việc thực hiện cái qui chiếu đối với đề tài của Lewis khi ngôn ngữ của con người đã được phát triển thì lại không có bất cứ một trọng tài nào ở bên ngoài để phân xử và bố trí cho hiệu quả Pareto. Vì vậy để hiểu được chủ nghĩa lạc quan của Gintis về việc tiếp cận được với lý thuyết trò chơi chúng ta cần phải mở rộng sự chú ý của mình vào các trò chơi mang tính tiến hóa.

Các lý thuyết trò chơi đã được ứng dụng một cách thành công vào sinh học tiến hóa mà trong đó các loài và/hoặc các gen được đối xử như là những tay chơi từ công trình tiên phong của Maynard Smith (1982) và những người cộng tác với ông. Lý thuyết trò chơi tiến hóa (hoặc động) đã kích thích cho sự mở rộng của toán học mới một cách đáng kể để có thể ứng dụng vào nhiều môi trường trừ môi trường sinh học. Vì vậy mà Skyrms (1996) đã sử dụng lý thuyết trò chơi tiến hóa để cố gắng trả lời các câu hỏi mà ngay cả Lewis cũng chưa đặt được câu hỏi, về các điều kiện mà ngôn ngữ, các khái niệm về công lý, khái niệm về tài sản tư nhân, và những hiện tượng chung không được thiết kế khác đã thu hút mối quan tâm của các nhà triết học. Điều mới đối với lý thuyết trò chơi tiến hóa chính là các vận động không được lựa chọn bởi các tác nhân duy lý. Thay vào đó, các tác nhân này lại được cứng hóa (hard-wired – kiểm soát bằng các mạch điện tử) một cách điển hình bằng những chiến lược đặc biệt và sự thành công đối với một chiến lược được xác định trong khuôn khổ số bản copies mà một chiến lược tự để lại để chơi trong các trò chơi của những thế hệ tiếp theo. Vì vậy bản thân các chiến lược cũng là những tay chơi và các trò chơi mà họ chơi thì năng động chứ không tĩnh tại.

Việc thảo luận về vấn đề này gắn liền với các luận điểm của Skyrms. Chúng ta hãy bắt đầu bằng việc giới thiệu động học sao chép. Trước hết hãy xem xét lựa chọn tự nhiên đã họat động như thế nào để thay đổi các giống loài động vật, bằng cách biến đổi, tạo ra và hủy diệt các loài. Cơ chế cơ bản là sinh sản khác biệt. Bất cứ động vật nào có các đặc điểm có thể di truyền làm tăng số lượng con cái mong muốn của chúng trong một môi trường nhất định thì đều có khuynh hướng để lại nhiều con cái hơn những loài khác chừng nào môi trường vẫn còn tương đối bền vững. Thế hệ con cái ấy sẽ kế thừa những đặc điểm đã được nêu ra. Vì vậy tỷ lệ của những đặc điểm này trong cư dân của chúng sẽ tăng dần khi các thế hệ lần lượt qua đời. Một số đặc điểm này có thể đi đến cố định, có nghĩa là cuối cùng chúng kế tục toàn bộ cư dân (cho đến khi nào môi trường thay đổi).

Lý thuyết trò chơi có thể tiếp cận với vấn đề này như thế nào? Thông thường một trong những khía cạnh quan trọng nhất của một môi trường sinh vật sẽ là những khuynh hướng hành vi của những sinh vật khác. Chúng ta có thể nghĩ về mỗi loài như là đang “cố gắng” tối đa hóa tính thích ứng (= số cháu chắt mong muốn) thông qua việc xác định các chiến lược tối ưu của những loài khác. Vì vậy lý thuyết tiến hóa là một lĩnh vực khác của việc ứng dụng cho phân tích phi tham số.

Trong lý thuyết trò chơi động, chúng ta không còn nghĩ về các cá thể như là sự lựa chọn những chiến lược khi chúng vận động từ một trò chơi này đến một trò chơi khác. Có điều đó là vì các lợi ích của chúng ta là khác nhau. Giờ đây chúng ta ít quan tâm đến việc phát hiện ra các cân bằng của những trò chơi đơn hơn là phát hiện ra những cân bằng bền vững, và việc chúng thay đổi ra sao theo thời gian. Vì vậy giờ đây chúng ta xây dựng mô hình các chiến lược tự thân khi chơi với nhau. Một chiến lược được coi là “tốt hơn” chiến lược khác khi nó để lại nhiều bản sao của nó cho những thế hệ tiếp theo, khi trò chơi sẽ được chơi lại. Chúng ta nghiên cứu những thay đổi trong việc phân phối các chiến lược trong cư dân như là trật tự của việc mở rộng các trò chơi. Đối với lý thuyết trò chơi động, chúng tôi giới thiệu một khái niệm cân bằng (theo Maynard Smith 1982). Một tập chiến lược theo một tỷ lệ đặc biệt (chẳng hạn 1/3:2/3, ẵ, 1/9:8/9, 1/3:1/3:1/6:1/6 – luôn luôn có tổng là 1) ở một ESS (Evolutionary Stable Strategy) cân bằng ngay trong trường hợp (1) không cá nhân nào chơi một chiến lược lại có thể cải thiện được tính thích ứng tái sinh sản của nó bằng cách chuyển sang một trong những chiến lược khác theo tỷ lệ, và (2) không một biến dị nào chơi một chiến lược khác lại hoàn toàn có thể tự mình hình thành (“xâm lược”) trong cư dân.

Các nguyên tắc của lý thuyết trò chơi tiến hóa được lý giải tốt nhất thông qua các ví dụ. Skyrms bắt đầu bằng việc khảo sát các điều kiện trong đó một ý nghĩa công lý được hiểu như là một khuynh hướng để coi những phân chia bình đẳng các nguồn là công bằng trừ khi những xem xét về mặt hiệu quả gợi ý khác đi trong những trường hợp đặc biệt – có thể xuất hiện. Ông đề nghị chúng ta xem xét một cư dân trong đó các cá thể gặp nhau đều đặn và phải thương lượng về các nguồn.

Bắt đầu với ba loại cá thể:

a. Những người ưa công bằng luôn luôn yêu cầu một nửa các nguồn

b. Những người tham lam luôn luôn yêu cầu nhiều hơn một nửa. Khi một người tham lam đối mặt với một người tham lam khác thì họ lãng phí các nguồn vào việc tranh giành nó.

c. Những người khiêm tốn luôn luôn yêu cầu ít hơn một nửa các nguồn. Khi một người khiêm tốn đối mặt với một người khiêm tốn khác thì họ lấy ít hơn toàn bộ các nguồn có sẵn và lãng phí một số lượng nào đó.

Mỗi cuộc đọ sức đơn lẻ nơi mà tổng số cá thể yêu cầu tổng cộng lên đến 100% thì là một cân bằng Nash của cái trò chơi cá nhân đó. Tương tự như vậy, có thể có nhiều cân bằng động. Giả sử rằng những người tham lam yêu cầu 2/3 tổng số các nguồn và những người khiêm tốn yêu cầu 1/3. Vậy thì có 2 phần là các chiến lược tiến hóa bền vững ESSs:

– Một nửa cư dân tham lam và một nửa khiêm tốn. Chúng ta có thể tính khoản được trả trung bình ở đây. Những người khiêm tốn lấy 1/3 các nguồn trong mỗi cuộc đối đầu. Người tham lam lấy 2/3 khi cô ta gặp người Khiêm tốn, nhưng lại không được gì khi cô ta gặp người tham lam khác. Vì vậy khoản nhận được trung bình của cô ta cũng là 1/3. Đây là một ESS bởi vì Người công bằng không thể xâm phạm đến kẻ khác. Khi người Công bằng gặp người Khiêm tốn anh ta nhận 1/2. Nhưng khi Người công bằng gặp Người tham lam anh ta không nhận được gì. Vì vậy cái khoản nhận được trung bình của anh ta chỉ là 1/4. Không có Người khiêm tốn nào có một động cơ để thay đổi các chiến lược, và cũng không có bất cứ Người tham lam nào làm như vậy. Một người Công bằng đột biến xuất hiện trong dân cư sẽ chơi kém nhất, và sự lựa chọn như vậy sẽ không cổ vũ cho sự truyền bá của bất cứ đột biến nào như vậy.

– Toàn bộ những người chơi đều là Người công bằng. Mỗi người luôn luôn nhận một nửa các nguồn, và không người nào có thể chơi tốt hơn bằng cách thay đổi thành một chiến lược khác. Những người tham lam tham gia vào cư dân này phải đối diện với những người công bằng và nhận một khoản được trả trung bình bằng 0. Những người khiêm tốn nhận 1/3 như trước, nhưng phần này lại ít hơn phần của người Công bằng là 1/2. Cần lưu ý rằng cân bằng (i) là không hiệu quả, vì khoản trung bình nhận được đối với toàn bộ cư dân thì nhỏ hơn. Tuy nhiên hệt như vậy các kết quả không hiệu quả có thể là các cân bằng Nash NE của các trò chơi tĩnh tại này, vì vậy chúng có thể là những cân bằng NE động của ESS.

Chúng tôi qui vào các cân bằng trong đó xuất hiện nhiều hơn một chiến lược với tư cách là những đa hình. Nhìn chung trong trò chơi Skyrms, bất cứ đa hình nào trong đó những Người tham lam yêu cầu x và Người khiêm tốn yêu cầu 1 – x thì đó là một ESS. Vấn đề là ở chỗ những lợi ích mà người nghiên cứu công bằng quan tâm lại chính là khả năng có thể xảy ra tương đối với những gì mà các cân bằng khác xuất hiện.

Điều này phụ thuộc hoàn toàn vào các cân xứng chiến lược trong tình trạng cư dân gốc. Nếu cư dân đó bắt đầu với nhiều hơn một Người công bằng thì có một xác suất nào đó mà Người công bằng sẽ đối diện với nhau, và lấy phần được chia trung bình có thể là cao nhất. Những Người khiêm tốn tự thân họ không ngăn cản sự mở rộng của những Người công bằng; chỉ có những người tham lam mới làm như vậy. Nhưng những người tham lam, tự thân họ lại phụ thuộc vào việc có những người khiêm tốn ở xung quanh để có thể tồn tại và trụ vững. Vậy là trong cư dân xuất hiện nhiều người công bằng hơn liên quan đến các cặp Tham lam và Khiêm tốn, thì những người công bằng ưu tú hơn sẽ chơi ở mức trung bình. Điều đó ám chỉ một hiệu quả ngưỡng. Nếu tỷ lệ những người công bằng rớt thấp dưới 33% thì khuynh hướng đối với họ sẽ là rơi vào tuyệt chủng vì họ thường không thể thỏa mãn nhau được. Nếu cư dân của những người công bằng tăng lên trên 33% thì khuynh hướng đối với họ sẽ là tăng đến mức ổn định vì những mối lợi gia tăng của họ khi họ có thể đáp ứng được cho nhau thì nó sẽ bù đắp cho những mất mát của họ khi họ gặp những người tham lam. Bạn có thể thấy điều này bằng cách lưu ý rằng khi mỗi chiến lược được sử dụng khoảng 33% cư dân thì tất cả đều nhận một khoản được trả là 1/3. Vì vậy bất cứ chiến lược nào vượt lên trên ngưỡng này về phía những người Công bằng sẽ có khuynh hướng đẩy họ đến cố định hóa. Kết quả này chỉ ra rằng bằng cách nào mà các điều kiện tương đối tổng thể nhất định đã cho, công lý như chúng ta đã định nghĩa có thể xuất hiện một cách năng động. Tin tức cho những người hâm mộ công lý sẽ trở nên đáng phấn khởi hơn nếu chúng ta giới thiệu lối chơi tương liên.

Cái mô hình mà chúng ta vừa mới xem xét giả định rằng các chiến lược không liên hệ gì với nhau, có nghĩa là xác suất mà mỗi chiến lược thỏa mãn một chiến lược khác là một hàm đơn của những tần số xuất hiện có liên quan trong cư dân. Giờ đây chúng ta hãy xem xét cái gì xảy ra trong trò chơi phân chia nguồn lực động của chúng ta khi chúng ta giới thiệu thế tương liên. Giả định rằng những người công bằng có đôi chút khả năng để phân biệt và tìm ra những người công bằng khác như là các bên đối tác tương liên. Trong trường hợp đó những người công bằng trung bình chơi tốt hơn và điều này phải có hiệu quả của việc làm thấp đi cái ngưỡng của họ để chuẩn bị đi đến cố định hóa. Một người xây dựng mô hình trò chơi động nghiên cứu các hiệu quả của mối tương liên và các giới hạn tham số khác bằng phương pháp vận hành các mô phỏng computer lớn trong đó các chiến lược cạnh tranh với nhau hết vòng nọ đến vòng kia trong môi trường ảo. Những cân xứng ban đầu của các chiến lược và bất kỳ cấp độ tương quan lựa chọn nào đều đơn giản có thể được thiết lập trong chương trình. Vậy thì người ta có thể nhìn vào động thái của nó trải ra theo thời gian, và đo lường tỷ lệ thời gian mà nó dừng lại trong bất cứ một cân bằng nào. Những tỷ lệ này được thể hiện bằng các kích cỡ tương đương của các vùng hấp lực đối với các cân bằng khả thể khác nhau. Các cân bằng là những điểm hấp dẫn trong một không gian động; một vùng hấp lực cho mỗi điểm như vậy là một tập hợp các điểm trong không gian mà từ đó cư dân kia sẽ hội tụ thành sự cân bằng đã được đặt ra.

Khi đưa mối tương quan vào mô hình của mình, trước hết Skyrms đã thiết lập mức độ tương liên ở một điểm rất nhỏ 1) điều đó làm cho vùng hấp lực cân bằng (i) để co rút lại bằng một nửa. Khi mức độ tương liên được thiết lập thành 2) vùng đa hình sẽ qui giản thành điểm mà ở đó cư dân kia bắt đầu trở thành đa hình. Vì vậy những số lượng tương liên rất nhỏ tăng lên đã tạo ra những số lượng tăng tỷ lệ lớn trong tính bền vững của sự cân bằng mà ở đó mỗi tay chơi đều chơi như một người công bằng. Một số lượng nhỏ mối tương liên tăng lên là một định đề hữu lý trong hầu hết các cư dân mà ở đó những người hàng xóm có khuynh hướng tương tác với một người khác và bắt chước một người khác (cả về phương diện di truyền hoặc vì những thiên hướng trở thành bản sao của nhau một cách cố ý), và vì về phương diện di truyền những động vật tương tự dường như thích sống trong các môi trường chung hơn. Vì vậy nếu sự công bằng có thể xuất hiện toàn bộ thì nó sẽ có khuynh hướng trở thành thống trị và bền vững. Hầu hết triết học chính trị đều bao gồm những cố gắng để sản xuất ra các lý lẽ định chuẩn diễn dịch nhằm thuyết phục một tác nhân không ưa công bằng rằng cô ta có những lý do để hành động một cách công bằng. Phân tích của Skyrms đã đưa ra một cách tiếp cận hoàn toàn khác. Người công bằng sẽ chơi tốt trong một trò chơi động nếu anh ta thực hiện những bước tích cực để bảo toàn sự tương liên. Vì vậy có một sức ép tiến hóa đối với cả những thể chế tiếp cận đạo đức của công lý và các thể chế công lý làm cho chúng xuất hiện. Hầu hết mọi người có thể nghĩ rằng những cách chia 50-50 là công bằng và duy trì một cách xứng đáng bằng sự thừa nhận cũng như bằng phần thưởng đạo đức và thể chế vì chúng ta là những sản phẩm của một trò chơi năng động thúc đẩy chúng ta suy nghĩ theo khuynh hướng này.

Đề tài được nhiều người quan tâm nhất từ các nhà lý thuyết trò chơi tiến hóa là lòng vị tha, được xác định là bất cứ hành vi nào của một sinh vật nhằm làm giảm đi khả năng truyền gen mong muốn cho các thế hệ sau trong một tương tác đơn, nhưng lại làm tăng khả năng đó cho kẻ tương tác khác. Điều đó rất thông dụng trong tự nhiên. Tuy nhiên đấu tranh sinh tồn Darwin đã xuất hiện thế nào? Skyrms nghiên cứu vấn đề này bằng cách sử dụng Nan đề Người tù động làm ví dụ của mình. Đây chỉ đơn giản là một loạt trò chơi PD trong một cư dân, trong đó một vài thành viên là những kẻ bội ước và một số là những người hợp tác. Các khoản được trả, khi luôn luôn ở trong những trò chơi động, được đo lường bằng khuôn khổ của những số lượng bản sao của mỗi chiến lược trong các thế hệ tương lai.

Chúng ta hãy coi U(A) là khả năng truyền gen trung bình của chiến lược A trong cư dân. Hãy coi U là khả năng truyền gen trung bình của toàn bộ cư dân. Vậy là sự cân xứng chiến lược A trong thế hệ tiếp theo thực sự là tỷ lệ U(A)/U. Vậy thì nếu Acó khả năng truyền gen lớn hơn thì mức độ trung bình A của cư dân tăng lên. Nếu A có khả năng truyền gen thấp hơn mức độ trung bình của cư dân thì A giảm.

Trong trò chơi PD động mà ở đó mối tương tác là hiếm hoi (tức là không có tương liên), thì những tay chơi bội ước sẽ chơi tốt hơn mức độ trung bình của cư dân chừng nào có những tay chơi hợp tác xung quanh. Điều này kéo theo một thực tiễn là như chúng ta đã thấy ở phần 2.4, sự bội ước luôn luôn là một chiến lược thống trị trong một trò chơi đơn. Vì vậy 100% bội ước là ESS trong trò chơi động không có tương liên, phù hợp với cân bằng Nash trong trò chơi PD tĩnh một lần duy nhất. Tuy nhiên việc giới thiệu khả năng tương liên đã làm thay đổi tận gốc dễ vấn đề. Giờ đây chúng ta cần tính toán khả năng truyền gen trung bình của một chiến lược có xác suất nhất định của chiến lược có thể thỏa mãn nhau. Trong trò chơi PD động, những người hợp tác có xác suất thỏa mãn những người hợp tác khác cao thì chơi tốt hơn những người bội ước mà xác suất thỏa mãn những người bội ước khác cao. Vì vậy tương liên hỗ trợ cho sự hợp tác. Để có thể nói một điều gì đó chính xác hơn về mối quan hệ giữa tương liên và hợp tác ấy (và để có thể liên hệ lý thuyết trò chơi tiến hóa với các vấn đề trong lý thuyết quyết định, một vấn đề nằm ngoài phạm vi bài báo này), Skyrms đã giới thiệu một khái niệm kỹ thuật mới. Ông gọi một chiến lược là có thể chấp nhận về phương diện thích nghi nếu có một vùng xung quanh điểm cố định của nó trong không gian động từ bất cứ nơi nào trong vùng đó thì nó sẽ đi tới cố định. Trong trò chơi PD động, cả bội ước và hợp tác đều có thể được chấp nhận về phương diện thích nghi. Kích cỡ có liên quan của các vùng hấp lực nhạy cảm rất cao đối với các cơ chế mà sự tương liên đạt được. Để minh họa cho vấn đề này, Skyrms đã đưa ra một số ví dụ.

Một trong những mô hình của Skyrms đã giới thiệu mối tương quan bởi phương tiện là một bộ lọc theo cặp do sự tương tác. Giả sử rằng trong vòng 1 của trò chơi PD động các cá nhân kiểm soát nhau và tương tác, hoặc không, đều tùy thuộc vào cái mà họ phát hiện ra. Trong vòng chơi thứ hai và các vòng tiếp theo tất cả các cá nhân không chơi thành cặp trong vòng 1 thì hiếm khi cặp với nhau. Trong trò chơi này, vùng hấp lực cho sự bội ước là rộng lớn trừ khi có một tỷ lệ cao những người hợp tác trong vòng 1. Trong trường hợp này những người bội ước không thể chơi cặp trong vòng 1 được, sau đó họ hầu hết chơi cặp với nhau trong vòng 2 và dẫn nhau đến tuyệt diệt. Một mô hình thú vị hơn vì cơ chế của nó ít giả tạo, không cho phép các cá nhân lựa chọn các đối tác của họ, nhưng lại đòi hỏi họ tương tác với những đối tác gần gũi với họ nhất. Bởi vì những mối quan hệ di truyền (hoặc học văn hóa bằng cách sao chép) nên dường như các cá nhân tương đồng với các hàng xóm của họ hơn là không. Nếu nhóm cư dân hữu hạn này được dàn trận theo một phương (tức là dọc theo một tuyến) và tất cả những người hợp tác và những người bội ước hiếm khi đều được đưa vào các vị trí cùng với nó thì chúng ta sẽ có được động thái dưới đây. Những người hợp tác biệt lập có khả năng truyền gen mong muốn thấp hơn những người bội ước xung quanh và bị dẫn một cách cục bộ tới tuyệt diêt.

Các thành viên của các nhóm thuộc hai người hợp tác có một xác suất 50% tương tác với nhau, và 50% tương tác với những người bội ước. Kết quả là khả năng truyền gen mong đợi trung bình của họ vẫn nhỏ hơn khả năng của những người hàng xóm bội ước và họ cũng phải đối mặt với khả năng tuyệt diệt. Các nhóm ba người hợp tác tạo thành một điểm không bền vững mà từ đó cả sự tuyệt diệt lẫn sự phát triển đều ngang bằng nhau. Tuy nhiên trong các nhóm 4 người hoặc số người hợp tác nhiều hơn thì ít nhất là một sự đối đầu của một người hợp tác với một người hợp tác khác chí ít cũng đủ để đảm bảo thay thế nhóm nguyên gốc. Trong hoàncảnh đó, những người hợp tác tạo thành một nhóm thì chơI tốt hơn những người bội ước xung quanh và chi phí của họ tăng lên. Cuối cùng những người hợp tác hầu như đi đến cố định – nhưng không hoàn toàn. Những người bội ước đơn độc ở ngoại vi của cư dân làm hại những người hợp tác ở những vòng cuối cùng và sống sót như những cộng đồng “tội phạm” nhỏ. Vì vậy chúng ta thấy rằng lòng vị tha có thể không chỉ được duy trì bởi động thái của các trò chơi tiến hóa, mà với mối tương liên, nó thậm chí có thể phát triển và định cư ở những cư dân có về nguồn gốc là không có lòng vị tha.

Vì vậy động thái Darwin đưa ra những tin tức có chất lượng tốt cho sự hợp tác. Tuy nhiên cần phải nhớ rằng điều này chỉ đứng vững chừng nào các cá nhân còn bị mắc kẹt với các chương trình văn hóa hoặc tự nhiên của họ và không thể tái định giá các tiện ích cho chính bản thân họ. Nếu các tác nhân của chúng ta quá thông minh và linh họat thì họ có thể nhận ra rằng họ đang chơi các trò chơi PD và có lẽ tất cả đều bị thất bại. Cuối cùng trong trường hợp này, họ thực sự đưa bản thân mình đến tuyệt diệt – trừ khi họ phát triển những chuẩn mực đạo đức hiệu quả và bền vững nhằm củng cố sự hợp tác. Nhưng tất nhiên đây chỉ là những cái mà chúng ta mong muốn làm tiến triển trong các cư dân động vật mà các cấp độ khả năng truyền gen trung bình của chúng được liên kết chặt chẽ với các khả năng hợp tác xã hội thành công của chúng. Ngay cho dù như vậy thì các cư dân này cũng sẽ tuyệt diệt ngoại trừ chúng quan tâm đến các thế hệ tương lai vì một lý do nào đó. Nhưng không hề có những lý do chính đáng để chúng ta suy nghĩ về việc tại sao các tác nhân nên quan tâm đến các thế hệ tương lai nếu như mỗi thế hệ mới lại thay thế toàn bộ những thế hệ đi trước ở mỗi thay đổi của các nhóm người. Vì lý do này các nhà kinh tế sử dụng mô hình “trồng xếp thế hệ” khi xây dựng mô hình các trò chơi phân phối. Các cá nhân trong thế hệ 1 – những người kéo dài đến thế hệ 5 – sẽ tiết kiệm các nguồn cho thế hệ 3 là những người mà họ muốn hợp tác cùng; và đến thế hệ 3 thì các cá nhân mới sẽ quan tâm đến thế hệ 6; vầ vv….

7. Lý thuyết Trò chơi và Bằng chứng Hành vi

Trong các phần trước chúng ta đã xem xét một số vấn đề xuất hiện từ việc xử lý lý thuyết trò chơi cổ điển (không tiến hóa) như một lý thuyết định chuẩn là thứ thể hiện cho người ta về cái mà người ta phải làm nếu họ muốn trở thành duy lý trong các tình huống chiến lược. Vấn đề khó khăn như chúng ta thấy là hình như không có một khái niệm giải pháp mà chúng ta có thể dứt khoát phó thác cho mọi tình huống. (Trong các trò chơi loại hình mở rộng thuộc lĩnh vực thông tin hoàn hảo, cũng tồn tại vấn đề nghịch lý của sự qui nạp ngược). Tuy nhiên chúng ta lưu ý rằng sự khước từ này không áp dụng cho lý thuyết trò chơi được coi là một dạng toán học là thứ có thể dùng để mô tả hành vi thực. Vậy thì rất tự nhiên xuất hiện một câu hỏi: Có phải lý thuyết trò chơi đã thực sự giúp đỡ cho các nhà nghiên cứu kinh nghiệm chủ nghĩa thực hiện các phát hiện mới về hành vi (con người hoặc cái gì khác nữa)? Nếu vậy thì nói chung là cái gì là nội dung của những phát hiện này?

Khi ấn định câu hỏi này, chúng ta phải đứng trước một vấn đề tri thức luận trực tiếp. Không có các nào áp dụng lý thuyết trò chơi như là một thứ mà “mọi thứ đều bởi chính bản thân nó” một cách độc lập khỏi việc xây dựng mô hình các công nghệ. Khi sử dụng tiêu chuẩn thuật ngữ trong triết học khoa học, người ta có thể kiểm tra một mô hình lý thuyết trò chơi của một hiện tượng chỉ trong trường hợp người nọ sau người kia với “các định đề phụ” về hiện tượng được đặt ra. Tối thiểu thì điều này cũng xảy ra nếu ai đó tuyệt đối xử lý lý thuyết trò chơi thuần túy như một phép toán mà không có nội dung kinh nghiệm chủ nghĩa của riêng bản thân nó. Theo một nghĩa nào đó, một lý thuyết không có nội dung kinh nghiệm chủ nghĩa thì sẽ không bao giờ để ngỏ cho sự kiểm nghiệm; người ta có thể chỉ băng khoăn về việc là liệu các tiên đề của một lý thuyết là luôn nhất quán. Dù sao thì một lý thuyết toán cũng có thể được đánh giá liên quan đến tính chất hữu dụngmang tính kinh nghiệm chủ nghĩa. Một loại phê phán triết học đôi khi cũng được thực hiện bằng lý thuyết trò chơi, được lý giải như là một công cụ toán học để xây dựng mô hình các hiện tượng hành vi, có nghĩa là việc ứng dụng nó luôn luôn hoặc thường xuyên yêu cầu viện đến các định đề sai, giả hoặc thô giản về những hiện tượng này. Chúng ta hy vọng sự phê phán này có những mức độ sức mạnh khác nhau trong những khung cảnh ứng dụng khác nhau khi những định đề phụ là khác biệt nhau.

Hóa ra vấn đề là như vậy. Không có lĩnh vực nào thú vị trong đó những ứng dụng lý thuyết trò chơi lại hoàn toàn không gây tranh cãi. Tuy nhiên đã có những đồng thuận dễ dàng hơn về việc tại sao lại sử dụng lý thuyết trò chơi (cả cổ điển lẫn tiến hóa) để hiểu hành vi động vật không phải con người hơn là việc làm thế nào để triển khai nó nhằm lý giải và tiên đoán của mọi người. Trước hết chúng ta hãy xem xét một cách vắn tắt các vấn đề triết học và phương pháp luận đã xuất hiện xung quanh việc ứng dụng lý thuyết trò chơi trong sinh học không phải người, trước khi chúng ta chú ý đầy đủ hơn đến khoa học xã hội về lý thuyết trò chơi.

Việc xây dựng mô hình lý thuyết trò chơi ít gây tranh cãi nhất chính là việc ứng dụng loại hình cổ điển của lý thuyết vào việc xem xét các chiến lược bằng cách các động vật không phải là người nào tìm cách để đạt được các nguồn cơ bản thích hợp với trận đấu tiến hóa của chúng: các cơ hội để sinh sản các thế hệ tiếp theo tự thân chúng đều có vẻ là tái sinh sản. Vì vậy để tối đa hóa khả năng di truyền đáng mong muốn của chúng, các loài động vật phải tìm được các cân bằng tối ưu trong số các hàng hóa trung gian khác nhau, chẳng hạn như dinh dưỡng, tránh bị ăn thịt và có khả năng cạnh tranh với các đối thủ trong việc chọn bạn tình. Các điểm cân bằng tối ưu có hiệu quả trong số các loại hàng hóa này có thể thường được ước tính cho các loài đặc biệt trong các điều kiện môi trường đặc biệt, và dựa trên cơ sở của các ước lượng này, cả cân bằng tham số và cân bằng phi tham số đều có thể được phát sinh. Các mô hình thuộc loại này có một kỷ lục để lại dấu vết đầy ấn tượng trong việc dự đoán và lý giải các dữ liệu kinh nghiệm độc lập về những hiện tượng chiến lược như khai thác cạnh tranh, chọn bạn tình, bè phái, kình địch chị em anh em ruột, tập hợp thành bầy đàn, đề phòng động vật ăn thịt, ra dấu hiệu, chải chuốt cho nhau, phụ thuộc lẫn nhau (cộng sinh).

Còn nữa…

Tác giả: Don Ross là Giáo sư Triết học tại Đại học Alabama ở Birmingham, Giáo sư Kinh tế học tại Đại học Cape Town, Nam Phi. Công trình chủ yếu: Economic Theory and Cognitive Science: Microexplanation (MIT Press, 2005).

Nguyên văn: Game Theory, The Stanford Encyclopedia of Philosophy (Fall 2010 Edition), Edward N. Zalta (ed.), First published Sat Jan 25, 1997; substantive revision Wed May 5, 2010

References

Baird, D., Gertner, R., and Picker, R. (1994). Game Theory and the Law. Cambridge, MA: Harvard University Press.

Binmore, K., Kirman, A., and Tani, P. (eds.) (1993). Frontiers of Game Theory. Cambridge, MA: MIT Press

Binmore, K. (1998). Game Theory and the Social Contract (v. 2): Just Playing. Cambridge, MA: MIT Press.

Camerer, C. (2003). Behavioral Game Theory: Experiments in Strategic Interaction. Princeton: Princeton University Press.

Danielson, P. (ed.) (1998). Modelling Rationality, Morality and Evolution. Oxford: Oxford University Press.

Fudenberg, D., and Levine, D. (1998). The Theory of Learning in Games. Cambridge, MA: MIT Press.

Fudenberg, D., and Tirole, J. (1991). Game Theory. Cambridge, MA: MIT Press.

Gintis, H. (2004). Towards the Unity of the Human Behavioral Sciences. In Philosophy, Politics and Economics 31:37-57.

Guala, F. (2005). The Methodology of Experimental Economics. Cambridge: Cambridge University Press.

Hofbauer, J., and Sigmund, K. (1998). Evolutionary Games and Population Dynamics. Cambridge: Cambridge University Press.

Krebs, J., and Davies, N.(1984). Behavioral Ecology: An Evolutionary Approach. Second edition. Sunderland: Sinauer.

Kreps, D. (1990). A Course in Microeconomic Theory. Princeton: Princeton University Press.

Maynard Smith, J. (1982). Evolution and the Theory of Games. Cambridge: Cambridge University Press.

McMillan, J. (1991). Games, Strategies and Managers. Oxford: Oxford University Press.

Nash, J. (1950a). Equilibrium Points in n-Person Games. In PNAS 36:48-49.

Nash, J. (1950b). The Bargaining Problem. In Econometrica 18:155-162.

Nash, J. (1951). Non-cooperative Games. In Annals of Mathematics Journal 54:286-295.

Ormerod, P. (1994). The Death of Economics. New York: Wiley.

Rawls, J. (1971). A Theory of Justice. Cambridge, MA: Harvard University Press.

Robbins, L. (1931). An Essay on the Nature and Significance of Economic Science. London: Macmillan.

Ross, D. 2005. Evolutionary Game Theory and the Normative Theory of Institutional Design: Binmore and Behavioral Economics.In Politics, Philosophy and Economics, forthcoming.

Ross, D., and LaCasse, C. (1995). Towards a New Philosophy of Positive Economics. In Dialogue 34: 467-493.

Samuelson, L. (1997). Evolutionary Games and Equilibrium Selection. Cambridge, MA: MIT Press.

Samuelson, L. (2005). Economic Theory and Experimental Economics. In Journal of Economic Literature 43:65-107.

Samuelson, P. (1938). A Note on the Pure Theory of Consumers’ Behaviour. In Econimica 5:61-71.

Selten, R. (1975). Re-examination of the Perfectness Concept for Equilibrium Points in Extensive Games. In International Journal of Game Theory 4:22-55.

Sigmund, K. (1993). Games of Life. Oxford: Oxford University Press.

Smith, V. (1982). Microeconomic Systems as an Experimental Science. In American Economic Review 72:923-955.

Sober, E., and Wilson, D.S. (1998). Unto Others. Cambridge, MA: Harvard University Press.

Tomasello, M., M. Carpenter, J. Call, T. Behne and H. Moll (2004). Understanding and Sharing Intentions: The Origins of Cultural Cognition. In Behavioral and Brain Sciences, forthcoming.

Vallentyne, P. (ed.). (1991). Contractarianism and Rational Choice. Cambridge: Cambridge University Press.

von Neumann, J., and Morgenstern, O., (1947). The Theory of Games and Economic Behavior. Princeton: Princeton University Press, 2nd edition.

Weibull, J. (1995). Evolutionary Game Theory. Cambridge, MA: MIT Press.

Yaari, M. (1987). The Dual Theory of Choice Under Risk. In Econometrica 55:95-115.

Young, H.P. (1998). Individual Strategy and Social Structure. Princeton: Princeton University Press.

————–&&————–

Filed under: Lý thuyết trò chơi | Leave a comment »

LÝ THUYẾT TRÒ CHƠI VÀ KINH TẾ HỌC (KỲ II)

Posted on 31.07.2014 by Tuấn Lê

LÝ THUYẾT TRÒ CHƠI VÀ KINH TẾ HỌC (KỲ II)

(Tác giả: Don Ross – Người dịch: Hà Hữu Nga – Nguồn: vanhoanghean.com.vn)

2.5. Các khái niệm giải pháp và những cân bằng

Trong nan đề người tù, các kết quả mà chúng ta thể hiện là (2,2) bằng cách chỉ ra sự đào ngũ chung thì được coi là giải pháp của trò chơi. Đi theo các thực tiễn chung trong kinh tế học, các lý thuyết gia trò chơi đã coi các giải pháp trò chơi là những cân bằng. Những người đọc có tư duy triết học sẽ muốn đưa ra một vấn đề khái niệm ngay trong trường hợp này: cái gì “được cân bằng” đối với một số kết quả trò chơi như cái mà chúng ta đang có động cơ để gọi chúng là “các giải pháp”?

Khi chúng ta nói rằng một hệ thống vật chất nằm trong sự cân bằng thì có nghĩa là chúng ta muốn nói rằng nó đang ở trong trạng thái bền vững, đó là một trạng thái mà toàn bộ các lực nhân quả bên trong hệ thống cân bằng với bên ngoài và vì vậy mà để nó ở trạng thái “nghỉ” cho đến khi và trừ khi nó bị xáo trộn bởi sự can thiệp của một lực lượng ngoại sinh nào đó. Đó chính là cái mà các nhà kinh tế quan niệm một cách truyền thống là “cân bằng”; họ đọc các hệ thống kinh tế như là các mạng lưới của những mối quan hệ nhân quả, giống hệt như các hệ thống vật chất và các cân bằng của những hệ thống như vậy chính là những trạng thái bền vững nội sinh. Như chúng ta sẽ thấy sau khi thảo luận về lý thuyết trò chơi tiến hóa trong phần sau thì chúng ta có thể bảo lưu một cách hiểu như vậy về sự cân bằng trong trường hợp lý thuyết trò chơi. Tuy nhiên như chúng ta đã lưu ý ở phần 2.1, một số người đã giải thích lý thuyết trò chơi là một lý thuyết diễn giải về sự suy lý chiến lược. Đối với họ, một giải pháp cho một trò chơi phải là một kết quả mà một tác nhân duy lý phải tiên đoán được bằng cách sử dụng duy nhất các cơ chế tính toán duy lý. Các lý thuyết gia như vậy phải đối mặt với một số mắc míu về những khái niệm giải pháp không phải là quá quan trọng đối với những người hành vi luận. Chúng ta sẽ xem xét những mắc míu như vậy và những giải pháp khả thể trong suốt cả phần còn lại của bài viết này.

Sẽ là hữu dụng để bắt đầu cuộc thảo luận từ trường hợp PD [Nan đề người tù], vì nó đơn giản đến mức bất ngờ nếu xem xét từ quan điểm của những rắc rối này. Cái mà chúng ta coi như là giải pháp của nó chính là cân bằng Nash của trò chơi. (Từ Nash ở đây chính là John Nash, nhà toán học được giải Nobel trong Nash 1950 đã mở rộng nhất và khái quát hóa công trình tiên phong của von Newmann và Morgenstern). Cân bằng Nash từ đây gọi là NE được áp dụng (hoặc thất bại trong khi áp dụng vào toàn bộ các tập chiến lược, mỗi tập cho một người chơi trong một trò chơi. Một tập chiến lược là một cân bằng Nash chỉ trong trường hợp không người chơi nào có thể cải thiện được khoản phải trả của họ, những chiến lược nhất định của tất cả những người chơi khác trong trò chơi bằng cách thay đổi chiến lược của người chơi. Hãy lưu ý xem tư trưởng này gắn liền với tư tưởng về sự thống trị nghiêm nhặt đến mức nào: không chiến lược nào có thể là chiến lược cân bằng Nash nếu nó bị thống trị một cách nghiêm nhặt. Vì vậy nếu việc loại bỏ lặp lại những những chiến lược thống trị nghiêm nhặt đưa chúng ta đến với một kết quả duy nhất thì chúng ta biết rằng chúng ta đã phát hiện ra cái cân bằng Nash duy nhất của trò chơi đó. Giờ đây hầu hết các lý thuyết gia đều đồng ý rằng việc tránh những chiến lược thống trị nghiêm nhặt là một yêu cầu tối thiểu của tính duy lý. Điều này ám chỉ rằng nếu một trò chơi có một kết quả là một cân bằng Nash duy nhất như trong trường hợp cùng nhận tội trong trò chơi PD, thì nó phải là một giải pháp duy nhất của nó. Đây là một trong những khía cạnh quan trọng nhất trong đó trò chơi PD là một trò chơi “dễ” (và phi điển hình).

Chúng ta có thể xác định một lớp các trò chơi trong đó cân bằng Nash luôn luôn không chỉ cần mà còn đủ như là một khái niệm giải pháp. Đây là những trò chơi thuộc loại thông tin hoàn hảo hữu hạn; đó cũng là loại tổng bằng không (zero-sum). Trò chơi zero-sum (trong trường hợp một trò chơi chỉ có hai người chơi) là một trò chơi mà trong đó một người chơi chỉ có thể cải thiện lối chơi bằng cách làm cho người chơi khác chơi tồi hơn. Tic-tac-toe là một ví dụ giảm đơn về một trò chơi như vậy: bất cứ vận động nào đưa tôi đến gần với chiến thắng thì cũng đưa bạn gần đến với chiến bại, và ngược lại). Chúng ta có thể xác định xem một trò chơi có phải là một trò zero-sum không bằng cách xác định các hàm tiện ích của người chơi: trong trò chơi zero-sum các hàm này sẽ là những hình ảnh gương của một hàm khác, những kết quả ở thứ hạng cao của một người chơi lại là thứ hạng thấp đối với người kia và ngược lại. Trong một trò chơi như vậy, nếu tôi đang chơi một chiến lược như một chiến lược nhất định của bạn, tôi không thể làm được bất cứ điều gì tốt hơn, và nếu bạn cũng đang chơi một chiến lược như vậy thì vì bất cứ sự thay đổi chiến lược nào của tôi cũng sẽ phải làm cho bạn chơi tồi đi và ngược lại, kết quả là cuộc chơi của tôi có thể không có được giải pháp tương hợp với tính duy lý chung trừ tính cân bằng Nash duy nhất của nó. Chúng ta có thể đưa ra một tình huống khác: trong một trò chơi zero-sum tôi chơi một chiến lược mà chiến lược đó tối đa hóa cái khoản phải trả tối thiểu của tôi nếu bạn chơi tốt hết sức và hành động của bạn đồng thời làm nên cùng một kết quả, thì nó thực sự tương đương với toàn bộ chiến lược chơi tốt nhất của chúng ta, vì vậy cặp thủ tục “tối đa hóa” này được đảm bảo để phát hiện ra giải pháp duy nhất đối với trò chơi, đó là tính cân bằng Nash duy nhất của nó. (Trong trò chơi Tic-tac-toe thì như vậy là hòa. Bạn không thể làm gì tốt hơn hòa, cả tôi cũng không thể làm gì hơn, nếu cả hai chúng ta đều cố gắng chiến thắng và cố gắng để không bị thua).

Tuy nhiên hầu hết các trò chơi đều không có thuộc tính này. Trong một bài viết như thế này chúng ta không thể kê ra tất cả những cách thức mà các trò chơi có thể có vấn đề từ quan điểm của những giải pháp khả thể. (Có một vấn đề rất khác, đó là các lý thuyết gia đã phát hiện được toàn bộ những vấn đề khả thể!). Tuy nhiên, chúng ta cố gắng khái quát hóa các vấn đề một chút.

Trước tiên có một vấn đề là trong hầu hết các trò chơi phi-zero-sum số cân bằng Nash lớn hơn một, nhưng không phải tất cả mọi cân bằng Nash đều có vẻ hợp lý như những giải pháp mà các tay chơi duy lý sẽ chạm phải về phương diện chiến lược. Hãy xem xét trò chơi dạng chiến lược dưới đây (lấy ra từ Kreps 1990, trang 403):

Hình 6

Trò chơi này có hai cân bằng Nash: s1-t1 và s2-t2. (Lưu ý rằng không phải các hàng và cột thống trị một cách nghiêm nhặt ở đây. Nhưng nếu người chơi I đang chơi s1 thì người chơi II có thể thực hiện không tốt hơn t1, và ngược lại; và tương tự như vậy đối với cặp s2-t2). Nếu cân bằng Nash là khái niệm giải pháp duy nhất của chúng ta thì chúng ta buộc phải nói rằng cả những kết quả này cũng có sức thuyết phục như một giải pháp vậy. Tuy nhiên nếu lý thuyết trò chơi được coi là một lý thuyết giải thích và/hoặc định chuẩn về sự suy lý chiến lược thì điều đó hình như là bỏ quên một cái gì đó: những người chơi duy lý chắc chắn có thông tin hoàn hảo sẽ hội tụ vào s1-t1? (Xin lưu ý rằng điều này khônggiống với tình huống trong trò chơi PD, trong đó tình huống cao hơn về phương diện xã hội là không thể đạt được vì đó không phải là một cân bằng Nash. Trong trường hợp trò chơi ở trên cả hai người chơi, mỗi người đều có một lý do để cố gắng hội tụ vào cân bằng Nash trong đó họ là những người chơi tốt hơn).

Điều này minh họa cho một sự thật là cân bằng Nash là một khái niệm giải pháp tương đối yếu (về mặt logic) thường không dự đoán trước được các giải pháp nhạy cảm về mặt trực giác vì nếu được áp dụng đơn độc thì nó sẽ không cho phép những người chơi sử dụng các nguyên tắc của lựa chọn cân bằng mà sự lựa chọn đó nếu không được yêu cầubằng tính duy lý thì ít nhất cũng không phải là phi lý. Hãy xem xét một ví dụ khác của Kreps (1990, trang 397):

Hình 7

Trong trường hợp này không có chiến lược nào thống trị nghiêm nhặt một chiến lược khác. Tuy nhiên, hàng trên cùng của người chơi I, s1, thống trị yếu s2, vì người chơi I ít nhất cũng sử dụng s1 làm s2 vì bất cứ một phản ứng nào bởi người chơi số II, và về một phản ứng của người chơi số II (t2), thì số I thực hiện tốt hơn. Vì vậy phải chăng cả những người chơi lẫn người phân tích đều không nên xóa đi hàng số s2 bị thống trị yếu? Khi họ làm như vậy thì cột t1 được thống trị nghiêm nhặt, và cân bằng Nash s1-t2 được chọn là giải pháp duy nhất.

Tuy nhiên như Kreps đã tiếp tục chỉ rõ việc sử dụng ví dụ này, thì cái ý tưởng là các chiến lược thống trị nên được loại bỏ hệt như là những chiến lược nghiêm nhặt có những kết quả bổ sung. Hãy giả định chúng ta thay đổi các khoản phải trả của trò chơi chỉ một chút thôi như sau:

Hình 8

s2 vẫn bị thống trị yếu như trước; nhưng thuộc về 2 cân bằng Nash của chúng ta, s2 – t1 giờ đây là hấp dẫn nhất đối với cả hai người chơi; vậy thì tại sao các nhà phân tích lại muốn loại bỏ khả năng của nó? (Lưu ý rằng trò chơi này không sao chép lại logic của trò PD. Tại đó nó tạo ra ý nghĩa để loại bỏ cái kết quả hấp dẫn nhất, việc cùng từ chối nhận tội, vì cả hai người chơi đều có động cơ để đơn phương đi chệch hướng khỏi nó, vì vậy đó không phải là một cân bằng Nash. Đó không thực sự thuộc về s2-t1 của trò chơi này. Bạn nên bắt đầu nhận ra một cách rõ ràng tại sao chúng tôi lại gọi trò chơi PD là “không điển hình”). Lý lẽ cho việc loại bỏ các chiến lược thống trị yếu là ở chỗ người chơi I có thể nóng vội khi sợ rằng người chơi II không hoàn toàn chắc chắn là duy lý (hoặc người chơi II sợ rằng người chơi I không hoàn toàn duy lý, và cứ như thế cho đến vô cùng) và vì vậy có thể chơi t2 bằng một xác suất dương. Nếu khả năng xuất phát điểm từ tính duy lý được thực hiện một cách nghiêm nhặt thì chúng ta có một lý lẽ về việc loại bỏ các chiến lược thống trị yếu: vì vậy người chơi I tự đảm bảo cho cái kết quả thấp nhất của mình, s2-t2. Tất nhiên người đó phải trả giá cho sự đảm bảo này, bằng cách giảm khoản nhận được mong muốn từ 10 xuống 5. Một mặt chúng ta có thể hình dung rằng những người chơi có thể giao tiếp với nhau trước khi chơi, và đồng ý chơi các chiến lược tương quan sao cho có thể điều phối được s2-t1 bằng cách loại bỏ một số, hầu hết hoặc toàn bộ tính chất không chắc chắn nào tạo điều kiện cho việc loại bỏ hàng thống trị yếu s1, và thay vào đó, loại bỏ s1-t2 với tư cách là một cân bằng Nash vững chắc!

Bất cứ nguyên tắc nào được đề xuất cho việc giải quyết các trò chơi mà có tác động loại bỏ một hoặc nhiều cân bằng Nash khỏi sự xem xét thì đều được coi là bộ lọc của cân bằng Nash. Trong trường hợp vừa mới thảo luận thì việc loại bỏ các chiến lược thống trị yếu chính là một bộ lọc khả hữu vì nó lọc đi cân bằng Nash s2-t1, và tương quan là một cân bằng khác, vì thay vào đó nó lọc cân bằng Nash khác s2-t1. Vậy thì bộ lọc nào thích hợp với tư cách là một khái niệm giải pháp? Những ai nghĩ về lý thuyết trò chơi như một lý thuyết định chuẩn và/hoặc giải thích có tính duy lý chiến lược thì đều tạo ra một văn liệu bản chất trong đó những ưu khuyết điểm của một số lượng lớn các bộ lọc đều cần phải bàn thêm. Về nguyên tắc dường như không có giới hạn đối với số bộ lọc là cái có thể được xem xét, vì có thể cũng không có giới hạn về tập trực giác triết học về những nguyên tắc nào mà một tác nhân duy lý có thể hoặc không thể nhận thấy là thích hợp để theo hoặc để e ngại, hoặc hy vọng rằng những người chơi khác đang theo.

Các nhà hành vi luận bảo lưu một quan điểm rất mơ hồ về hành động này. Họ coi công việc của lý thuyết trò chơi là để tiên đoán các kết quả đem đến một sự phân phối nào đó về những sắp xếp chiến lược và một sự phân phối nào đó về những mong muốn liên quan đến những sắp xếp chiến lược của những người khác, là những thứ được tạo nên bởi những quá trình thể chế và/hoặc sự lựa chọn tiến hóa (xem phần 7 để thảo luận thêm). Về quan điểm các cân bằng Nash có thể tồn tại vững chắc trong một trò chơi có thể được xác định bằng những động thái cơ sở là thứ trang bị cho những người chơi với những sắp xếp tiên thiên đối với một trò chơi. Các bản chất chiến lược của người chơi vì vậy được đối xử như một tập đầu vào ngoại sinh cho trò chơi, hệt như những hàm tiện ích vậy. Vì vậy các nhà hành vi luận nghiêng về phía tìm kiếm những bộ lọc chung của bản thân khái niệm cân bằng chí ít cũng đến mức mà những bộ lọc này tham gia vào việc xây dựng mô hình của những thể hiện duy lý tính tinh vi hơn đối với việc kiên định tối đa hóa tiện ích. Các nhà hành vi luận thường nghiêng về phía nghi ngờ rằng mục đích của việc tìm kiếm một lý thuyết tổng quát của tính duy lý tạo nên ý nghĩa như một dự án. Các thể chế và các quá trình tiến hóa xây dựng nhiều môi trường và cái được coi là một thủ tục duy lý trong một môi trường có thể lại không được ưa thích trong một môi trường khác. Tính duy lý kinh tế chỉ đòi hỏi rằng các tác nhân có những sở thích ổn định, tức là những sở thích không ưu tiên a hơn b và b hơn c và c hơn a. Một trong những sự sắp xếp chiến lược lớn tương hợp với yêu cầu tối thiểu này và các quá trình tiến hóa hoặc thể chế có thể tạo ra những trò chơi trong bất cứ quá trình nào của chúng. Về phương diện này thì các cân bằng Nash là một khái niệm cân bằng vững chắc vì nếu những người chơi phát triển những chiến lược trong các môi trường cạnh tranh, là những môi trường mà những ai không thực hiện những chiến lược tối ưu nhất định của những người khác trong môi trường riêng biệt đó sẽ bị bật khỏi quá trình cạnh tranh và sự lựa chọn như vậy cũng sẽ loại bỏ chúng hoặc cổ vũ việc tìm hiểu những sắp xếp mới. Không có nhiều khái niệm duy lý “được lọc” có thể quan niệm là thật nói chung; và vậy là theo các nhà hành vi luận những bộ lọc Nash dựa trên các bộ lọc của tính duy lý cũng có vẻ như thuộc về mối quan tâm tình cờ.

Điều này không có nghĩa là các nhà hành vi luận tuyên bố từ bỏ mọi cách giới hạn các tập cân bằng Nash vào các tập con hợp lý. Đặc biệt họ định thông cảm với những cách tiếp cận thay đổi trung tâm điểm từ bản thân tính duy lý sang những mối quan tâm về các động thái thông tin của các trò chơi. Có lẽ chúng ta không có gì phải ngạc nhiên là phân tích cân bằng Nash tự thân nó thường thất bại không thể nói được gì nhiều cho chúng ta về mối quan tâm đến các trò chơi dạng chiến lược (chẳng hạn Hình. 6 ở trên), trong đó cấu trúc thông tin bị chặn. Những vấn đề lựa chọn cân bằng thường được thể hiện một cách hiệu quả trong bối cảnh các trò chơi dạng mở rộng.

2.6. Tính duy lý đơn nguyên và Sự hoàn hảo của trò chơi phụ

Để làm sâu sắc hơn nữa hiểu biết của chúng ta về các trò chơi dạng mở rộng, chúng ta cần một ví dụ với một cấu trúc thú vị hơn là cái mà trò chơi PD đưa ra.

Hãy xem xét trò chơi được mô tả theo hình cây dưới đây:

Hình 9

Trò chơi này không nhằm làm tương hợp với một tình huống bất kỳ tiền nhận thức nào đó; nó đơn giản là một đối tượng toán tìm cách để ứng dụng. (L và R ở đây chỉ xác định “trái” và “phải” tương ứng).

Bây giờ chúng ta hãy xem xét dạng chiến lược của trò chơi này:

Hình 10

(Nếu bạn bị bối rối với ma trận này thì chỉ cần nhớ rằng một chiến lược cần phải nói cho người chơi phải làm gì ở mỗi tập thông tin mà trong đó người chơi thực hiện một hành động. Vì mỗi người chơi lựa chọn giữa hai hành động ở hai tập thông tin một, nên tổng cộng mỗi người chơi có 4 chiến lược. Chữ cái thứ nhất trong mỗi thiết kế chiến lược nói với mỗi người chơi cái mà họ phải làm nếu họ có được tập thông tin đầu tiên của mình, thứ hai là cái mà họ phải làm khi họ có được tập thông tin thứ hai. I.e., LR đối với người chơi II nói với II phải chơi L nếu có được tập thông tin 5, và chơi R nếu có được tập thông tin 6). Nếu bạn xem xét kỹ ma trận này bạn sẽ phát hiện ra rằng (LL, RL) là nằm trong số các cân bằng Nash. Trong trường hợp này có một chút rắc rối, bởi vì nếu người chơi I có được tập thông tin (7) trong trò chơi dạng mở rộng thì tôi sẽ khó lòng mà mong muốn chơi L ở đó; người đó thu được một khoản được trả cao hơn bằng cách chơi ở nút 7. Phép phân tích cân bằng Nash duy nhất không lưu ý đến điều này vì cân bằng Nash khuyến khích cái xảy ra bên ngoài đường dẫn của trò chơi. Người chơi I khi chọn L ở nút 4 đảm bảo rằng sẽ tới được nút 7; điều đó có nghĩa là đó là “bên ngoài quĩ đạo chơi”. Tuy nhiên khi phân tích các trò chơi dạng mở rộng chúng ta xem cái gì sẽ xảy ra bên ngoài đường dẫn của trò chơi, vì công việc xem xét này là có tính quyết định đối với cái xảy ra trong đường dẫn của trò chơi. Chẳng hạn sự thật là người chơi I sẽ chơi R nếu tới được nút 7, làm cho người chơi II chơi L nếu đến được nút 6, và đó chính là lý do tại sao người chơi I sẽ không chọn R ở nút 4. Chúng ta đang vứt bỏ lượng thông tin liên quan đến các giải pháp trò chơi nếu chúng ta bỏ qua những sản phẩm bên ngoài đường dẫn khi phân tích cân bằng Nash thuần túy đã làm. Cần lưu ý rằng lý do để nghi ngờ rằng cân bằng Nash không phải là một khái niệm cân bằng tổng thể hoàn toàn thỏa đáng, tự thân đã không liên quan gì đến các trực giác về lý tính như trong trường hợp các khái niệm bộ lọc đã được thảo luận ở phần 2.5.

Giờ đây hãy áp dụng thuật toán Zermelo vào loại hình tăng cường của ví dụ hiện thời của chúng ta. Chúng ta lại bắt đầu với trò chơi phụ cuối cùng, trò chơi đi xuống từ nút 7. Đây là vận động của người chơi I, và người đó chọn R vì thích khoản được trả của mình là 5 so với được trả 4 mà cô/anh ta nhận được bằng cách chơi L. Vì vậy chúng ta chỉ định khoản được trả (5, -1) cho nút 7. Vậy là ở nút 6 người chơi II đối mặt với lựa chọn giữa (-1, 0) và (5, -1). Người đó chọn L. Tại nút 5, người chơi II chọn R. Vậy thì tại nút 4 người chơi I chọn lựa chọn giữa (0, 5) và (-1, 0), và vì vậy mà chơi L. Nên nhớ rằng vì trong trò chơi PD, một kết quả xuất hiện ở một nút đầu cuối – (4, 5) từ nút 7 – đó là cân bằng Pareto cao hơn các cân bằng Nash. Hơn nữa, tuy nhiên, các động thái của trò chơi ngăn cản nó không tới được.

Sự thật là thuật toán Zermelo đã chọn lựa vector chiến lược (LR, RL) như là giải pháp duy nhất cho trò chơi đã cho thấy rằng nó đạt được một cái gì đó khác nữa chứ không phải chỉ là một cân bằng Nash. Trong thực tế thì nó đang tạo ra sự cân bằng hoàn hảo của trò chơi phụ (SPE – supgame perfect equilibrium). Nó đưa đến một kết quả đạt được cân bằng Nash không chỉ trong toàn bộ trò chơi mà còn cả trong mỗi trò chơi phụ nữa. Đây là một khái niệm giải pháp có sức thuyết phục vì không giống với những bộ lọc của phần 2.5, nó không đòi hỏi “nhiều” tính duy lý của các tác nhân, mà đòi hỏi ít hơn. (Tuy nhiên người ta cho rằng những người chơi không chỉ biết mọi thứ về phương diện chiến lược liên quan đến tình trạng của họ, mà còn sử dụng tất cả các thông tin đó; chúng ta phải cẩn thận để không lẫn lộn tính duy lý với khả năng tính toán). Các tác nhân ở mỗi nút chỉ đơn giản lựa chọn đường dẫn nào đem đến cho họ khoản được trả cao nhất trong trò chơi phụ bắt nguồn từ nút đó; và sau đó khi giải quyết cuộc chơi, họ thấy trước rằng họ sẽ thực hiện tất cả những cái đó. Các tác nhân vượt lên theo cách này được gọi là đơn nguyên duy lý, có nghĩa là duy lý ngắn hạn ở mỗi bước. Họ không tự tưởng tượng, bằng một trí tưởng tượng nào đó các quá trình siêu duy lý tính khi tác động trở lại đối với những sở thích cục bộ vì mục đích của một mục tiêu rộng lớn hơn nào đó. Nên nhớ rằng như trong trò chơi PD, điều này có thể dẫn đến các kết quả đáng tiếc về phương diện xã hội. Trong ví dụ hiện thời của chúng ta, người chơi I là tốt hơn, người chơi II không tồi hơn, ở nút bên tay trái xuất phát từ nút 7 so với kết quả ở SPE (cân bằng hoàn hảo của trò chơi phụ). Nhưng tính duy lý rất đơn nguyên của người chơi I và nhận thức của người chơi II về vấn đề đó đã đóng kín kết quả hữu hiệu về phương diện xã hội. Nếu những người chơi của chúng ta muốn làm xuất hiện kết quả có tính cân bằng hơn (4,5) thì họ phải làm như vậy bằng cách tái thiết kế các thể chế của mình sao cho có thể thay đổi được cấu trúc của các trò chơi mà họ thực hiện. Chỉ mong rằng họ có thể là siêu duy lý theo cái cách thức dường như không gắn kết chặt chẽ như một cách tiếp cận.

2.7. Tính chất đạo đức và Hiệu quả trong các Trò chơi

Nhiều người đọc có thể cho rằng kết luận của phần trước đã được thực hiện dựa trên cơ sở không phòng thủ đầy đủ. Chắc chắn là những người chơi có thể chỉ thấy rằng kết quả (4,5) là cao hơn về phương diện xã hội và đạo đức; và vì vậy chúng ta biết họ có thể cũng thấy đường dẫn của các hành động dẫn đến nó, vậy ai là lý thuyết gia trò chơi để tuyên bố về điều đó trong cái trò chơi mà họ đang chơi, nó phải chăng là không đạt được? Thực tế thì việc gợi ý rằng tính siêu duy lý là một ý chí của người chơi là có tính định hướng về phương diện triết học mặc dù nó thực sự là cái mà các nhà hành vi luận về lý thuyết trò chơi tin tưởng. Người đọc nào tìm kiếm một sự biện minh triệt để cho niềm tin này thì đều được qui vào Binmore (1994,1998). Tuy nhiên trước khi chúng ta rời khỏi những vấn đề ở một điểm có tác dụng làm cân bằng (tại đây), chúng ta cần phải cẩn thận để không lẫn lộn cái vấn đề đang còn tranh cãi với những kết quả của một nhầm lẫn kỹ thuật đơn giản. Chúng ta hãy cùng xem lại nan đề người tù. Chúng ta đã thấy rằng trong cân bằng Nash duy nhất về trò chơi PD, cả hai tay chơi đều nhận được ít tiện ích hơn họ có thể nhận được thông qua sự hợp tác chung với nhau. Điều này có thể tác động mạnh đến bạn (hệt như nó đã tác động đến nhiều nhà bình luận) như là một sự éo le. Chắc chắn bạn có thể nghĩ rằng nó đơn giản nảy sinh từ một sự kết hợp của tính ích kỷ và bệnh hoang tưởng về phía những tay chơi. Ngay từ đầu họ đã không quan tâm đến thiện chí về phương diện xã hội và sau đó họ đã tự bắn vào chân mình bằng cách không đáng để tôn trọng các thỏa thuận.

Cách tư duy như vậy đã dẫn đến những hiểu lầm tai hại về lý thuyết trò chơi, và vì vậy những cách hiểu đó phải được loại bỏ. Trước hết chúng tôi xin phép giới thiệu một vài thuật ngữ để nói về các kết quả. Các nhà kinh tế học phúc lợi đo lường một cách điển hình hàng hóa xã hội bằng khuôn khổ hiệu xuất Pareto. Một phân phối tiện ích o thì được gọi làưu thế Pareto đối với phân phối d chỉ trong trường hợp từ trạng thái d có một tái phân phối tiện ích cho o chẳng hạn như tối thiểu là một tay chơi chơi kém. Thất bại trong việc chuyển thành một tái phân phối ưu thế Pareto là thiếu hiệu quả vì sự tồn tại của o như một khả năng logic chỉ rõ rằng trong d một tiện ích nào đó đang bị bỏ phí. Vậy là kết quả (3,3) thể hiện sự cộng tác chung trong mô hình của chúng ta về trò chơi PD rõ ràng là ưu thế Pareto đối với sự phản bội chung; ở (3,3) cả hai tay chơi đều thành công hơn ở (2,2). Vì vậy sẽ là chân khi trò chơi PDs dẫn đến các kết quả thiếu hiệu quả. Đó cũng là chân đối với ví dụ của chúng ta trong phần 2.6.

Tuy nhiên, tính thiếu hiệu quả không nên đi kèm với tính chất phi đạo đức. Một hàm tiện ích đối với một tay chơi được giả định thể hiện bất cứ cái gì mà tay chơi quan tâm đến, đó có thể là bất cứ thứ gì. Như chúng tôi đã mô tả tình huống hai người tù của chúng ta, họ thực sự chỉ quan tâm đến bản án tù riêng đối với họ, nhưng lại không có cái gì là cốt yếu trong vấn đề này. Cái làm cho một cuộc chơi trở thành một ví dụ về trò chơi PD thì duy nhất chỉ là cấu trúc khoản phải trả của nó. Vì vậy chúng ta có thể có hai kiểu loại Mẹ Theresa ở đây, mà cả hai đều ít quan tâm đến bản thân mình mà chỉ mong được chăm sóc lũ trẻ đói khổ. Nhưng hãy hình dung là Mẹ Theresa thật mong muốn được chăm bọn trẻ ở Calcutta trong khi Mẹ Juanita lại muốn chăm sóc bọn trẻ ở Bogota. Và hãy hình dung là cơ quan trợ giúp quốc tế sẽ tối đa hóa khoản quyên góp của mình nếu hai vị thánh nữ đó nhắm đến cùng một thành phố; sẽ cho một khoản quyên góp cao thứ nhì nếu mỗi người nhắm đến thành phố của người kia; và khoản quyên góp thấp nhất nếu mỗi người đều nhắm đến thành phố riêng của mình. Trong trường hợp này các thánh nữ của chúng ta đang tham gia một trò chơi PD, mặc dù quá vị kỷ hoặc không bận tâm đến vấn đề xã hội.

Quay trở lại với người tù của chúng ta, hãy giả định rằng ngược lại với những định đề của chúng ta họ tạo ra giá trị cho tình trạng hạnh phúc của mỗi người cũng như cho riêng bản thân họ. Trong trường hợp này, điều đó phải được phản ánh trong các hàm tiện ích của họ, và vì vậy mà cả trong khoản nhận được của họ nữa. Nếu cấu trúc khoản nhận được của họ thay đổi thì họ sẽ không còn tham gia trò chơi nữa. Nhưng tất cả những cái đó đều chỉ ra rằng không phải mỗi tình huống khả thể đều là một trò chơi PD; nó không chỉ rõ rằng mối đe dọa của các kết quả thiếu hiệu quả là một sản phẩm đặc biệt của tính vị kỷ. Nó là logic của tình huống người tù chứ không phải là tâm lý của họ, nó đánh bẫy họ trong cái kết quả không hiệu quả, và nếu nó thực sự là tình huống của họ thì họ đang bị mắc kẹt trong đó (trừ những phức tạp hơn sẽ được thảo luận ở dưới đây). Các tác nhân muốn tránh những kết quả không hiệu quả nên ngăn chặn sự xuất hiện của bất cứ trò chơi nào; người phòng vệ của khả năng siêu duy lý thực sự giả định rằng họ cố gắng tự thân phát hiện những trò chơi như vậy bằng cách tự họ biến thành những loại tác nhân khác.

Vậy là nhìn chung một trò chơi được định nghiã một cách cục bộ bằng khoản phải trả được ấn định cho những tay chơi. Nếu một giải pháp được đề xuất liên quan đến sự thay đổi ngầm những khoản phải trả ấy thì “giải pháp” này thực sự là một cách trá hình để thay đổi chủ thể.

2.8. Những bàn tay run

Vấn đề vừa rồi của chúng ta ở trên mở ra cách thức cho một vấn đề rắc rối triết học vẫn cuốn hút sự chú ý đối với các nền tảng logic về lý thuyết trò chơi. Nó có thể được nêu ra liên quan đến bất cứ số lượng ví dụ nào, nhưng chúng ta sẽ mượn một người tao nhã từ C. Bicchieri (1993) đã đưa ra một cách xử lý tăng cường vấn đề được phát hiện trong các văn liệu. Hãy xem xét trò chơi sau:

Hình 11

Kết quả cân bằng Nash ở đây thuộc nút đơn xa nhất bên trái từ nút 8 nghiêng xuống. Hãy xem nút này, lại một qui nạp ngược. Tại nút 10, tay chơi I sẽ đánh L để nhận khoản được trả là 3, cho tay chơi II khoản được trả là 1. Tay chơi II có thể làm tốt hơn bằng cách chơi L ở nút 9, cho tay chơi I khoản nhận được là 0. Có một vấn đề khó xử được Bicchieri nêu lên [cùng các tác giả khác, bao gồm Binmore [1987] và Pettit & Sugden [1989] bằng cách suy luận sau. Tay chơi I có thể làm tốt hơn bằng cách chơi L ở nút 8; vậy thì đó chính là điều mà tay chơi I làm và trò chơi kết thúc mà không có tay chơi II tham gia chơi tiếp. Nhưng lúc này hãy lưu ý đến sự suy lý cần thiết để hỗ trợ cho sự tiên đoán này. Tay chơi I chơi L ở nút 8 vì cô/anh ta biết rằng tay chơi II là người duy lý, và vì vậy sẽ chơi L ở nút 9 vì tay chơi II biết rằng tay chơi I là người duy lý và vì vậy sẽ chơi L ở nút 10. Nhưng chúng ta lại thấy xuất hiện một nghịch lý tiếp theo tay chơi I phải cho rằng tay chơi II ở nút 9 sẽ tiên đoán là việc chơi duy lý của I sẽ ở nút 10 mặc dù đã đến một nút (9) là nút chỉ có thể đến được nếu tay chơi I không duy lý! Nếu tay chơi I không duy lý thì tay chơi II sẽ không được thanh minh bằng cách tiên đoán rằng tay chơi I sẽ không chơi R ở nút 10, trong trường hợp này thì không rõ là tay chơi II sẽ không chơi R ở nút 9; và nếu tay chơi II chơi R ở nút 9 thì tay chơi I sẽ có một khoản nhận được tốt hơn sau đó cô/anh ta nhận được nếu cô/anh ta chơi L ở nút 8. Cả hai tay chơi phải sử dụng lối qui nạp ngược đòi hỏi rằng tay chơi I biết rằng tay chơi II biết tay chơi I là duy lý; nhưng tay chơi II chỉ có thể giải quyết được cuộc chơi bằng cách sử dụng cái lý lẽ qui nạp ngược là cái lấy tính phi lý của tay chơi I làm một tiên đề. Đó chính là nghịch lý của cách qui nạp ngược.

Có một cách chuẩn mực nhất để hiểu được nghịch lý này là viện đến cái gọi là “bàn tay run” theo Selten [1975]. Tư tưởng này cho rằng một quyết định và hành động hợp lý có thể “tách ra” khỏi xác suất phi-zero tuy nhỏ. Thế có nghĩa là một tay chơi có thể muốn thực hiện một hành động nhưng vì mắc lỗi trong khi thực hiện và thay vào đó đã đưa trò chơi xuống theo một đường dẫn nào đó khác. Nếu thậm chí chỉ có một chút khả năng một tay chơi có thể mắc lỗi – đó là “bàn tay” cô/anh ta “có thể run” thì không có mâu thuẫn nào được đưa vào bởi một tay chơi sử dụng một lý lẽ qui nạp ngược yêu cầu một giả định đề rằng một tay chơi khác đã chiếm đường dẫn mà một tay chơi duy lý có thể không lựa chọn. Trong ví dụ của chúng ta tay chơi II có thể suy lý về cái cần làm ở nút 9 phụ thuộc vào định đề cho rằng tay chơi I chọn L ở nút 8, nhưng sau đó đã bị thất bại.

Có một văn liệu kỹ thuật cơ bản về cái nghịch lý qui nạp ngược đó mà nguồn tổng hợp có thể tìm được ở Bicchieri (1993). (Cần lưu ý là Bicchieri không tán thành viện lẽ vào những bàn tay run như một giải pháp thích hợp. Tuy nhiên việc thảo luận về đề xuất riêng của bà ở đây có lẽ đã làm cho chúng ta đi quá xa vào những tính chất kỹ thuật. Người đọc nào chú ý nên nghiên cứu cuốn sách của bà). Thách đố được giới thiệu ở đây chỉ để xác định rằng những bộ lọc thuộc loại đã được thảo luận trong phần 2.6 có thể được cổ vũ nhiều hơn là những trực giác thuần túy về khái niệm tính duy lý. Vì nếu những bàn tay có thể run thì những người chơi thuần túy duy lý sẽ có động cơ để lo lắng về những xác xuất mà với nó những xuất phát điểm hiển nhiên từ trò chơi duy lý sẽ được nhận thấy. Chẳng hạn nếu bàn tay đối thủ của tôi có thể run, thì bàn tay ấy sẽ cho tôi lý do chính đáng để tránh cái chiến lược thống trị yếu s2 trong ví dụ thứ ba của phần 2.5. Hơn nữa đối thủ của tôi có thể cam kết chơi t1 trong trò chơi đó và tôi có thể tin vào lời hứa của anh ta. Nhưng nếu bàn tay của anh ta sau đó cũng run và kết quả là anh ta sẽ chơi t2, thì tôi phải nhận một khoản nhận được tồi nhất. Nếu tôi đảo ngược rủi ro thì trong tình huống như vậy dường như tôi có thể gắn với những chiến lược thống trị yếu.

Nghịch lý qui nạp ngược, giống như những câu đố đưa ra bởi bộ lọc cân bằng chủ yếu là một vấn đề cho những ai coi lý thuyết trò chơi như một đóng góp cho một lý thuyết định chuẩn của tính duy lý (đặc biệt là đóng góp cho lý thuyết lớn, lý thuyết duy lý chiến lược). Nhà hành vi luận có thể đưa ra một loại lý giải khác về lối chơi rõ ràng là phi lý và sự thận trọng mà nó cổ vũ. Điều này liên quan đến việc viện vào một sự kiện kinh nghiệm chủ nghĩa là các tác nhân thực sự gồm cả những con người phải học những chiến lược cân bằng của các trò chơi mà họ tham gia, chí ít là bất cứ khi nào những trò chơi đó rơi vào hoàn cảnh hoàn toàn phức tạp. Công việc nghiên cứu đã chỉ ra rằng ngay cả một trò chơi đơn giản như trò Nan đề Người tù cũng đòi hỏi người ta phải học [Ledyard 1995, Sally 1995, Camerer 2003, tr.265]. Ý nghĩa của việc nói rằng con người cần phải học những chiến lược cân bằng là ở chỗ chúng ta phải có đôi chút phức tạp hơn là cái đã được chỉ ra ở phần trước trong việc tạo ra các hàm tiện ích từ hành vi trong việc áp dụng Lý thuyết Bộc lộ Sở thích (Revealed Preference Theory). Thay cho việc cấu tạo các hàm tiện ích dựa trên cơ sở những tình tiết đơn, chúng ta phải làm như vậy trên cơ sở của những hành vi quan sát được khi nó đã ổn định, bằng cách biểu thị độ chín của việc học đối với các chủ thể được đặt vấn đề và cái trò chơi được đặt vấn đề. Một lần nữa cần phải nói rằng Nan đề Người tù cho ta một ví dụ rất tốt. Mọi người đều phải đối mặt với một số Nan đề Người tù chí ít là một lần trong cuộc sống hàng ngày, nhưng họ phải đối mặt với nhiều trò chơi PD lặp đi lặp lại với những người không xa lạ. Kết quả là khi bắt đầu cái định làm như một trò chơi PD một lần duy nhất trong đời trong phòng thực nghiệm ngay từ đầu người ta đã có ý định chơi cứ như là trò chơi ấy là một vòng đơn của một trò chơi PD lặp đi lặp lại. Trò PD lặp đi lặp lại đó có nhiều cân bằng Nash là cái liên quan đến sự hợp tác hơn là đảo ngũ. Vì vậy các chủ thể kinh nghiệm có ý định hợp tác đầu tiên trong các hoàn cảnh này, nhưng lại học sau khi một số vòng chơi bị thất bại. Người thực nghiệm có thể suy luận rằng cô ta đã qui nạp một cách thành công một cuộc chơi PD một lần duy nhất với cơ cấu thực nghiệm cho đến khi cô ta thấy hành vi này đã ổn định. (Như đã lưu ý ở phần 2.7 ở trên, nếu nó không ổn định như vậy thì cô ta phải suy luận rằng cô ta đã thất bại trong việc qui nạp trò chơi PD một lần duy nhất và các chủ thể của cô ta đang chơi một trò chơi nào đó khác).

Nghịch lý qui nạp ngược giờ đây đã bị hủy bỏ. Trừ khi các tay chơi đã trải nghiệm lối chơi cân bằng với một tay chơi khác trong quá khứ, ngay cả khi tất cả họ đều duy lý và tất cả đều tin tưởng nhau thì chúng ta sẽ tiên đoán rằng họ sẽ gắn một xác suất dương nào đó vào việc phỏng đoán rằng các bên tương tác đã không tìm hiểu để biết được toàn bộ các cân bằng. Vậy là điều này lý giải tạo sao các tác nhân duy lý trừ khi họ thích mạo hiểm, lại có thể chơi cứ như là họ tin vào những bàn tay run vậy.

Việc tìm hiểu các cân bằng bởi các tác nhân duy lý có thể có nhiều dạng khác nhau đối với những tác nhân khác nhau và đối với những trò chơi ở những cấp độ phức tạp và rủi ro khác nhau. Vì vậy việc tích hợp nó vào các mô hình lý thuyết trò chơi của các tương tác sẽ giới thiệu một tập kỹ thuật tính mở rộng mới. Vì lý thuyết tổng quát này đã được phát triển đầy đủ nhất nên người đọc có thể tham khảo [Fudenberg and Levine 1998].

3. Tính không chắc chắn, Rủi ro và những Cân bằng rãy

Các trò chơi mà chúng ta xây dựng mô hình cho vấn đề này toàn bộ đều liên quan đến các tay chơi bằng cách chọn lựa một trong số các chiến lược thuần túy, trong đó mỗi người đều tìm kiếm một quá trình hành động tối ưu riêng ở mỗi nút tạo nên một phản ứng tốt nhất đối với những hành động của những tay chơi khác. Tuy nhiên thường xuyên một tiện ích của một tay chơi được tối ưu hóa thông qua việc sử dụng một chiến lược hỗn hợp, trong đó cô ta gieo một đồng xu trong số một vài hành động khả thể khác. (Sau đây chúng ta sẽ thấy có một sự lý giải thay thế đặc biệt hỗn hợp không liên quan đến sự ngẫu nhiên hóa ở một tập thông tin đặc biệt; nhưng chúng ta sẽ bắt đầu ở đây từ việc lý giải hành động gieo đồng tiền và sau đó sẽ dựa vào nó ở phần 3.1). Hòa trộn là cần thiết bất cứ khi nào không có một chiến lược thuần túy tối đa hóa tiện ích của người chơi dựa vào toàn bộ các chiến lược của đối phương. Trò chơi qua sông từ phần 1 của chúng ta đã minh họa cho vấn đề này. Như chúng ta đã thấy, thách thức trong trò chơi này bao gồm sự thật là nếu sự suy lý của người chạy trốn lựa chọn một chiếc cầu đặc biệt với tư cách là một lựa chọn tối ưu, thì người săn đuổi anh ta phải được giả định là có thể để nhân lên cái suy lý đó. Vậy là người chạy trốn có thể thoát được chỉ khi người theo đuổi anh ta không thể tiên đoán một cách chắc chắn rằng anh ta sẽ sử dụng chiếc cầu nào. Tính chất đối xứng của năng lực suy lý về phần hai tay chơi đảm bảo rằng người chạy trốn có thể làm cho người săn đuổi bất ngờ chỉ khi nào anh ta làm cho chính mình bất ngờ.

Hãy giả sử rằng chúng ta lờ đi những tảng đá và lũ rắn trong một chốc lát và tưởng tượng rằng những chiếc cầu kia là hoàn toàn an toàn. Cũng có thể giả định rằng người chạy trốn không có hiểu biết đặc biệt nào về người săn đuổi anh ta làm cho anh ta liều lĩnh thử thách một sự phân phối xác suất phỏng đoán đặc biệt đối với các chiến lược có sẵn của người săn đuổi.

Trong trường hợp này, cách cư xử tốt nhất của người chạy trốn là gieo con súc sắc ba mặt trong đó mỗi mặt đều thể hiện một chiếc cầu khác nhau (hoặc truyền thống hơn, một con súc sắc 6 mặt trong đó mỗi chiếc cầu thể hiện bởi hai mặt). Sau đó anh ta phải tự cam kết trước việc sử dụng bất cứ chiếc cầu nào được lựa chọn bằng lựa chọn ngẫu nhiênnày. Công việc này ấn định tần số xuất hiện khả năng sống của anh ta bất chấp người săn đuổi anh ta làm gì; nhưng vì người săn đuổi không có bất cứ lý do gì để ưa thích bất cứ chiến lược hỗn hợp hay đơn lẻ nào có sẵn, và vì trong bất cứ trường hợp nào thì chúng ta cũng đang đoán chừng cái tình huống hiểu biết của cô ta là cân bằng với cái tình huống của người chạy trốn, thì chúng ta có thể giả định rằng cô ta sẽ gieo con súc sắc ba mặt của riêng mình. Giờ đây người chạy trốn có một xác suất trốn thoát là 2/3 và xác xuất của người săn đuổi là 1/3 khả năng bắt được anh ta. Người chạy trốn không thể cải thiện được tình hình dựa vào tỷ lệ xuất hiện khả năng sống còn nếu người săn đuổi là người duy lý, vì vậy cả hai chiến lược ngẫu nhiên đều có trong cân bằng Nash.

Bây giờ thì chúng tôi xin giới thiệu lại những yếu tố tham số, có nghĩa là những tảng đá rơi ở cây cầu #2 và những con rắn hổ mang ở cây cầu #3. Hơn nữa hãy giả định rằng người chạy trốn chắc chắn được an toàn qua chiếc cầu #1, có một tỷ lệ là 90% qua chiếc cầu số #2, và 80% qua cầu số #3. Chúng ta có thể giải quyết trò chơi mới này nếu chúng ta có những định đề chắc chắn về các hàm tiện ích của hai tay chơi. Hãy giả định rằng tay chơi I, người chạy trốn chỉ quan tâm đến sống hoặc chết (thích sống hơn chết) trong khi người săn đuổi chỉ đơn giản muốn báo cáo rằng người chạy trốn đã chết vì cô ta thích báo cáo như vậy hơn là báo cáo anh ta đã chạy thoát. (Nói cách khác, cô ta không quan tâm đến việc người chạy trốn sống hay chết như thế nào). Trong trường hợp này người chạy trốn chỉ đơn giản lựa chọn các công thức ngẫu nhiên hóa và so sánh nó theo những cấp độ khác nhau của sự nguy hiểm mang tính tham số ở ba chiếc cầu. Cần phải nghĩ rằng mỗi chiếc cầu là một điều may rủi đối với các kết quả khả thể của người chạy trốn, trong đó mỗi may rủi có một khoản phải trả mong muốn trong khuôn khổ của những hạng mục trong hàm tiện ích của ông ta.

Hãy xem xét vấn đề từ quan điểm của người săn đuổi. Cô ta sẽ sử dụng chiến lược cân bằng Nash của mình khi cô ta lựa chọn sự hỗn hợp của các xác suất đối với ba chiếc cầu, và nó làm cho người chạy trốn trở nên trung lập giữa các chiến lược khả thể thuần túy của anh ta. Chiếc cầu có những tảng đá thì 1.1 lần nguy hiểm đối với anh ta hơn là chiếc cầu an toàn. Vì vậy anh ta sẽ trung lập giữa hai chiếc cầu trong khi người săn đuổi thì 1.1 lần thích đợi tại chiếc cầu an toàn hơn là chiếc cầu có đá rơi. Cầu có rắn thì 1.2 lần nguy hiểm đối với người chạy trốn hơn là chiếc cầu an toàn. Vì vậy anh ta sẽ trung lập trong việc lựa chọn giữa hai chiếc cầu này khi xác suất đợi của người săn đuổi ở chiếc cầu an toàn là 1.2 lần cao hơn xác suất đợi của chính cô ta ở chiếc cầu có rắn. Hãy giả sử chúng ta sử dụng s1, s2 và s3 để thể hiện các tỷ lệ sống sót tham số của người chạy trốn ở mỗi chiếc cầu. Vậy là người săn đuổi tối đa hóa tỷ lệ sống sót ròng qua bất cứ cặp cầu nào bằng cách điều chỉnh các xác suất p1 và p2 là những xác suất mà cô ta sẽ chờ đợi sao cho

s1 (1 − p1) = s2 (1 − p2)

vì p1 + p2 = 1, nên chúng ta có thể viết lại công thức này là

s1 x p2 = s2 x p1

vì vậy

p1/s1 = p2/s2.

Cuối cùng người săn đuổi phát hiện ra chiến lược cân bằng Nash của cô ta bằng cách giải các phương trình sau:

1 (1 − p1)	=	0.9 (1 − p2)
	=	0.8 (1 − p3)

p1 + p2 + p3 = 1.

Vậy thì

p1	=	49/121
p2	=	41/121
p3	=	31/121

p1	=
p2	=
p3	=

Bây giờ hãy để f1, f2, f3 thể hiện các xác suất với những xác suất mà người chạy trốn chọn lựa mỗi chiếc cầu tương ứng. Vậy là người chạy trốn phát hiện ra chiến lược cân bằng Nash của anh ta bằng cách giải:

s1 x f1	=	s2 x f2
	=	s3 x f3

Do đó

1 × f1	=	0.9 × f2
	=	0.8 × f3

đồng thời với

f1 + f2 + f3 = 1.

Vậy thì

f1 = 36/121

f2 = 40/121

f3 = 45/121

Hai tập xác suất cân bằng Nash này nói cho mỗi tay chơi cách thức đo lường độ may rủi của cô ta hoặc ông ta trước khi gieo chúng. Hãy lưu ý – có lẽ rất đáng ngạc nhiên – kết quả mà người chạy trốn sử dụng những chiếc cầu rủi ro với xác suất cao hơn. Đó là cách duy nhất làm cho người săn đuổi trung lập với những gì liên quan đến chiếc cầu cô ta xí phần, và đến lượt mình nó lại tối đa hóa xác suất sống sót của người chạy trốn.

Chúng ta có thể giải trò chơi này một cách minh bạch vì chúng ta thiết lập hàm tiện ích sao cho nó trở thành zero-sum, hoặc cạnh tranh nghiêm nhặt. Thế có nghĩa là mỗi thành quả đạt được trong tiện ích mong muốn bởi một người chơi đều thể hiện một lần thua cân xứng một cách chính xác bởi tay chơi kia. Tuy nhiên có thể điều kiện này thường không đứng vững được. Giờ đây hãy giả sử rằng các hàm tiện ích đều phức tạp hơn nhiều. Người săn đuổi thích nhất một kết quả mà trong đó cô ta bắn người chạy trốn và vì vậy mà khẳng định lòng tin đối với hiểu biết của anh ta đối với một chiếc cầu mà anh ta chết vì đá rơi hoặc rắn cắn; và cô ta thích kết quả thứ hai hơn là để anh ta thoát được. Người chạy trốn thích một cái chết nhanh chóng bằng một phát đạn hơn là chết vì bị đá rơi, hoặc nỗi kinh hoàng khi bị rắn cắn. Tất nhiên điều anh ta thích nhất vẫn là thoát được. Như trước, chúng ta không thể giải được trò chơi này một cách đơn giản dựa trên cơ sở biết được các hàm tiện ích thứ tự của các tay chơi, vì các cường độ của những sở thích tương ứng giờ đây sẽ liên quan đến các chiến lược của họ.

Trước công trình của von Neumann & Morgenstern [1947], các tình huống thuộc loại này rõ ràng đã cản trở những người phân tích. Đó là vì tiện ích không chứng tỏ một biến số tâm lý ẩn dấu chẳng hạn như niềm vui sướng. Như chúng ta đã thảo luận ở phần 2.1, tiện ích chỉ là một phương tiện đo lường các cơ cấu hành vi có liên quan đem lại những định đề kiên định nào đó về các mối liên hệ giữa những sở thích và các lựa chọn. Vì vậy nó không tạo ra ý nghĩa để hình dung sự so sánh bản số của các tay chơi của chúng ta – có nghĩa là cường độ – nhạy cảm – các sở thích với bản số của người khác, vì không có tiêu chuẩn so sánh cố định liên cá nhân độc lập mà chúng ta có thể sử dụng. Vậy thì chúng ta có thể xây dựng mô hình các trò chơi thế nào để cho thông tin bản số phù hợp? Sau hết, việc xây dựng mô hình các trò chơi đòi hỏi rằng tất cả các tiện ích của những tay chơi đều phải được xem xét đồng thời như chúng ta đã thấy.

Một khía cạnh quyết định trong công trình của von Neumann & Morgenstern [1947] là giải pháp cho vấn đề này. Trong trường hợp này chúng tôi sẽ cung cấp một phác thảo tóm tắt về kỹ thuật khéo léo của họ trong việc xây dựng các hàm tiện ích bản số của các số thứ tự. Điều đó nhấn mạnh rằng cái tiếp theo chỉ là một phác thảo, sao cho có thể làm cho tiện ích bản số trở thành phi-bí ẩn đối với bạn với tư cách là một sinh viên, là người quan tâm đến việc tìm hiểu các cơ sở triết học của lý thuyết trò chơi, và về hàng lọat vấn đề có thể áp dụng. Việc cung cấp một chỉ dẫn cho bạn có thể được tiếp tục bằng việc xây dựng các hàm bản số của riêng bạn, phần chỉ dẫn đó sẽ chiếm nhiều trang giấy. Rất may là những chỉ dẫn như vậy lại có sẵn trong nhiều cuốn sách giáo trình. Trong bất kỳ trường hợp nào, nếu bạn là một sinh viên triết học thì bạn có thể không mong muốn thử làm công việc đó cho đến khi bạn tham gia vào một khóa học về lý thuyết xác suất.

Giả sử chúng ta có một tác nhân mà hàm tiện ích số thứ tự của tác nhân đó được biết rõ. Thực sự thì giả sử đó là người tù vượt sông của chúng ta. Chúng ta ấn định cho ông ta hàm tiện ích thứ tự sau:

Trốn thoát 4

Chết vì bị bắn 3

Chết vì đá rơi 2

Chết vì rắn cắn 1

Giờ đây chúng ta biết rằng ý muốn trốn thoát của ông ta hơn bất cứ kiểu chết nào chắc chắn mạnh hơn ý thích của ông ấy về, chẳng hạn bị bắn so với bị rắn cắn. Điều này sẽ được phản ánh trong hành vi lựa chọn của ông ta theo những cách sau. Trong tình huống chẳng hạn như trò chơi qua sông, ông ta sẽ mong muốn chạy thoát khỏi những rủi ro lớn hơn để tăng xác suất tương đối của việc trốn thoát so với bị bắn, và ông ta tăng xác suất tương đối bị bắn hơn là bị rắn cắn. Một chút logic ấy là sự hiểu biết hệ trọng đàng sau giải pháp của von Neumann & Morgenstern [1947] cho vấn đề bản số hóa.

Bắt đầu bằng việc đề nghị tác nhân của chúng ta lựa chọn từ tập kết quả đã có một kết quả tốt nhất và một kết quả tồi nhất. “Tốt nhất” và “tồi nhất” được xác định trong khuôn khổ lựa chọn duy lý: một tác nhân duy lý luôn luôn lựa chọn sao cho có thể tối đa hóa xác xuất của kết quả tốt nhất – ta gọi đó là W – và để tối thiểu hóa xác suất của kết quả tồi nhất – được gọi là L. Giờ đây chúng ta hãy xem xét các phần thưởng trực tiếp giữa W và L. Trong một tập kết quả chứa các phần thưởng như vậy, chúng ta phát hiện được điều may rủi bao gồm chỉ có W và L. Trong ví dụ của chúng ta đây sẽ là điều may rủi khi bị bắn và bị đá rơi như là những kết quả khả thể của nó. Ta gọi đó là may rủi T. Chúng ta định nghĩa một hàm tiện ích q = u(T) khi q là loại phần thưởng đáng mong đợi ở T, tác nhân thì trung tính giữa đạt được T và đạt được may rủi trong đó W xảy ra với xác suất u(T) và L xảy ra với xác suất 1 – u(T).

Giờ đây chúng ta xây dựng một T* may rủi đa hợp đối với tập kết quả {W, L} sao cho tác nhân là trung tính giữa T và T*. Một T may rủi đa hợp là một xác suất trong đó giải thưởng may rủi là một yếu tố may rủi khác. Điều đó là có ý nghĩa bởi vì trên hết nó vẫn là W và L là những yếu tố dang bị đe dọa đối với tác nhân của chúng ta trong cả hai trường hợp; vì vậy sau đó chúng ta có thể chia T* thành một may rủi đơn đối với W và L. Chúng ta gọi đây là may rủi r. Nó nảy sinh từ tính nhất thời mà T tương đương với r. (Lưu ý rằng điều này giả định trước rằng một tác nhân của chúng ta không đạt được hàm tiện ích từ tính chất phức tạp trong các canh bạc của cô ta). Giờ đây tác nhân duy lý sẽ chọn hành động tối đa hóa xác suất thắng W. Việc xây dựng sơ đồ từ tập kết quả đến u(r) là một hàm tiện ích von Newmann-Morgenstern (VNMuf).

Vậy thì thực sự là ở đây chúng ta đã làm được cái gì? Chúng ta chỉ đơn giản đưa ra cho các tác nhân những lựa chọn đối với các may rủi thay cho các lựa chọn đối với những phần thưởng một cách trực tiếp, và đã quan sát anh ta muốn thêm bao nhiêu rủi ro để chạy trốn để tăng cường những cơ hội thoát khỏi được rắn cắn liên quan đến việc bị bắn hoặc bị đá rơi trúng người. Một hàm tiện ích đạt được một bản số chứ không phải là một rãy thứ tự, một phép đo tiện ích. Lựa chọn của chúng ta về các giá trị điểm cuối, W và L là mang tính võ đoán như trước vậy; nhưng một khi những giá trị này đã được cố định thì các giá trị điểm trung gian cũng được xác định. Vì vậy hàm tiện ích VNMuf thực sự đo các cường độ sở thích có liên quan của một tác nhân đơn. Tuy nhiên vì việc chúng ta ấn định các giá trị tiện ích cho W và L là võ đoán, nên chúng ta không thể sử dụng các VNMufs để so sánh các sở thích bản số của một tác nhân với các sở thích của các tác nhân khác. Hơn nữa vì chúng ta sử dụng một trắc lượng rủi ro như một công cụ đo của chúng ta nên việc xây dựng hàm tiện ích mới phụ thuộc vào việc giả định rằng thái độ đối với tự thân sự rủi ro của tác nhân vẫn không đổi bằng việc so sánh các rủi ro với nhau. Điều này có vẻ là hợp lý đối với một tác nhân đơn trong một tình huống trò chơi đơn lẻ. Tuy nhiên hai tác nhân trong một trò chơi hoặc một tác nhân trong những loại hoàn cảnh khác nhau có thể thể hiện những thái độ rất khác nhau đối với rủi ro. Có lẽ trong trò chơi qua sông thì người săn đuổi mà cuộc sống của cô ta không hề bị đe dọa sẽ thích đánh bạc với vinh quang của cô ta trong khi người chạy trốn thì lại phải rất thận trọng. Nói chung một tác nhân chống rủi ro thích một phần thưởng được đảm bảo đối với một giá trị đáng mong đợi tương đương của nó trong một xác suất may rủi. Một tác nhân ưa rủi ro lại có một sở thích ngược lại. Một tác nhân trung tính với rủi ro thì trung tính giữa các lựa chọn này. Tuy nhiên trong việc phân tích trò chơi qua sông chúng ta không thể so sánh các tiện ích bản số của người săn đuổi với người chạy trốn. Suy cho cùng thì cả hai tác nhân đều phát hiện ra các chiến lược cân bằng Nash của họ nếu họ có thể ước tính được các xác suất mà mỗi tác nhân sẽ ấn định cho các hành động của tác nhân kia. Điều đó có nghĩa là mỗi tác nhân phải biết cả hàm VNMufs, nhưng họ lại không cần cố để đánh giá một cách tương đối các kết quả đối với những kết quả mà họ mạo hiểm.

Giờ đây chúng ta có thể điền phần còn lại của ma trận cho trò chơi qua cầu mà chúng ta đã bắt đầu vạch ra ở phần 2. Nếu toàn bộ những thứ mà người chạy trốn quan tâm là sự sống và cái chết của anh ta chứ không phải là cách thức chết, và nếu toàn bộ những gì mà người săn đuổi quan tâm là ngăn chặn người chạy trốn thoát được thì giờ đây chúng ta có thể giải thích về tất cả các hàm tiện ích về phương diện bản số. Điều này cho phép chúng ta ấn định những tiện ích mong muốn được thể hiện bằng cách nhân lên các khoản được trả nguyên bản bằng các xác suất tương đương như những kết quả trong ma trận. Giả sử rằng người săn đuổi đợi ở cầu có rắn với xác suất x và ở cầu đá rơi với xác suất y. Vì các xác suất của cô ta qua ba chiếc cầu phải có tổng là 1 nên điều này ngầm ẩn rằng cô ta phải đợi ở chiếc cầu an toàn với xác suất 1- (x + y). Vậy là việc tiếp tục ấn định cho người chạy trốn một khoản nhận được là 0 nếu anh ta chết và là 1 nếu anh ta thoát, và người săn đuổi thì có khoản nhận được ngược lại với người chạy trốn thì ma trận hoàn chỉnh của chúng ta là như sau:

Hình 12

Chú thích hình 12:

– Cobra Bridge = cầu có rắn hổ mang

– Rocky Bridge = cầu có đá rơi

– Safe Bridge = cầu an toàn

– Fugitive = kẻ chạy trốn

– Hunter = người săn

Giờ đây chúng ta có thể đọc các sự kiện sau về trò chơi một cách trực tiếp từ ma trận. Không hàng nào cột nào thống trị nghiêm nhặt hoặc thống trị yếu đối với bất cứ hàng cột nào khác. Vì vậy các cân bằng Nash của trò chơi phải ở trong các chiến lược hỗn hợp.

3.1. Các niềm tin

Chúng ta cần lý giải như thế nào về các quá trình xây dựng mô hình bằng các thuật toán của các hỗn hợp cân bằng Nash trong các trò chơi như trò chơi qua sông? Một loại giải thích khả thể là loại lý giải tiến hóa. Nếu người săn đuổi và người chạy trốn thường xuyên chơi các trò chơi có cấu trúc tương tự với trò chơi qua sông thì những sức ép lựa chọn sẽ có những thói quen được cổ vũ trong họ là thứ đưa cả hai đến việc chơi các chiến lược cân bằng Nash và duy lý hóa hành động như vậy bằng việc thỏa mãn câu truyện hoặc cái khác. Nếu không bên nào ở trong tình huống như vậy và nếu các tổ tiên văn hóa và/hoặc sinh học của họ cũng chưa từng lâm vào tình huống như vậy, và nếu không bên nào quan tâm đến việc bộ lộ thông tin cho các đối phương trong những tình huống tương lai mong muốn thuộc loại này (vì họ không mong đợi họ lại xuất hiện) và nếu cả hai bên không phải là những lý thuyết gia trò chơi được đào tạo thì hành vi của họ sẽ được tiên đoán không phải bởi một lý thuyết gia trò chơi mà bởi những người bạn của họ, những người thân thuộc với những đặc tính cá nhân của họ. Các nhà hành vi luận sung sướng nhận ra rằng lý thuyết trò chơi không hữu dụng cho việc xây dựng mô hình mỗi hoàn cảnh kinh nghiệm chủ nghĩa khả thể là cái xuất hiện cùng.

Tuy nhiên nhà triết học nào muốn lý thuyết trò chơi được sử dụng như là một lý thuyết mô tả và/hoặc định chuẩn của tính duy lý chiến lược thì không thể cứ khăng khăng với câu trả lời đó. Ông ta phải tìm cho ra một cung cách tư vấn thỏa đáng cho những tay chơi ngay cả khi trò chơi của họ chỉ đơn độc trong cái vũ trụ của những vấn đề chiến lược. Không có lời khuyên nào như vậy có thể được đưa ra mà lại thỏa đáng không hề có tranh luận – sau rốt thì các nhà hành vi luận vẫn là các nhà hành vi luận vì họ không được thỏa mãn bởi bất cứ cách tiếp cận nào ở đây – nhưng có một cách xử lý vấn đề mà nhiều lý thuyết gia trò chơi đã phát hiện lại rất đáng để theo đuổi. Điều đó liên quan đến việc tính toán về những cân bằng trong niềm tin.

Thực ra thì nhà hành vi luận cũng cần khái niệm cân bằng trong các niềm tin, nhưng lại vì những mục đích khác. Như chúng ta đã thấy, khái niệm cân bằng Nash đã không được phân tích đủ sâu với tư cách một công cụ phân tích để nói cho chúng ta tất cả những gì mà chúng ta nghĩ là có thể quan trọng trong một trò chơi. Vì vậy ngay cả các nhà hành vi luận không phải chịu sức ép bởi dự án các bộ lọc cũng có thể tận dụng khái niệm cân bằng hoàn hảo của trò chơi phụ (SPE – subgame-perfect equilibrium) như đã được thảo luận trong phần 2.6, nếu họ nghĩ rằng họ đang phải đối phó với các tác nhân là những người được thông tin rất tốt (có nghĩa là vì họ ở trong một môi trường thể chế thân thuộc). Nhưng giờ đây chúng ta hãy xem xét trò chơi tay ba với thông tin hoàn hảo dưới đây được gọi là “Con ngựa Selten” (tên người sáng tạo ra trò chơi này, được giải thưởng Nobel, Reinhard Selten, và vì nó hình cây; lấy trích dẫn từ Kreps [1990, tr. 426]:

Hình 13

Một trong những cân bằng Nash của trò chơi này là Lr₂l₃. Đó là vì nếu tay chơi I chơi L, sau đó tay chơi II chơi r₂không hề có động cơ để thay đổi chiến lược vì nút hành động duy nhất của bà ta, 12 đã trệch ra khỏi đường dẫn của trò chơi. Nhưng cân bằng Nash này dường như thuần túy kỹ thuật; nó đã tạo ra đôi chút ý nghĩa với tư cách là một giải pháp. Điều đó tự bộc lộ trong sự kiện là nếu trò chơi bắt đầu ở nút 14 có thể được xử lý như một trò chơi phụ, thì Lr₂l₃sẽ không là một SPE. Bất cứ khi nào cô ta bắt đầu vận động thì tay chơi II cũng sẽ chơi l₂. Nhưng nếu tay chơi II đang chơi l₂ thì tay chơi I sẽ chuyển sang R. Trong trường hợp đó tay chơi III sẽ chuyển sang r₃, bằng cách đưa tay chơi II trở về r₂. Và đây là một “cảm biến” mới, cân bằng Nash: Rr₂r₃. I và II đều chơi một cách hiệu quả “tách ra” khỏi III.

Cân bằng Nash này chỉ “nhạy cảm” theo cùng một cách là một kết quả SPE trong một trò chơi thông tin hoàn hảo nhậy cảm hơn cân bằng Nash phi-SPE. Tuy nhiên chúng ta không thể chọn nó bằng cách áp dụng thuật toán Zermelo. Vì các nút 13 và 14 rơi vào bên trong một tập thông tin chung, nên Con ngựa Selten chỉ có một trò chơi phụ (ấy là toàn bộ cuộc chơi). Chúng ta cần có một khái niệm “anh em” nữa cho SPE là cái mà chúng ta có thể áp dụng trong những trường hợp thông tin không hoàn hảo, và chúng ta cần một thủ tục giải pháp mới để thay thế thuật toán Zermelo cho các trò chơi như vậy.

Hãy lưu ý rằng tay chơi III trong Con ngựa Selten đang băn khoăn tự hỏi xem anh ta chọn chiến lược của mình như thế nào. “Giả sử ta vận động” anh ta tự nhủ “thì nút hành động của ta tới được từ nút 11, hay từ nút 12?”. Nói cách khác, cái gì là những xác suất có điều kiện mà tay chơi III ở nút 13 hay 14 làm cho anh ta thực hiện một vận động? Vậy thì nếu các xác suất có điều kiện là cái mà tay chơi III băn khoăn, sau đó là cái mà tay chơi I và tay chơi II phải phỏng đoán khi họ lựa chọn các chiến lược của họ là các niềm tin của tay chơi III về các xác suất có điều kiện đó. Trong trường hợp này, tay chơi I phải phỏng đoán về các niềm tin cả tay chơi II về niềm tin của tay chơi III, và niềm tin của tay chơi III về niềm tin của tay chơi II và vv…,. Trong trường hợp này các niềm tin tương ứng không chỉ mang tính chiến lược như trước, vì chúng không hề là cái mà các tay chơi sẽ thực hiện một tập các khoản nhận được nhất định và các cấu trúc của trò chơi, mà về cái mà họ nghĩ là tạo nên ý nghĩa cho việc tìm hiểu nào đó hoặc ý nghĩa khác của xác suất có điều kiện.

Những gì là niềm tin nào về xác xuất có điều kiện có thể có lý mà các tay chơi mong đợi từ tay chơi khác? Lý thuyết gia định chuẩn có thể kiên trì về bất cứ cái gì mà các nhà toán học đã phát hiện về chủ đề này. Tuy nhiên rõ ràng là nếu điều này được áp dụng thì một lý thuyết trò chơi mà nó tích hợp sẽ không phải là sự thật của hầu hết mọi người. Nhà hành vi luận sẽ kiên trì đối với việc áp đặt các thói quen hành vi là cái mà một quá trình chọn lọc tự nhiên có thể xây dựng thành các sản phẩm. Có lẽ một số tạo vật khả thể có thể quan sát các thói quen tôn trọng qui tắc Bayes, là một khái quát hóa chân thật tối thiểu về xác suất có điều kiện mà một tác nhân có thể biết nếu nó biết bất cứ khái quát nào như vậy. Việc bổ sung thêm nhiều tri thức tinh vi về xác suất có điều kiện có nghĩa là sự tinh lọc cân bằng về niềm tin, hệt như một số lý thuyết gia trò chơi thích tinh lọc các cân bằng Nash. Bạn có thể tưởng tượng cái điều mà các nhà hành vi luận nghĩ về dự án đó!

Giờ đây chúng ta sẽ giới hạn sự chú ý của mình vào khái niệm cân bằng về niềm tin được tinh lọc ít nhất, một khái niệm có được khi chúng ta đòi hỏi các tay chơi suy lý theo nguyên tắc Bayes. Nguyên tắc Bayes nói với chúng ta về việc phải tính toán như thế nào về xác suất của một sự kiện F sinh ra thông tin E (được viết thành ‘pr(F/E):

pr(F/E) = [pr(E/F) ì pr(F)] / pr(E)

Từ nay trở đi chúng ta giả định rằng các tay chơi không giữ niềm tin mâu thuẫn với đẳng thức này.

Giờ đây chúng ta có thể xác định một cân bằng theo trật tự. Một cân bằng theo trật tự có hai phần: (1) một hồ sơ chiến lược Đ cho mỗi tay chơi, như trước, và (2) một hệ thống niềm tin à cho mỗi tay chơi. à ấn định cho mỗi tập thông tin h một phân phối xác suất trên các nút x trong h, với lời lý giải rằng đó là những niềm tin của tay chơi i(h) về vấn đề là tập thông tin của anh ta nằm ở đâu, mà tập thông tin h đã cho đó đã có được rồi. Vậy là một cân bằng tuần tự là một tập tham số ưu tiên của các chiến lược Đ và một hệ thống niềm tin à phù hợp với qui tắc Bayes đến mức bắt đầu từ mỗi tập thông tin h trong hình cây mà tay chơi i(h) đã chơi một cách tối ưu từ đó, cái điều đã cho mà anh ta tin là đã xảy ra ấy đã được sinh ra bởi à(h) và cái sẽ xảy ra trong các vận động tiếp theo được sinh ra bởi Đ.

Giờ đây chúng ta thể hiện khái niệm ấy bằng việc áp dụng cho Con ngựa Selten. Và chúng ta hãy xem lại cái cân bằng Nash không mấy thú vị Lr₂l₃. Giả định rằng tay chơi III ấn định pr(1) cho niềm tin của cô ta rằng nếu như cô ta thực hiện một chuyển động thì cô ta sẽ ở nút 13. Vậy là tay chơi II, được cấp cho một à(II) cố định phải tin tưởng rằng tay chơi III sẽ chơi l₃, mà trong trường hợp đó chiến lược SE duy nhất của cô ta là l₂. Vì vậy mặc dù Lr₂l₃là một cân bằng Nash, nhưng nó lại không phải là một cân bằng SE. Tất nhiên đây chính là điều mà chúng ta mong muốn. Việc sử dụng nhu cầu kiên định trong ví dụ này là một cái gì đó đối chút tầm thường, vì vậy giờ đây chúng ta hãy xem xét một trường hợp thứ hai, cũng được dẫn từ trích dẫn từ Kreps [1990, tr. 429] :

Hình 14

Giả sử rằng tay chơi I chơi L, tay chơi II chơi l₂và tay chơi III chơi l₃. Cũng giả sử rằng à(II) ấn định pr(.3) cho nút 16. Trong trường hợp đó, l₂ không phải là một chiến lược SE cho tay chơi II, vì l₂ trở thành một khoản được trả đáng mong muốn là .3(4) + .7(2) = 2.6, trong khi r₂ đem một khoản được trả đáng mong muốn là 3.1. Nên lưu ý rằng nếu chúng ta tiêu phí tập tham số ưu tiên chiến lược cho tay chơi III trong khi để cho mọi thứ còn lại cố định, thì l₂có thể trở thành một chiến lược SE cho tay chơi II. Nếu Đ(III) đạt được một cách chơi l₃ với pr(.5) và r₃ với pr(.5), thì nếu tay chơi II chơi r₂ thì khoản được trả mong ước của anh ta giờ đây sẽ là 2.2, vì vậy Ll₂l₃sẽ là một SE. Giờ đây hãy tưởng tượng môi trường à(III) quay trở lại như nó đã từng, nhưng hãy thay đổi à(II) sao cho tay chơi II nghĩ đến xác suất có điều kiện ở nút 16 lớn hơn .5; trong trường hợp này, l₂lại không phải là một chiến lược SE.

Ý tưởng về SE giờ đây đã hoàn toàn rõ ràng. Chúng ta có thể áp dụng nó vào trò chơi qua sông theo cái cách là nó tránh được tính chất nhất thiết cho người săn đuổi không phải gieo bất cứ đồng xu nào để chúng ta có thể làm cho trò chơi biến đổi đi đôi chút. Bây giờ hãy giả sử tay chơi II có thể thay đổi việc lựa chọn những chiếc cầu hai lần trong khi người chạy trốn đi qua, và sẽ bắt anh ta đúng trong trường hợp cô ta gặp anh ta khi anh ta rời chiếc cầu. Vậy thì chiến lược SE của người đi săn là chia thời gian của cô ta ở ba chiếc cầu phù hợp với tỷ lệ nhất định bằng phương trình trong đoạn thứ ba của phần 3 ở trên.

Cần phải lưu ý rằng vì nguyên tắc Bayes không thể được được áp dụng vào các sự kiện với xác suất bằng 0, nên việc áp dụng nó vào cân bằng SE đòi hỏi rằng các tay chơi phải ấn định các xác suất phi-zero cho toàn bộ các hành động có sẵn trong hình cây. Cần phải có đòi hỏi này vì giả sử là toàn bộ các tập tham số ưu tiên chiến lược được hòa trộn một cách nghiêm nhặt, có nghĩa là mỗi hành động đó ở mỗi tập thông tin được thực hiện với xác suất dương. Bạn sẽ thấy rằng đây thực sự cũng giống như việc giả định rằng toàn bộ các bàn tay đôi khi đều run. Một cân bằng SE là một dự án bàn tay run nếu toàn bộ các chiến lược chơi ở điểm cân bằng là những đáp trả tốt nhất đối với các chiến lược được hòa trộn một cách nghiêm nhặt. Bạn cũng không nên ngạc nhiên khi người ta nói rằng không chiến lược bị thống trị yếu nào có thể là dự án bàn tay run, vì khả năng của các bàn tay run đưa đến cho các tay chơi một lý do xác đáng nhất để tránh các chiến lược như vậy.

Nguyên văn: Game Theory, The Stanford Encyclopedia of Philosophy (Fall 2010 Edition), Edward N. Zalta (ed.), First published Sat Jan 25, 1997; substantive revision Wed May 5, 2010

Tài liệu dẫn