Thiên nga đen [Sách]

Thiên nga đen

(Tác giả: Ngô Quang Hưng – Nguồn: procul.org/blog)

Tôi đọc xong quyển Black Swan của Nassim Nicholas Taleb vài tuần trước. Đã định viết review ngay mà đến giờ mới “giáng bút”. Đã có một đống reviews quyển sách NY Times Best Seller này từ rất nhiều các báo chí danh tiếng. Tôi không đọc hầu hết các reviews này, tự viết bao giờ cũng thích hơn!

225px-black_swans.jpg (Ảnh của Wikipedia.) Trước khi khám phá ra thiên nga đen tồn tại trên đời (ở Úc), người ta đã tin rằng tất cả các thiên nga đều trắng. Một sự kiện bất ngờ như thế thay đổi toàn bộ thế giới quan (về thiên nga) của nhân loại. Đây là cái theme của quyến sách.

Nhận xét chung: Taleb không có nhiều ý tưởng thật sự mới, nhưng lối trình bày provocative và các bằng chứng trải rộng nhiều nhánh tư duy cho ta một bức tranh nhiều màu sắc về đề tài này. Quyển sách hấp dẫn dù khá dài dòng văn tự, ta có cảm giác như đang ngồi nhậu với một ông chú biết nhiều nhưng … hơi xỉn và đang lè nhè dông dài. Quan trọng hơn cả, nó làm ta suy nghĩ! Đó là thành công của quyển sách.

Trong Black Swan, Taleb muốn thuyết phục chúng ta các luận điểm chính sau đây.

1. Extremistan và Mediocristan: Sự vận hành của thế giới trong một domain nào đó (lịch sử, kinh tế, tài chính, thời tiết, v.v.) thuộc về một trong hai loại: Extremistan và Mediocristan. Theo ngôn ngữ thống kê thì Extremistan chứa các fat-tail distributions, và Mediocristan chứa các loại distributions kiểu Gaussian.

Ví dụ: xét 1000 người bất kỳ đang đọc blog KHMT (wishful thinking is a virtue!). Bỗng nhiên Bill Gates ghé qua làm cho cái mean-income tăng đột biến, trong khi đó dù có Yao Ming nhắm nhé thì vẫn không làm tăng chiều cao trung bình lên mấy. Income distribution thuộc về Extremistan, còn height-distribution thuộc về Mediocristan.

Taleb đưa ra rất nhiều ví dụ để minh chứng rằng thế giới này càng lúc càng bị ảnh hưởng sâu sắc bởi các Extremistan distributions: ngày 11/9, sự phát triển đột biến của Internet, Google, vụ sụp đổ của Long-Term Capital Management, vụ sập thị trường chứng khoán năm 1987, chiến tranh, sự khám phá ra thiên nga đen ở Úc, v.v.. Đây là các distributions mà một sự kiện hiếm hoi có thể thay đổi toàn bộ cấu trúc của distribution. Do đó, khi cái sự kiện unlikely này xảy ra, hậu quả thường rất nghiêm trọng vì chúng ta tập trung “model” cái “bình thường” (với một Gaussian-like distribution nào đó mà Taleb gọi là “trò lừa đảo trí thức vĩ đại”).

Nhận xét: ý tưởng này không mới. Tôi rất ngạc nhiên là Taleb, một người đọc rất nhiều như ông thể hiện trong sách (thậm chí NP-completeness cũng được nhắc đến ở một footnote), lại không nhắc gì đến The Structure of Scientific Revolutions của Kuhn. Cái mới ở đây — và xuyên suốt quyển sách — là cách trình bày vấn đề của Taleb, và lối hành văn trịch thượng đội lối hài hước, hoặc hài hước đội lốt trịch thượng. Lúc đầu đọc thấy hơi khó chịu, nhưng đọc một chút rồi thấy têu tếu. Về mặt kỹ thuật thì GARCH, Extreme Value Theory, robust statistics là ví dụ của các phát triển kỹ thuật để giải quyết trường hợp thiên nga đen. Phỏng vấn Taleb ở đây có nhiều câu hỏi hay mà Taleb không trả lời thỏa đáng. Tờ The American Statistician cũng có các bài review trong số tháng 8, và bài trả lời của Tabeb.

2. Narrative Fallacy: đây là một lỗi logic có nguồn gốc sinh học. Taleb cho rằng (và tôi đồng ý) rằng con người có xu hướng dùng pattern recognition để “fit” các quan sát mới vào các mô hình đã có sẵn trong đầu. Báo chí, ví dụ, khi báo cáo các tin tức thường tìm cách ghép chúng vào nhau theo một trật tự nhân quả nào đó để cho dễ nhớ và dễ “make sense of the world”. Cụ thể hơn, ngay sau khi Saddam Hussein bị bắt thì Bloomberg News chạy cái tít sau đây: “U.S. Treasuries Rise; Hussein Capture May Not Curb Terrorism”, nửa tiếng sau đó thì U.S. Treasuries giảm và họ đổi ngay một cái tít khác: “U.S. Treasuries Fall; Hussein Capture Boots Allure of Risky Assets”.

Taleb đưa ra rất nhiều ví dụ kiểu này để minh họa rằng cái xu hướng “make sense of the world” của con người làm cho chúng ta có thói quen xấu nhét những cái “nhân” nhố nhăng để giải thích cái “quả” nào đó. Khi đã “fit” một cái nhân vào thì thường là ta rơi vào cái hố Mediocristan, trong khi cái ta đang quan sát có thể lại là Extremistan — cái mà Taleb cho rằng đang có xu hướng thống trị thế giới.

Nhận xét: ý tưởng này cũng không mới. Người ta đã biết về xu hướng “pattern recoginition” này của não bộ trong các nghiên cứu y sinh học từ lâu. Tôi đọc trong quyển The God Delusionthe Selfish Gene của Richard Dawkins thấy nói nhiều về đề tài này. Ví dụ: khi nhìn thấy một cái bóng cây buổi tối, đôi khi ta giật mình vì tưởng nó là bóng người. Trong ngữ cảnh khác, tôi để ý thấy các tranh luận trên các diễn đàn Internet thường dẫn đến deadlock vì mỗi người tìm cách “fit” các quan sát và luận điểm vào mô hình họ có sẵn. Anh nào biết game theory thì dùng game theory để giải thích. Chị nào sùng đạo thì bảo thượng đế muốn thế. Anh nào nghiêng cánh trái thì trích Marx, chị nào nghiêng cánh phải thì trích Friedman. Đối với cá nhân tôi, như có lần tôi đã nói, “mèo trắng mèo đen miễn là bắt được chuột”. (Hừm, bạn đừng nghĩ tôi “fit” lý luận này vào Đặng :-) ).

3. Confirmation Bias:

Đây là một trong những lỗi logic nhiều người phạm phải mà tôi thấy bức xúc nhất trong các lỗi logic. Do đó, tôi rất đồng cảm với Taleb về các thảo luận xung quanh lỗi confirmation bias. (Dĩ nhiên, như các phần các trong quyển sách, Taleb viết ngông nghênh và phóng đại, có khả năng làm một số bạn đọc phiền lòng.)

Confirmation bias là lỗi chỉ nhăm nhăm đi tìm bằng chứng ủng hộ một mệnh đề nào đó, rồi cho rằng mệnh đề đó đúng. Các ví dụ của Taleb đa phần nhắm “bắn” vào các ngành tài chính, kinh tế, và khoa học xã hội. Ví dụ, Taleb cho rằng thị trường tài chính về cơ bản là không dự đoán được, nhưng người ta vẫn lăng xê nhiều “thiên tài” bằng cách như sau: anh nào đầu tư lỗ lã thì bị đuổi, anh nào đầu tư có lời thì được giữ lại. Như vậy, cơ chế giữ nhân viên kiểu này nghiễm nhiên giữ lại “thiên tài”, cho dù họ chỉ may mắn đầu tư có lời. (Tôi không chuyên về tài chính nên xin dành cho các chuyên gia “bắn” lại Taleb về ví dụ này.) Taleb có một ví dụ khác tôi thấy rất hay: ai cũng kể vào resumé của mình tất cả những thành tích mà mình đã đạt được, nhằm minh chứng rằng mình khá/giỏi về một lãnh vực nào đó. Đây cũng là một dạng confirmation bias. Taleb cho rằng, nếu ta kể trong resumé những thứ mà ta không biết, hoặc đã thất bại trong lãnh vực nọ, hoặc liệt kê cả thành lẫn bại, thì có phải là thông tin chính xác hơn, và resumé ít ấn tượng hơn không.

Nhận xét: riêng về đề tài này tôi có rất nhiều ví dụ tự mình quan sát thấy hàng ngày.

  • Những người tin bói toán thường chỉ nhớ những gì thầy bói nói đúng, nâng ông thầy bói lên thành “thông thiên bác học”. Một số người muốn chứng minh họ có giác quan thứ sáu bằng cách phạm lỗi lầm kiểu như sau, “tôi vừa nghĩ đến anh X thì anh X gọi điện thoại”. Hừm, những khi nghĩ đến anh X mà anh X không gọi điện thoại thì ta đâu có nhớ tới sự kiện đó. Trong quyển sách best-seller Surely you’re joking Mr. Feynman, Richard Feynman có kể lại vài chuyện về cái “giác quan thứ sáu” này rất tếu. Vân Vân và vân vân.
  • Tôi đi đón con ở nhà trẻ, hay thấy cô giáo bế con mình! Nếu không ý thức về confirmation bias, có thể tôi đã kết luận rằng con mình buổi chiều hay quấy nên cô giáo bế, hoặc cô giáo thích con mình nên hay bế nó. Trên thực tế, cả hai kết luận đều sai, tôi chỉ chú ý khi đứa trẻ cô bế là con mình.
  • Từ ví dụ “resume” của Taleb, tôi nghĩ đến ví dụ sau đây. Chúng ta thường hay khen “anh X thông minh lắm”, sau đó cho nhiều bằng chứng cho thấy anh X thông minh như giành giải nhất IMO năm 19yy, có Ph.D. xuất sắc ngành zzz, vân vân. Nhưng nếu, cũng anh X nọ, ta lại đi liệt kê một danh sách những điều ngu ngốc anh ta đã làm (tôi đảm bảo là khá dài — nếu suy từ bụng tôi ra), thì mệnh đề “anh X thông minh lắm” biến thành mệnh đề rỗng. (Cần thêm quantifiers cho các mệnh đề kiểu đó!)
  • Về mặt kỹ thuật, nhiều quyển sách lý thuyết xác suất có nêu ra trò lừa đảo sau đây, minh họa rất tốt cho cái confirmation bias. Giả sử mỗi sáng chủ nhật, bạn nhận được một email từ công ty Đoán Giá Xì Tốc Inc. dự đoán stock của AT&T tuần tới sẽ tăng hay giảm. Email này để minh chứng là họ nói đúng, và nói với bạn rằng nếu bạn trả cho họ 100USD, họ sẽ gửi dự đoán tuần kế tiếp cho. Hơn thế nữa, công ty Đoán Giá Xì Tốc Inc. sẽ bồi hoàn toàn bộ 100USD nếu họ đoán sai. Hấp dẫn chưa?Bạn chưa tin tưởng lắm, vì sợ họ lừa đảo gì đó. Tuần sau, bạn thấy họ đã đoán đúng tuần trước, và lại nhận được một email y chang như thế. Họ đoán đúng liên tục 7 tuần liền! À hah. Chắc công ty này (CEO tên là NQH) phải sở hữu “thiên tài” đoán giá xì tốc. Đến đây thì bạn tin sái cổ. Xác suất đoán ngẫu nhiên mà trúng 7 lần liên tục là 1/128. Rất thấp!Công ty đó có “thiên tài” thế này. Tuần đầu tiên họ gửi email đến 128 người, một nửa số đó đoán stock tăng, một nửa đoán stock giảm. Tuần sau họ chỉ gửi email đến 64 người mà lượt email đầu đã đoán trúng! Cứ thế 7 tuần liền. Dĩ nhiên, họ không chỉ gửi ra 128 emails mà sẽ gửi 128 triệu email. Nếu chỉ 1/100 số người nhận “7 lần đoán trúng” này bị lừa, cho họ 100USD, thì họ đã kiếm được 10 triệu USD trong 7 tuần. Đơn giản chưa? Chẳng qua, bạn tin “thiên tài” của họ vì bạn chỉ có bằng chứng “confirm” cái thiên tài đó mà không biết về các bằng chứng ngược lại. Tôi rất thích ví dụ này vì nói xong ai cũng hiểu ngay ý nghĩa của lỗi “confirmation bias”.
  • Về mặt triết học thì Karl Popper (và phần nào, cả David Hume trước đó) đã thiết kế cả một nền tảng lý thuyết về confirmation bias và cái ông gọi là corroboration of evidence (xem quyển Logic of Scientific Discovery, và quyển Cọnjectures and Refutations). Tuy nhiên, tôi lại thích nhất tư tưởng của Popper như ông trình bày rất rõ ràng trong quyển Poverty of Historicism (bác Nguyễn Quang A đã dịch quyển này sang tiếng Việt với tựa đề “Sự khốn cùng của Chủ nghĩa lịch sử,”, tiếc rằng bản dịch này cực rối rắm, kiểu sấm Hegel). Cho dù Lakatos đã có những phê phán sắc sảo về chi tiết kỹ thuật, tôi vẫn thấy cơ sở lý luận của Popper về cơ bản là cách tốt nhất để phân biệt khoa học và ngụy khoa học, dự đoán khoa học và “rùa rắn khoa học” kiểu công ty Đoán Xì Tốc Inc.Popper quan sát thấy rằng, rất nhiều nhánh “khoa học xã hội” (bao gồm MarxFreud) phạm phải narrative fallacy và confirmation bias. Họ có một lý thuyết vĩ đại nào đó, sau đó “fit” các sự kiện lịch sử vào lý thuyết đó. Sự kiện lịch sử nào không fit vào lý thuyết thì được xem là “outlier”. Không có một lý thuyết khoa học xã hội nào dự đoán chính xác được cái gì. Ngoài ra, lối trình bày lý thuyết một cách mù mờ làm cho các “lý thuyết” này tưởng chừng như đoán được nhiều thứ mà thật ra cũng chỉ là “trò lừa đảo vĩ đại” theo lời Taleb. Một lỗi nữa cũng rất nghiêm trọng là khi lịch sử không “fit” vào lý thuyết nào thì các “nhà khoa học” này thay đổi lý thuyết để “fit” lịch sử.Taleb có nhắc đến Popper vài trang, nhưng tôi thấy Taleb chưa “give full credit” cho Popper. Toàn bộ quyển sách của Taleb có thể được tóm gọn là “tư tưởng Popper qua ngôn ngữ xác suất đại chúng”.Riêng về dự đoán thì tôi đồng ý với Popper 2 tay 2 chân. Khi nào bạn đọc một lý thuyết chính trị vĩ đại nào đó, bạn thử làm thí nghiệm sau đây trong đầu: nếu ta đem lý thuyết này dự đoán tương lai thì nó đúng được bao nhiêu phần trăm? (Nhớ đừng phạm phải lỗi confirmation bias.) Khi làm thí nghiệm này xong tôi thường thấy các lý thuyết này không ấn tượng như chiều dày của quyển sách chứa nó nữa! Popper đã có một quan sát rất chính xác, nếu chỉ chăm chăm đi tìm bằng chứng ủng hộ một mệnh đề mù mờ nào đó, thì chúng ta gần như có thể chứng minh bất kỳ điều gì!

(Bình luận của: Nguyễn Xuân Long)

Các cuộc cách mạng (trong khoa học nói riêng và mọi thứ khác nói chung) xảy ra khi các mô hình cũ không còn work, và nhu cầu của một mô hình mới dần chín muồi cho đến khi một bộ não vĩ đại nào đó cuối cùng túm được nó. (Đôi khi thì ta gọi đó là “new way of thinking”, nhưng kỳ thực với God thì đó chỉ là một richer model). Còn giữa những khoảng breakthroughs như thế thì những người bình thường như chúng ta bận rộn pattern-recognize, và tweak các mô hình đã có. Một số sẽ quả cảm đưa ra dự báo về các mô hình về tương lai, nhưng thường là sai toét cả. Chúng ta có thể dự báo được được (ở mức độ meta) các mô hình tương lai được không?

Đáng tiếc câu trả lời là không thể. Prediction theory trong xác suất thống kê không cho phép ta làm điều đó. Với một Bayesian, nếu ta trùm lên một prior vào các mô hình có thể thì prior vẫn chỉ ôm đồm những khả năng ta đã lường trước mà thôi (Hay ta cần một prior hoàn toàn mới, nhưng nếu thế thì còn gọi là prior làm sao được nữa) Với một frequentist, assumptions đằng sau anh ta là replications của những hiện tượng cũ, và thời gian chỉ giúp cho anh ta “fit” cái cũ tốt hơn mà thôi.

Những hạn chế này bằng cách sự dụng các prior bao trùm không gian lớn (vô hạn chiều). Đó chính là công việc của nonparametric statistics. Nhưng không gian lớn thì việc tìm kiếm mô hình tốt nhất cũng khó khăn hơn, mất thời gian hơn nhiều. Và khi mô hình càng phức tạp, thì việc tìm kiếm ra nó, về mặt computational càng ngày càng bất khả thi. Điều này có vẻ trái với một thực tế là các cuộc cách mạng về khoa học và kỹ thuật của loài người vẫn tiếp tục với tốc độ đáng kinh ngạc. Loài người có một cách nào đó để tìm kiếm ra những mô hình mới không phải bằng nonparametric estimation!

Tôi nghĩ có một ingredient bị missing trong prediction theory trong statistics, đó chính là sức mạnh của decentralization. Làm thế nào để decentralize sự tính toán để rồi ở đâu đó ta sẽ tìm được mô hình mới mà các phương pháp centralized đều bó tay vì không khai thác được structure. Sức mạnh của decentralization có thể ngụ ý là việc tìm mô hình mới không phải là quá khó, nhưng ta có thể tận dụng đưọc structure của vấn đế như thế nào đó, để tạo ra một decentralized infrastructure mà qua đó mô hình mới được tìm thấy bởi một decentralized component nào đó với xác suất cao.

Về một chuyện khác: Thế còn các breakthroughs ngay ngành tổng quát gọi là “pattern recognition” là gì. Đâu là những mô hình mới đã đưọc sáng tạo? Xin được điểm qua:
– Fisher discriminant analysis, logistic regression (nửa đầu TK 20)
– Perceptron (Rosenblatt, 1958): separating hyperplane algorithm. Cognitive science-inspired, nhưng sau đó bị ruồng rẫy bởi Minsky và Papert (bác Papert bị tai nạn xe máy ở Hà nội năm ngoái).
– Neural network (phát triển từ perceptron thành nhiều layers, do công của nhiều người: Werbos, 1974; Ho (198?), Rumelhart et al (1986). Về mặt technical, thì đóng góp của NN là đi từ linear sang nonlinear pattern recognition. Nhưng về mặt chính trị ngành thì NN cổ vũ và energize rất nhiều người theo đuổi prediction theory (nhiều anh sau đó nhảy ra áp dụng NN để predict stock market, nhưng tất nhiên là chả đi đến đâu).
– Support vector machine (Vapnik et al, 1995) một sự phát triển từ perceptron sang một dạng “optimal separating hyperplane”, và chuyển linear in low-dimensional spaces sang linear in functional spaces (i.e., từ parametric sang nonparametric), và một loss function hoàn toàn mới.
– Adaboost: một dạng linear in functional spaces với loss function hoàn toàn mới.
– Wavelet-based models: chuyển linear sang nonlinear (in functional spaces).
– Graph-based models: arbitrarily complex (parametric) models
– Các mô hình nonparametric khác: gauss processes, dirichlet processes, …

Mặc dù có một số continuity giữa các breakthroughs nhưng người ta chỉ thấy một chút liên tục sau khi đã hiểu chúng khá rõ, đã đưa chúng vào một toolbox to đẹp hơn, còn tại thời điểm các bài báo ra đời thì chúng thường thể hiện những cách suy nghĩa hoàn toàn mới mẻ và độc đáo.

Ai dự đoán được mô hình tiếp theo là gì? Người đó chắc chắn sẽ rất nổi tiếng.

—————&&—————

Một phản hồi

Trả lời

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Đăng xuất / Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Đăng xuất / Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Đăng xuất / Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Đăng xuất / Thay đổi )

Connecting to %s

%d bloggers like this: