Bayesian & frequentist

Bayesian & frequentist

(Bình luận của: Nguyễn Xuân Long)

Ngoài sự phân biệt về mặt triết lý và thái độ khoa học, xin chua thêm vài ý:

– một cách xuất phát: frequentists đi từ khái niệm i.i.d (identical and independent), còn bayesian đi từ khái niệm exchangeability của observed data.

– về mặt toán học: có thể xem bayesian formulation là một công cụ toán học để giải quyết một bài toán frequentist. Cụ thể là nếu ta giải một vấn đề constrained optimization. Một cách thông thường là dùng Lagrange multiplier. Bayesian formulation giả sử là ta đã biết cái multiplier đó (đó là prior information). Tất nhiên frequentist formulation có tham vọng hơn, muốn tìm ra cái multiplier đó là cái gì. Như vậy, hai formulation không nhất thiết tương đương nhau, nhưng sẽ là tưong đương nếu anh Bayesian biết được giá trị multiplier “đúng”, theo cái nhìn của anh frequentist.

– nôm na KHMT: frequentist là worst-case analysis, còn Bayesian là average case analysis. Tất nhiên cả hai đều là statistical analysis (phân tích về giá trị kỳ vọng)

– về mặt problem-solving: frequentist view rất sexy, nhưng trong nhiều vấn đề rất khó cho ta thấy được đâu là solution. Nhìn từ góc độ Bayesian tuy khiêm tốn hơn, nhưng lại cho ta thấy structure của optimal solution. Một ví dụ tiêu biểu là sequential analysis. http://www.procul.org/blog/2005/06/29/cac-bai-bao-kinh-oi%e1%bb%83n-c%e1%bb%a7a-khmt-2-walds-sequential-analysis-theory/
Ngày trước, Abraham Wald sáng tạo ra sequential likelihood ratio test (SLRT), nhưng không tài nào chứng minh được nó là optimal. Wald, cũng như phần lớn các nhà thống kê vĩ đại nhất TK 20, là một nhà frequentist. Đến năm 48 thì Wald và Wolfowitz mới chứng minh được, và kỳ thực họ phải dùng cách nhìn Bayesian. Nhưng ngày ấy mà tự nhận mình là Bayesian thì thật là scandalous, nên họ chỉ coi đó là “mathematical device” mà thôi. Arrow, Blackwell và Girsick thì không có mặc cảm ấy, họ đã sử dụng Bayesian formulation và chứng minh được tính tối ưu của SLRT một cách trọn vẹn hơn cùng vào thời điểm đó.

– về mặt application: phương pháp frequentist nói thì hay mà làm thì dở. pp này rất thích hợp cho chứng minh các đảm bảo của các giải pháp thống kê. Còn pp Bayesian thì nói dở (vì subjective!, không chứng minh gì hết), nhưng làm hay. Làm hay với sự góp mặt của công nghệ thông tin và tiến bộ thuật toán! Các vấn đề thực tế thường giải quyết tốt bằng pp Bayesian. Tất nhiên sự phân biệt này cần hiểu một cách vui vẻ, không chặt chẽ! Thường thì nếu bạn có một solution frequentist tốt thì cũng sẽ có một Bayesian solution tốt tương ứng, và ngược lại. Nhưng ý tôi muốn gút lại là ở bên trên, dùng Bayesian formulation cho ta nhìn thấy structure của optimal solution tốt hơn. Ví dụ như Bellman’s dynamic programming methods khó lòng mà ra đời nếu xuất phát điểm của nó không phải là Bayesian point of view!

– về tính cách: dân frequentist thì hay tinh vi vì họ có chứng minh lý thuyết, họ rất toán học, nhưng cứng nhắc. Họ ít khi tạo ra mô hình mới, mà chỉ xoay quanh một số mô hình có sẵn và tìm hiểu chúng càng kỹ càng càng tốt. Dân Bayesian thì thiên nhiều về tìm ra model tốt nhất (cho prior), họ lấy đó làm thú vị: Tìm ra càng nhiều mô hình càng tốt, và áp dụng cho càng nhiều loại dữ liệu càng tốt. Mỗi mô hình là một dạng statistical models/ stochastic processes. Nhưng họ không quan tâm nhiều đến việc chứng minh. (Họ chủ quan hơn!) Còn nếu chứng minh bất kỳ cái gì thì họ sẽ phải dùng pp frequentist.

– Thực ra frequentist và Bayesian không hề đối lập nhau như nhiều người nghĩ trong các vấn đề cụ thể. Chúng đan xen nhau thì đúng hơn, và khi ta giới hạn cái nhìn của ta lại một góc nào đó, thì sẽ thấy đó là cách nhìn frequentist hay cách nhìn Bayesian. Điều này có thể thấy với những ai đã suy nghĩ ít nhiều về các mô hình nhiều tầng. Nếu bạn là Bayesian, bạn sẽ dùng prior cho parameters. Prior dùng hyperparameters. Vậy cái hyperparameters này là random hay unknown? Nếu unknown thì bạn lại thành frequentist mất rồi. Nhưng nếu random thì bạn lại phải suy nghĩ xem hyper-hyper-parameters là gì, unknown hay random? Ta có thể thấy câu hỏi này không thể nào dứt.

– Thực ra Bayesian không có nghĩa là phải dùng subjective prior. Frequentists cũng dùng prior một cách ngầm. Nhưng prior của frequentists thường không tỉ mỉ như của Bayesians. Chẳng ai có thể học được từ con số không cả, phỏng a.

– Về trí tuệ nhân tạo: Đây cũng là khía cạnh tôi rất thích thú. Những agents thông minh tự học thế nào, tự tiến hóa thế nào để cải thiện với kinh nghiệm. Để có thể học và cải thiện từ kinh nghiệm, những AI agents vẫn phải có mô hình về thế giới xung quanh để giao diện với data qua các giác quan. Vấn đề là, các mô hình này được phát triển thế nào? Nếu chúng ta chấp nhận mô hình tuyến hóa của Darwin thì rất có thể mọi thứ bắt đầu từ con số không, nhưng trong quá trình tiến hóa, sự thừa hưởng về di truyền chính là một cách sử dụng prior. Nhưng khi ta nói đến nhân tạo, thì việc dùng prior designed bởi con người là rất khả dĩ. Nếu không ta không thể có prior tốt, không thể tạo ra được AI. Vậy ta hãy theo Bayesian hay frequentist? Theo tôi đây là một câu hỏi không có ý nghĩa, nếu ta nhìn nhận vấn đề mộc cách pragmatic: Nếu một vấn đề (khía cạnh) của thế giới quan đã được chúng ta hiểu tốt, thì nên dùng Bayesian prior. Còn nếu không thì hãy dùng phương pháp frequentist.

– cuộc sống: prior tốt tạo cho bạn một cái bàn đạp tốt, giống như trí thông minh bẩm sinh. Nhưng nếu không có sự rèn luyện (lấy data, update, lấy data update) thì bạn không thể có mô hình tốt về thế giới. Khi bạn đến một nơi hoàn toàn mới, thì bạn nên dùng frequentist methodology, dò dẫm mà phát triển. Còn ở Việt nam thì muốn hay không cũng phải theo Bayesian :-)

Một câu hỏi thú vị mà statistics (đặc biệt là frequentists) nghiên cứu rất sâu là: nên dùng loss functions nào thì tốt, và thế nào thì gọi là tốt. Dịch ra cuộc sống, thì đó chính là câu hỏi sống để làm gì, và sống thế nào. Đó cũng chính là những câu hỏi căn bản nhất của TTNT. Utility functions của AI là gì? Có tồn tại một utility function tối thượng không?

– breakthrough của statistics? Tôi không cho rằng đó là sự ngã ngũ giữa bayesian và frequentist. Theo cảm nhận của tôi thì đến thời điểm này không câu hỏi không còn relevant nhiều nữa mà hai phương pháp đều song song tồn tại vì chúng không đối nghịch nhau như người ta nghĩ. Chúng là hai cái nhìn đan xen nhau khi ta giới hạn tầm nhìn của một bức tranh tổng thể.
Vậy breakthrough của statistics là gì? Lại theo cảm nhận chủ quan của tôi thì đó chính là sự kết hôn giữa statistics và computation, là sự hội tụ của statistics và KHMT, với sự góp mặt của machine learning.
Tôi cũng đã có một hành trình nho nhỏ về mặt tri thức, từ những ngày đầu học đại học cho đến giờ, bắt đầu từ những say mê khờ dại về trí tuệ nhân tạo và khmt, và tôi cảm thấy rất nhiều câu trả lời còn năm ở phía trước từ sự kết hôn ấy.

– Điều thú vị là Berkeley (của những Neyman, LeCam, Lehman), Stanford (của những Stein, Efron,…), Columbia (của Wald), v.v., chính là những thành trì của statistics cổ điển và frequentist statistics, nhưng ngày nay ngay cả những vị đầu ngành ở đây cũng không hề dogmatic về vấn đề này. Những năm đầu tôi cũng nghĩ mình là frequentist, nhưng sau vài lần đụng đầu phải một số vấn đề về sequential analysis, tôi chọn giải pháp ba phải đứng giữa :-)

– Cho đến những năm 70 thì hầu hết các khoa statistics ở Mỹ vẫn theo frequentist school. Tuy nhiên gần đây một số khoa statistics nổi lên là trung tâm của nhiều Bayesian như CMU, Duke. Hôm rồi có dịp dinner với giáo sư James Berger ở Duke, một nhà Bayesian (tác giả của cuốn [[James Berger, Statistical decision theory and Bayesian analysis]] highly recommended cho những ai quan tâm đến pp Bayesian về mặt lý thuyết) tôi có hỏi “what’s the difference between a frequentist and a bayesian”, ông nói, đại ý: cả hai đều tốt, nhưng dân bayesian “have more fun”. Và sau đó ông kể về hành trình của mình khi bắt đầu là một sinh viên cao học về toán đến với frequentist statistics rồi bayesian statistics như thế nào. Khá thú vị.

———–&&———–

Trả lời

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Đăng xuất / Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Đăng xuất / Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Đăng xuất / Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Đăng xuất / Thay đổi )

Connecting to %s

%d bloggers like this: