Phân phối Tweedie (Tweedie distribution)

Phân phối Tweedie (Tweedie distribution)

(Nguồn: https://en.wikipedia.org)

Phân phối Tweedie là gì?

Trong xác suất và thống kê, họ phân bố Tweedie là họ các phân bố xác suất bao gồm: các phân bố chuẩn và gamma liên tục, phân bố Poisson rời rạc; và phân bố Poisson-gamma hỗn hợp. Đối với bất kỳ biến ngẫu nhiên Y nào tuân thủ phân bố Tweedie, phương sai var (Y) liên hệ với kỳ vọng E (Y) theo luật mũ:

{\text{var}}\,(Y)=a[{\text{E}}\,(Y)]^{p},

trong đó a và p là hằng số dương.

Các phân phối Tweedie được đặt tên bởi Bent Jørgensen theo tên của Maurice Tweedie – một nhà vật lý trị liệu và y học tại Đại học Liverpool, Vương quốc Anh – người đã đưa ra nghiên cứu kỹ lưỡng đầu tiên về các phân bố này vào năm 1984.

Một số họ phân phối Tweedie:

Với 0 < p < 1 không tồn tại phân phối Tweedie.

Tài liệu hướng dẫn thực hành phân phối Tweedie trên R:

Ghi chú. Các họ phân phối xác suất: Circular ; compound Poisson ; elliptical ; exponential ; natural exponential ; location–scale ; maximum entropy ; mixture ; Pearson ; Tweedie ; wrapped

———————–&&&———————

Người mở đường ngành xác suất hiện đại

Người mở đường ngành xác suất hiện đại

(Nguồn: http://tiasang.com.vn)

Nếu hai nhà thống kê lạc mất nhau trong một khu rừng vô hạn, trước tiên họ sẽ uống cho say. Khi đó, có thể nói là họ sẽ đi một cách ngẫu nhiên và việc này sẽ mang lại cơ hội tốt nhất để họ gặp lại nhau. Tuy nhiên, các nhà thống kê nên tỉnh táo nếu họ muốn đi hái nấm. Say rượu đi lung tung không mục đích sẽ thu hẹp phạm vi khám phá, và khả năng cao là họ sẽ quay trở lại vị trí cũ, nơi nấm đã bị hái hết rồi.

Những cách tư duy như vậy thuộc về các lý thuyết thống kê về “bước đi ngẫu nhiên” hay “bước đi của người say”, trong đó tương lai chỉ phụ thuộc vào hiện tại chứ không phải quá khứ. Ngày nay, bước đi ngẫu nhiên được sử dụng để mô hình hóa các hiện tượng như xu hướng giá cổ phiếu, khuếch tán phân tử, hoạt động thần kinh, biến động dân số, v.v. Người ta cho rằng cũng có thể sử dụng nó để mô tả “xu hướng di truyền” của một gene cụ thể – ví dụ như màu mắt xanh – trở nên phổ biến trong một nhóm dân cư. Một cách trớ trêu, lý thuyết với đặc trưng bỏ qua quá khứ này lại có một bề dày lịch sử khá phong phú. Nó là một trong nhiều đột phá tri thức được xây dựng bởi Andrei Kolmogorov, một nhà toán học với hiểu biết sâu rộng và khả năng đáng kinh ngạc, người đã cách mạng hóa vai trò của tính không dự đoán được trong toán học, trong khi bản thân ông vẫn cẩn trọng ứng đối với những biến động của đời sống chính trị và hàn lâm ở nước Nga Xô viết.

Khi còn trẻ, Kolmogorov đã được nuôi dưỡng bởi không khí tri thức sôi động của Moskva hậu cách mạng, tràn ngập các thử nghiệm văn chương, những xu hướng tiên phong trong nghệ thuật, và các ý tưởng khoa học mới mẻ. Ở những năm đầu thập niên 1920, khi là một sinh viên lịch sử ở tuổi 17, ông đã trình bày một bài báo trước các bạn học tại Đại học Moskva, đưa ra một phân tích thống kê khác thường về đời sống của người Nga thời Trung cổ, trong đó cho thấy thuế khóa đánh trên cả làng thường là số nguyên, trong khi thuế trên từng hộ dân lại được biểu diễn bởi một phân số. Bài báo kết luận – đầy tranh cãi vào thời điểm đó – rằng thuế trước đây được thu theo làng và phân bổ đến từng hộ, thay vì thu theo từng hộ rồi gộp tổng lại cho cả làng. Thầy của ông đã nhận xét gay gắt rằng “cậu chỉ mới tìm thấy một bằng chứng mà thôi, như vậy là không đủ với một nhà sử học. Cậu cần ít nhất năm bằng chứng.” Lúc đó, Kolmogorov đã quyết định chuyển sang nghiên cứu toán học, nơi chỉ một chứng minh là đủ.

Điều hợp lý một cách kỳ lạ là một sự kiện ngẫu nhiên như vậy đã dẫn dắt Kolmogorov vào lãnh địa của lý thuyết xác suất, khi đó chỉ là một nhánh nhỏ bị xem thường của toán học. Các xã hội tiền hiện đại thường nhìn nhận các sự kiện ngẫu nhiên như một biểu thị cho ý chí của thần thánh; ở Ai Cập và Hy Lạp Cổ đại, việc tung súc sắc được nhìn nhận là một công cụ cho việc tiên tri hay bói toán. Cho đến đầu thế kỷ 19, các nhà toán học châu Âu đã phát triển các kỹ thuật để tính toán các tỉ lệ cược, và định nghĩa xác suất như là tỉ lệ của số những trường hợp muốn có trên số tất cả các trường hợp đồng xác suất. Nhưng cách tiếp cận này lại vướng vào lập luận vòng quanh – xác suất được định nghĩa theo số các khả năng đồng xác suất – và chỉ có hiệu lực với những hệ có hữu hạn khả năng. Nó không thích hợp với những đại lượng vô hạn đếm được (như trò chơi với súc sắc có vô hạn mặt) hay không đếm được (như trò chơi với súc sắc hình cầu mà mỗi điểm trên mặt cầu là một khả năng). Những nỗ lực xử lý các tình huống như vậy chỉ mang lại những kết quả mâu thuẫn và tạo ra một hình ảnh xấu về lý thuyết xác suất.

Uy tín và thanh danh là những phẩm chất được Kolmogorov coi trọng. Sau khi chuyển ngành học, ban đầu Kolmogorov gia nhập nhóm toán của Nikolai Luzin, một giảng viên nổi tiếng đầy sức cuốn hút ở Đại học Moskva. Những học trò của Luzin đặt tên cho nhóm là “Luzitania,” một cách chơi chữ theo tên giáo sư của họ và con tàu của Anh bị chìm trong Thế chiến thứ nhất. Họ được thống nhất bởi một “nhịp đập của các con tim”, như Kolmogorov từng mô tả, tập hợp nhau lại sau giờ học để bàn luận chuyên sâu về những phát kiến mới trong toán học. Họ nhại partial differential equation (các phương trình đạo hàm riêng) thành partial irreverential equations (các phương trình bất kính riêng) và finite difference (sai phân hữu hạn) thành fine night differences (những khác biệt trong đêm vui vẻ). Lý thuyết xác suất, thiếu cơ sở lý thuyết chắc chắn và bị vướng vào các nghịch lý, đã bị đùa cợt thành “lý thuyết của sự không may”.

Cũng bởi Luzitania mà cách nhìn nhận của Kolmogorov về lý thuyết xác suất có thêm một bước chuyển mang tính cá nhân. Cho tới thập niên 30 thế kỷ trước dưới thời Stalin, bất kỳ ai cũng có thể bị công an mật gõ cửa ban đêm và sự may rủi quyết định cuộc sống của mọi người. Bị tê liệt bởi sợ hãi, rất nhiều người Nga cảm thấy bắt buộc phải tham gia vào việc tố giác, với hi vọng có thể tăng thêm cơ hội sống sót của mình. Một số người Bolshevik trong cộng đồng toán học, bao gồm cả những học trò cũ của Luzin, đã gán cho Luzin tội phản bội và phê phán ông gay gắt vì đã công bố công trình ở các tạp chí của nước ngoài. Bản thân Kolmogorov lúc ấy cũng có công bố ở nước ngoài nên có thể đã nhận thấy khả năng mình bị tố giác. Ông đã biểu lộ sự sẵn sàng thỏa hiệp về mặt chính trị vì lợi ích sự nghiệp của mình, chấp nhận một vị trí giám đốc viện nghiên cứu khi người tiền nhiệm của ông vì ủng hộ tự do tôn giáo mà bị chế độ Stalin bỏ tù. Bấy giờ, Kolmogorov tham gia phê bình và quay lưng lại với Luzin. Luzin đã trở thành đối tượng một buổi xét xử bởi Viện Hàn lâm Khoa học và mất tất cả các vị trí chính thức, nhưng đã thoát khỏi sự bắt giam và xử bắn bởi chính quyền Nga một cách ngạc nhiên. Luzitania cũng tan rã, bị đánh chìm bởi chính thủy thủ đoàn của nó.

Không bàn đến khía cạnh đạo đức trong quyết định của ông, Kolmogorov đã đặt cược thành công và nhận lại sự tự do để tiếp tục nghiên cứu. Trái ngược với sự phục tùng của mình trong chính trị, trong lý thuyết xác suất, Kolmogorov đã đưa ra một sửa đổi cấp tiến căn bản và thực sự là nền tảng của lĩnh vực này. Ông dựa vào lý thuyết độ đo, một lý thuyết thời thượng, mới được du nhập vào Nga từ Pháp. Lý thuyết độ đo là sự tổng quát hóa của các khái niệm “độ dài”, “diện tích” hay “thể tích”, cho phép đo đạc nhiều đối tượng toán học rắc rối nằm ngoài khả năng của các phương pháp thông thường. Chẳng hạn, nó có thể giúp tính diện tích của một hình vuông với vô hạn các lỗ ở bên trong, chia nó thành vô hạn các mảnh nhỏ, phân tán trên một mặt phẳng vô hạn. Trong lý thuyết độ đo, người ta vẫn có thể nói về “diện tích” (độ đo) của vật thể bị phân tán như thế.

Kolmogorov mô tả những tương tự giữa lý thuyết xác suất và lý thuyết độ đo, thể hiện trong năm tiên đề, ngày nay thường được phát biểu thành sáu mệnh đề, đưa xác suất trở thành một lĩnh vực được tôn trọng của giải tích toán học. Khái niệm căn bản nhất trong lý thuyết của Kolmogorov là “biến cố cơ bản,” kết quả của một phép thử đơn lẻ, như tung một đồng xu. Tất cả các biến cố cơ bản lập thành “không gian mẫu”, tập hợp của tất cả các kết quả khả dĩ. Chẳng hạn như với các cú sét đánh ở Massachusetts, không gian mẫu sẽ bao gồm tất cả các điểm trong bang mà sét có thể đánh vào. Một biến cố ngẫu nhiên sẽ được định nghĩa là một “tập đo được” trong một không gian mẫu, và xác suất của một biến cố ngẫu nhiên là “độ đo” của tập đó. Ví dụ xác suất sét đánh trúng Boston sẽ phụ thuộc vào diện tích (“độ đo”) của thành phố này. Hai biến cố xảy ra đồng thời có thể được biểu diễn bởi giao của các độ đo của chúng; xác suất có điều kiện được biểu diễn bởi thương các độ đo; và xác suất mà một trong hai biến cố không phụ thuộc vào nhau xảy ra được tính bằng cách cộng các độ đo (ví dụ như, xác suất hoặc Boston hoặc Cambridge sẽ bị sét đánh được tính bằng tổng diện tích của chúng).

Nghịch lý Đường tròn lớn là một câu đố toán học quan trọng mà khái niệm xác suất của Kolmogorov cuối cùng đã giải được. Giả sử rằng người ngoài hành tinh hạ cánh ngẫu nhiên trên một hành tinh hình cầu hoàn hảo và xác suất điểm hạ cánh được phân bố đều. Như vậy có phải họ sẽ hạ cánh với xác suất như nhau ở bất kỳ nơi nào dọc theo bất kỳ đường tròn nào chia mặt cầu thành hai bán cầu bằng nhau, hay còn gọi là “đường tròn lớn”? Hóa ra xác suất hạ cánh được phân bố đều dọc theo đường xích đạo, nhưng phân bố không đều trên các đường kinh tuyến, với xác suất tăng dần khi tới gần đường xích đạo và giảm ở các cực. Nói cách khác, người ngoài hành tinh có xu hướng hạ cánh ở những vùng có khí hậu nóng hơn. Có thể giải thích kết quả lạ lùng này bằng hình ảnh các đường tròn vĩ tuyến lớn dần khi chúng tiến dần tới xích đạo – nhưng kết quả này nghe có vẻ thật vô lý, bởi vì chúng ta có thể quay đường tròn và biến đường xích đạo thành một đường kinh tuyến. Kolmogorov đã chỉ ra rằng đường tròn lớn có độ đo bằng không, bởi vì nó là một đoạn thẳng và có diện tích bằng không. Điều này lý giải sự mâu thuẫn hiển nhiên trong các xác suất có điều kiện của việc hạ cánh tồn tại bởi không thể tính toán một cách nghiêm túc những xác suất như vậy.

Tưởng có thể gác qua một bên thế giới thực với những thanh trừng theo kiểu Stalin để bước vào thế giới phù du của những xác suất có điều kiện với độ đo-không, nhưng Kolmogorov đã sớm phải quay về với hiện thực. Trong Thế chiến thứ hai, Chính phủ Nga yêu cầu Kolmogorov phát triển các phương pháp giúp tăng tính hiệu quả của pháo binh. Ông đã chỉ ra rằng thay vì cố gắng tối đa xác suất mỗi phát bắn trúng đích, trong một số trường hợp cụ thể sẽ tốt hơn nếu bắn một loạt đạn có độ lệch nhỏ so một phát ngắm chuẩn xác, một chiến thuật được biết đến dưới tên gọi “phân tán nhân tạo”. Bộ môn Lý thuyết xác suất của Đại học Moskva mà Kolmogorov là tổ trưởng, cũng đã tính toán các bảng đạn đạo cho những pha ném bom tầm thấp, vận tốc nhỏ. Vào năm 1944 và 1945, chính phủ đã trao thưởng cho Kolmogorov hai Huân chương Lenin cho những đóng góp của ông trong thời chiến và sau cuộc chiến ông làm việc với tư cách cố vấn toán học cho chương trình vũ khí nhiệt hạch.

Nhưng những mối quan tâm của Kolmogorov vẫn hướng ông tới những hướng nghiên cứu có tính triết lý hơn. Toán học đã dẫn ông tới niềm tin rằng thế giới được dẫn dắt bởi tính ngẫu nhiên và cơ bản được sắp đặt dựa trên các định luật xác suất. Ông thường chỉ ra vai trò của tính không dự đoán được trong những mối quan hệ của con người. Cuộc gặp gỡ tình cờ của Kolmogorov với nhà toán học cùng thời Pavel Alexandrov trong một buổi chèo thuyền năm 1929 đã khởi đầu cho một tình bạn thân thiết suốt đời. Trong một lá thư dài mà họ thẳng thắn trao đổi, Alexandrov đã phê phán Kolmogorov vì ý thích nói chuyện với người lạ trên tàu, ngụ ý rằng những gặp gỡ như vậy quá hời hợt, không giúp nhận diện tính cách thực của một con người. Kolmogorov phản đối, ông đưa ra quan điểm xác suất rất cấp tiến về những tương tác xã hội trong đó mỗi người hành động như những mẫu thống kê đại diện cho các nhóm lớn hơn. Ông viết hồi âm cho Alexandrov rằng “một cá nhân sẽ có xu hướng hấp thu tinh thần xung quanh, và thể hiện với bất kỳ ai quanh mình, không chỉ với một người bạn nhất định, về phong cách sống và thế giới quan mà họ hấp thu được”.

Kolmogorov quan tâm sâu sắc tới âm nhạc, văn chương và ông tin rằng mình có thể phân tích chúng dưới khía cạnh xác suất để thu được những hiểu biết sâu sắc về cách tư duy bên trong trí óc con người. Ông là người tin vào tính thứ bậc trong văn học nghệ thuật. Ở đỉnh tháp là các tác phẩm của Goethe, Pushkin, và Thomas Mann cùng với những sáng tác của Bach, Vivaldi, Mozart và Beethoven, những công trình có giá trị trường tồn tương tự như những chân lý toán học vĩnh cửu. Kolmogorov nhấn mạnh rằng mỗi công trình nghệ thuật đích thực là một sáng tạo độc nhất, thứ gì đó không dự đoán được, nằm ngoài địa hạt của những chuẩn mực thống kê đơn giản. “Liệu có thể xếp một cách hợp lý tác phẩm Chiến tranh và Hòa bình của Tolstoy vào chung trong một tập hợp của ‘tất cả những tiểu thuyết có thể sinh ra trên đời’, và hơn nữa là thiết lập một phân bố xác suất nào đó cho các phần tử trong tập hợp này hay không?”, ông hỏi đùa trong một bài báo in năm 1965.

Dù vậy, ông vẫn khao khát hiểu bản chất của sáng tạo nghệ thuật. Năm 1960, Kolmogorov tổ chức một nhóm các nhà nghiên cứu với những máy tính cơ điện và giao cho họ nhiệm vụ tính toán cấu trúc nhịp điệu của thơ ca Nga. Kolmogorov đặc biệt quan tâm tới độ lệch của nhịp điệu các bài thơ trong thực tế so với những vần luật cổ điển. Trong thơ ca truyền thống, vần luật kiểu iamb là một nhịp điệu bao gồm một âm tiết không nhấn theo sau một âm tiết nhấn. Nhưng trong thực tế, người ta hiếm khi tuân thủ quy tắc này. Trong tác phẩm Evegnhi Onhegin của Pushkin, bài thơ iamb cổ điển nổi tiếng nhất bằng tiếng Nga, gần như ba phần tư trong 5300 dòng của nó vi phạm quy tắc vần luật iamb, và hơn một phần năm của tất cả những âm tiết chẵn là không nhấn. Kolmogorov tin rằng tần suất sai lệch này cho thấy một “chân dung thống kê” khách quan về mỗi nhà thơ. Ông cho rằng, một mẫu hình nhấn trọng âm bất thường là chỉ dấu cho tính sáng tạo và biểu đạt nghệ thuật. Nghiên cứu Pushkin, Pasternak và những nhà thơ Nga khác, Kolmogorov lập luận rằng họ đã biến tấu các vần luật để tạo ra “sắc thái tổng thể” cho bài thơ hay đoạn văn của mình.

Để đo giá trị nghệ thuật của văn bản, Kolmogorov còn sử dụng một phương pháp đoán chữ để đánh giá entropy của một ngôn ngữ tự nhiên. Trong lý thuyết thông tin, entropy là một thước đo tính bất định hoặc tính không dự đoán được, tương ứng với nội dung thông tin của một thông điệp: thông điệp càng không thể dự đoán được thì thông tin mà nó hàm chứa càng nhiều. Kolmogorov đưa entropy thành một thước đo của tính độc đáo trong nghệ thuật. Nhóm của ông đã sắp đặt một chuỗi các phép thử, trong đó các tình nguyện viên được xem một trích đoạn văn xuôi hoặc thơ ca Nga, rồi yêu cầu họ đoán chữ cái tiếp theo, tiếp theo nữa, rồi cứ tiếp tục như vậy. Kolmogorov ngầm nhận xét rằng, từ góc nhìn của lý thuyết thông tin, các tờ báo Xô viết thường ít thông tin hơn thơ ca, bởi vì các bài diễn thuyết chính trị thường sử dụng nhiều những cụm từ có tính khuôn sáo và nội dung của chúng rất dễ đoán trước. Trái lại, các bài thơ của những nhà thơ vĩ đại lại khó đoán hơn rất nhiều, mặc dù chúng phải tuân thủ những quy phạm rất chặt chẽ theo thể thơ. Theo Kolmogorov, đây là một biểu hiện của tính độc đáo. Nghệ thuật đích thực thì không đoán trước được, nhưng phẩm chất đó lại có thể được đo lường bởi một lý thuyết xác suất có chất lượng cao.

Kolmogorov không thể chấp nhận việc coi Chiến tranh và Hòa bình như một phần tử nằm chung trong một tập hợp của tất cả mọi tiểu thuyết – nhưng ông có thể biểu đạt tính không thể dự đoán của nó bằng cách tính toán độ phức tạp của nó. Kolmogorov coi độ phức tạp của một đối tượng chính là độ dài của mô tả ngắn nhất về nó, hoặc là độ dài của thuật toán tạo ra đối tượng. Những đối tượng tất định đều đơn giản theo nghĩa rằng chúng có thể được sinh ra từ những thuật toán ngắn như một chuỗi tuần hoàn các số 0 và 1. Những đối tượng thực sự ngẫu nhiên, không thể dự đoán được thì đều phức tạp, bởi bất kỳ thuật toán nào sinh ra chúng cũng phải dài như chính bản thân chúng vậy. Ví dụ, những số vô tỷ – những con số không thể viết dưới dạng phân số – dãy chữ số đằng sau dấu thập phân xuất hiện ngẫu nhiên và hầu như không hề có một quy luật nào. Bởi vậy, hầu hết các số vô tỷ đều là các đối tượng phức tạp bởi vì chúng chỉ có thể được ghi lại bằng cách viết ra toàn bộ dãy các chữ số. Cách hiểu về độ phức tạp này phù hợp với ý niệm trực quan rằng không có phương pháp hay thuật toán nào có thể dự đoán các đối tượng ngẫu nhiên. Khái niệm này ngày nay rất quan trọng trong vai trò thước đo các tài nguyên tính toán cần có để biểu đạt một đối tượng, đồng thời có nhiều ứng dụng trong định tuyến mạng hiện đại, các thuật toán sắp xếp và nén dữ liệu.

Có thể nói Kolmogorov có một cuộc đời phức tạp, nếu ta căn cứ theo phương thức đo mà bản thân ông tạo ra. Cho tới lúc mất năm 1987 ở tuổi 84, ông đã không chỉ trải qua một cuộc cách mạng, hai lần Thế chiến và Chiến tranh lạnh, mà sự sáng tạo của ông đã chạm tới hầu hết các địa hạt trong toán học, vươn xa khỏi biên giới của khoa học hàn lâm. Dù chúng ta coi những bước đi ngẫu nhiên của ông trong cuộc đời là của người say hay của người nhặt nấm, thì những khúc rẽ và bước ngoặt của chặng đường ấy đều không dự đoán được và cũng không thể dễ dàng mô tả. Thành công của ông trong việc nắm bắt và áp dụng tính không dự đoán được đã làm hồi sinh lý thuyết xác suất, và đã tạo ra một miền đất cho vô hạn các dự án khoa học và kỹ thuật. Nhưng lý thuyết của ông cũng khuếch đại sự căng thẳng, giữa một bên là trực giác của con người về tính không thể dự đoán được, và bên kia là sức mạnh hiển nhiên của công cụ toán học để mô tả nó.

Với Kolmogorov, những ý tưởng của ông không loại bỏ tính ngẫu nhiên mà cũng không khẳng định một bản tính bất định căn bản về thế giới của chúng ta; chúng chỉ cung cấp một ngôn ngữ đủ chặt chẽ để nói về những gì không thể biết chắc chắn. Ông từng nói, khái niệm “ngẫu nhiên tuyệt đối” cũng chẳng hợp lý hơn khái niệm “tất định tuyệt đối”, và kết luận: “chúng ta không thể có những hiểu biết xác thực về sự tồn tại của những gì không thể biết.” Nhưng, dẫu sao thì nhờ có Kolmogorov, chúng ta có thể giải thích khi nào và tại sao lại có sự không thể đó.

Hoàng Mai dịch từ bài viết The Man Who Invented Modern Probability của Slava Gerovitch đăng trên trang Nautilus, 

Phùng Hồ Hải hiệu đính

Nguồn: http://nautil.us/issue/4/the-unlikely/the-man-who-invented-modern-probability

———–&&———-

Phân phối ổn định (Stable distribution)

Phân phối ổn định (Stable distribution)

Phân phối ổn định là gì ?

Trong lý thuyết xác suất, một phân phối (hoặc một biến ngẫu nhiên) được gọi là ổn định  nếu mọi tổ hợp tuyến tính của hai phiên bản độc lập bất kỳ đều có cùng một phân phối, sai khác tham số vị trí (location parameter) và tham số tỉ lệ (scale parameter). Họ các phân phối ổn định cũng đôi khi được gọi là phân phối alpha-ổn định Lévy (Lévy alpha-stable distribution).

Trong 4 tham số xác định nên phân phối ổn định, gồm:  α  (stability), β (skewness), c (scale), μ (location); tham số ổn định α (0 <α ≤ 2) là quan trọng nhất. Phân phối ổn định có α = 2 tương ứng với phân phối chuẩn, và α = 1 tương ứng phân phối Cauchy. Các phân phối có phương sai không xác định khi α <2, và có trung bình không xác định α ≤ 1.

Tính chất quan trọng của phân bố ổn định là tính “hấp dẫn” (“attractors”) cho tổng chuẩn hóa của họ các biến ngẫu nhiên độc lập cùng phân phối (iid). Tính chất này tương tự /mở rộng  tính chất của phân phối chuẩn, và cũng có định lý giới hạn trung tâm (mở rộng) cho phân phối ổn định: Tổng chuẩn hóa của họ các biến ngẫu nhiên idd có phương sai vô hạn (thêm một số giả thiết) sẽ tiệm cận tới một phân phối ổn định.

Mandelbrot gọi phân phối ổn định có phương sai vô hạn (không là phân phối chuẩn, α <2) là phân phối Paretian ổn định; và gọi phân phối ổn định có tính “dương” (lệnh cực đại theo hướng dương, 1 <α <2) là phân phối Pareto-Levy .

B. Mandelbrot (và cả E. Fama) là người đã giới thiệu/cổ súy cho ứng dụng phân phối ổn định trong phân tích giá cổ phiếu và giá hàng hóa (xem: Financial models with long-tailed distributions and volatility clustering).

Tài liệu hướng dẫn thực hành phân phối ổn định trên R:



Các trường hợp đặc biệt và một số ứng dụng của phân bố Alpha ổn định (Trần Hữu Trung)

So sánh với phân bố Gauss, phân bố alpha ổn định có hàm đặc trưng tiệm cận đến 0 chậm hơn nhiều nên còn được gọi là phân bố có đuôi dài. Trong các trường hợp đặc biệt phân bố này có thể suy biến về phân bố Gauss. Trong khuôn khổ bài báo này chúng tôi tập trung nghiên cứu các trường hợp đặc biệt của phân bố alpha ổn định, tính chất và đặc điểm như hàm đặc trưng, khả năng suy biến. Chúng tôi cũng đề xuất một số ứng dụng của phân bố này trong tự nhiên.

  1. Đặt vấn đề

Khi nghiên cứu phân bố của một số hiện tượng trong tự nhiên, để lý giải các trường hợp đột biến, các nhà khoa học nhận thấy rằng phân bố chuẩn (phân bố Gauss) trong nhiều trường hợp không còn phù hợp. Ví dụ như khi lý giải hiện tượng biên độ nhiễu xung đo tại khu công nghiệp, xuất hiện những biên độ lên tới 5V, thậm chí 10V đỉnh đỉnh. Vấn đề đặt ra ở đây là cần mô tả những phân bố của các hiện tượng dạng này như thế nào? Paul Levy từ những năm 1960 đã đưa ra phân bố lệch Levy [2], đã được Mandelbroit [3] cùng John Nolan phát triển đề xuất một dạng phân bố mới – phân bố alpha ổn định. Gần đây ngày càng nhiều các nghiên cứu về phân bố alpha ổn định, một dạng phân bố Non- Gauss. Trong bài báo này, chúng tôi nghiên cứu về tính chất, các dạng suy biến cũng như một số ứng dụng cụ thể của phân bố alpha ổn định dựa trên các kết quả đo lường, khảo sát thực tế tại Việt Nam.

Bài viết đầy đủ: download



Phân phối ổn định và một số ứng dụng trong thống kê (Lã Thị Lương)

Trình bày một số kiến thức cơ sở về phân phối ổn định: định lý giới hạn trung tâm, phân phối ổn định, các cách tham số hóa khác đối với phân phối ổn định, ý nghĩa các tham số của phân phối ổn định, mômen của phân phối ổn định và các tính chất, phép biến đổi tuyến tính của các biến ngẫu nhiên ổn định, hàm mật độ xác suất và hàm phân phối của biến ngẫu nhiên ổn định. Tìm hiểu ước lượng các tham số của phân phối ổn định: phương pháp phân vị, phương pháp dựa trên hàm đặc trưng, phương pháp hợp lý cực đại, kiểm định đánh giá dáng điệu đuôi của phân phối ổn định. Triển khai mô hình thống kê đối với phân phối ổn định: mô hình tuyến tính với nhiễu ổn định, mô hình hồi quy đối với các sai số a− ổn định không chuẩn, mô hình ARMA. Áp dụng mô hình ARMA với sai số phân phối ổn định: Công ty cổ phần Xuyên Thái Bình và cổ phiếu PAN, mô hình ARMA đối với mã cổ phiếu PAN, ước lượng các tham số phân phối ổn định của phần dư, kiểm định tính phù hợp với phân phối ổn định của sai số.



Phân phối ổn định và các phương pháp ước lượng chỉ số đuôi của phân phối ổn định (Nguyễn Phúc Khang)

———–&&———-

Probability Distribution Family Tree

Probability Distribution Family Tree

(Tác giả: Frank Nielsen – Vincent Garcia)

Lịch sử Lý thuyết xác suất

 Lịch sử Lý thuyết xác suất

(Nguồn: thunhan.wordpress.com)

history_of_probabilityCó thể nói sự bắt nguồn cho câu chuyện về xác suất và thống kê là từ một vài bài viết được đề cập từ những sự nỗ lực độc lập của Cardano (Liber de Ludo Aleae (1565), xuất hiện lần đầu tiên vào năm 1663) và Galilei(Sopra le Scoperte dei Dadi (vào khoảng 1620), xuất hiện lần đầu tiên vào năm 1718), nhưng vào thời điểm đó đã có một sự đồng quan điểm được nhận định từ một số câu hỏi về trò chơi cờ bạc được Antoine Gombaud, Chevalier de Méré và Damien Mitton gởi cho Pascal vào năm 1654.

Thời gian này chưa có báo chí khoa học như ngày nay, do đó cần có những phương thức khác thật sự cần thiết để nắm bắt và công bố những công trình nghiên cứu về môn khoa học mới. Thư từ là một trong những con đường giải quyết hiệu quả trở ngại này. Thật vậy, Martin Marsenne đã như là người trung gian giữ vai trò kết nối sự liên lạc giữa các nhà khoa học và triết học trên toàn châu Âu bằng cách viết và nhận những lá thư, sau đó chuyển chúng cho những người khác. Trong số những người bạn thư của ông có nhiều nhà khoa học và triết học như Descartes, Pascal, Fermat, Galilei và Huygens.

Những vấn đề về XSTK xuất hiện trong Thế kỷ thứ 17:

Năm 1654: Giữa tháng 7 và tháng 10 của năm đó đã có 7 lá thư được trao đổi giữa Blaise Pascal và Pierre de Fermat có thể được xem chính là nguồn gốc đích thực của lý thuyết xác suất. Một trong các chủ đề chính của những lá thư này là thảo luận câu hỏi được đề cập trước đây của Méré về problème des partis (vấn đề chia điểm) giữa hai người chơi P1 và P2 khi họ chơi một chuỗi những ván chơi công bằng, và cuộc chơi sẽ kết thúc khi một trong 2 người chơi thắng được N ván chơi (N là số đã biết trước). Nhưng đột nhiên cuộc chơi bị gián đoạn. P1 đã thắng N1 ván chơi, P2 thắng N2 ván chơi. Làm thế nào để chia tiền thưởng?

Pascal dường như có ý định viết một cuốn sách ngắn về bài toán problème des partis (cách chia điểm) được gọi là Aleae Geometria nhưng dự định này chưa được thực hiện.

Năm 1656: Đầu năm, Christiaan Huygens đã viết một bản thảo về Van Rekeningh in Spelen van Geluck và gửi cho Frans van Schooten, giáo sư toán học của trường đại học Leyden. Huygens là một trong những sinh viên cũ của ông. Van Schooten thật sự thích thú quan tâm tới bản thảo của Christiaan Huygens và muốn đưa nó vào thành phần cuối của cuốn sách toán mà ông đang viết.

Van Rekeningh in Spelen van Geluck là một chuyên luận ngắn khoảng 15 trang mà có lẽ Huygens có được dựa trên những gì ông ta nhận thấy về những vấn đề thảo luận qua thư từ giữa Pascal và Fermat trong suốt những năm đầu tiên ông ở Paris.

Trong bản thảo cuối cùng có chứa 14 vấn đề (Voorstellen) cùng với lời giải của chúng và 5 vấn đề dành cho người đọc giải quyết. Năm vấn đề cuối này là một phần nội dung thảo luận của Fermat và Pascal.

Vấn đề thứ 2 và thứ 4 trong 5 vấn đề cuối cùng này liên quan đến việc nhặt những mảnh vỡ đen và trắng trong khi bịt mắt (tiền thân của mô hình bình kín – the urn model). Vấn đề cuối cùng trong 5 vấn đề trên được biết đến như là vấn đề Gambler’s Ruin, xuất phát từ thảo luận thư từ giữa Pascal và Fermat được tiếp tục vào năm 1656. Huygens đã nghe thấy những vấn đề của Pascal và Fermat này từ Pierre Carcavy. Năm vấn đề cuối cùng là nền tảng cho các nhà toán học sau này (như là Jacob và Nicholas Bernoulli, de Moivre và Montmort) nghiên cứu hay cải tiến dựa trên những lời giải mà Huygens sẽ công bố.

Năm 1657: De Ratiociniis in Ludo Aleae, một bản dịch từ tiếng Latin của Van Rekeningh in Spelen van Geluck của tác giả Frans van Schooten, cùng với phần giới thiệu trong những bài viết của Huygens là ấn phẩm đầu tiên về xác suất (như trò cờ bạc). Đây cũng là phần cuối cùng củaVan Schootens Exercitationum Mathematicarum libri quinque (Năm cuốn sách Bài tập Toán học).

Nhiều bản viết bằng tiếng Latin khác cũng được tìm thấy trong trang web đang xây dựng về Christiaan Huygens.

Năm 1660: Bài viết gốc tiếng Hà Lan của Van Rekeningh in Spelen van Geluck, cùng với phần giới thiệu trong những bài viết của Huyghensđược Van Schooten xuất bản trong Mathematische Oeffeningen, begrepen in vijfboecken (bản dịch tiếng Hà Lan xuất bản năm 1657).

Nhiều bản viết tiếng Hà Lan có thể tìm thấy trong trang web đang xây dựng về Christiaan Huygens.

Năm 1662: John Graunt bắt đầu xuất bản công trình nghiên cứu của anh ta với tên gọi Observations on the Bills of Mortality (Những quan sát tỷ lệ tử vong). Những thư báo hàng tuần trong giai đoạn này, xuất bản lần đầu tiên vào năm 1604, được sử dụng để phát hiện sự bùng nổ một bệnh dịch, nhưng chưa bao giờ được phân tích một cách đúng đắn. John Graunt là người đầu tiên tóm tắt những dữ liệu thành biểu đồ và thực hiện việc phân tích mô tả thống kê trên những biểu đồ này.

John Graunt thảo luận về độ tin cậy của những dữ liệu mà ông nhận được. John Graunt là người đầu tiên giải thích “một cách thống kê” rằng số lượng nam và nữ tương đối bằng nhau và từ đó đưa ra một nhận định tỷ lệ giới tính trong sinh sản là ổn định. Ông còn là người đầu tiên xây dựng một biểu đồ sống góp phần tạo nên nền tảng cho toán học bảo hiểm nhân thọ.

st

Năm 1666: Trong Le Journal des Scavans, ngày 2/8/1666 xuất hiện một bản báo cáo về công trình Observations on the Bills of Mortality, tái bản lần thứ 3 (1665) của John Graunt. Bản báo cáo này đưa ra một tóm tắt về “những phản ánh sự tìm hiểu“, và dữ liệu về tuổi thọ trung bình của Graunt. Báo cáo này được Nicolaus Bernoulli sử dụng trong tập De Usu Artis Conjectandis in Jure (1709) của ông.

Năm 1670: Juan Caramuel Lobkowitz xuất bản Mathesis Biceps, một bách khoa toàn thư toán học, trong đó ông ta in lại tiểu luận của Huygens De Ratiociniis in Ludo Alea. Ông sai lầm khi cho rằng tiểu luận này là của một nhà thiên văn học người Đan mạch C.S Longomntanus (4/10/1562-1647), một trợ lý của Tycho Brahe.

Rất nhiều những xuất bản sau này có thể tìm thấy trong trang web đang xây dựng về Christiaan Huygens.

Năm 1671: Waerdije van Lijfrenten Naer Proportie van Losrenten của Johan de Witt được xuất bản. Quyển sách này tương đối hiếm, được đúc kết lại bởi Todhunter (1865) và Van der Waerden (1975). Những lá thư trao đổi giữa Jacob Bernoulli  Leibnitz vào những năm 1703–1705 cho thấy rằng Jacob biết về cuốn sách này và cố gắng để có được nó từ Leibnitz, người đang sở hữu một bản copy nhưng hình như đã đánh mất.

Năm 1684: Năm năm tiếp theo Jacob Bernoulli phát triển ý tưởng của ông trên nền tảng xác suất như đã mô tả trong tập Maditationes (sự suy ngẫm) của ông. Những điều này là nền tảng cho tập Ars Conjectandi (1713) của ông ta.

Năm 1692: Bản dịch của John Arbuthnot về De Ratiociniis in Ludo Aleae của Huygens trở thành xuất bản phẩm Anh ngữ đầu tiên về xác suất. Nó có nhan đề “Of the Laws of Chance” hay “a method of Calculation of the Hazards of Game, Plainly demonstrated, And applied to Games as present most in Use“.

Lời nói đầu của cuốn sách có những lời bình phẩm như sau:

Không thể có một cái chết khi đã xác định nghị lực và phương hướng, nhưng cũng không thể rơi vào một khía cạnh xác định nào, tôi không biết có một sức mạnh và phương hướng nào có thể làm nó rơi vào một khía cạnh xác định, và do đó tôi gọi nó là Cơ duyên, thứ mà không là gì nhưng lại là nỗi khát khao của nghệ thuật…

Tôi tin Sự tính toán định lượng của xác suất có thể được cải tiến để trở thành một lối Tư duy lý luận hữu ích, thú vị; ứng dụng cho nhiều Biến cố lớn bất ngờ, bên cạnh những Trò chơi, chỉ những Trường hợp quá sức phức tạp, phụ thuộc vào Cơ duyên mà hầu hêt con người không biết đến; và như vậy tôi cũng sẵn sàng gợi ý, tất cả các cuộc vận động trên thế giới không là gì khác ngoài một hình thức đó là Phân tích định lượng xác suất trong những biến cố tình cờ, và dấu hiệu nhận biết một nhà chính trị lỗi lạc không gì hơn là người biết khéo léo trong Sự tính toán; chỉ những Nguyên lý được sử dụng trong việc giải quyết của vấn đề, không thể nghiên cứu trong sự “đóng kín” mà phải đòi hỏi có sự  Quan sát của nhân loại.

Sự tính toán định lượng xác suất cũng nên được hình thành qua Kinh nghiệm, để dùng trong những cuộc chơi đánh cuộc về vấn đề gì đó; Số lẻ nếu có một người đàn bà và một đứa bé, nhưng đứa bé này phải là con trai, và nếu bạn muốn biết sẽ là số lẻ, bạn phải xem xét đến Tỷ lệ chịu đựng giữa nam và nữ.

… Tôi nghĩ rằng một con người có lẽ sẽ mạo hiểm với một vài sự so le như 100 hiến binh chiến đấu với cùng số người trong quân đội Hà Lan.

Nhận xét về tỷ lệ … sức chịu đựng của nam so với nữ sẽ được mở rộng trong công trình của ông ta xuất bản năm 1710.

Năm 1693: Công việc của Edmond Halley trên biểu đồ sinh được công bố trong An estimate of the Degrees of Mortality of Mankind (Một ước lượng về mức độ tỷ lệ tử vong của nhân loại), rút ra từ biểu đồ tìm hiểu về tỷ lệ sinh và tử tại thành phố thuộc Breslaw, với một nỗ lực muốn xác minh giá tiền trợ cấp sống và một vài sự xem xét khác.

Những vấn đề về XSTK xuất hiện trong Thế kỷ thứ 18:

st

1 bìa sách Doctrine of Chances được tái bản – Nguồn: st

Tiểu luận của Huggens vẫn có giá trị trong lĩnh vực xác suất trong vòng 50 năm. Những năm đầu của thế kỷ 18 đã chứng kiến một loạt các công trình về xác suất của Montmort, Nicolaus Bernoulli, De Moivre và Jacob Bernoulli (sau khi ông mất). Có lẽ điều này xảy ra từ sự khích lệ của những“lời nói thì thầm”, những bài viết rất khó hiểu trong Ars Conjectandi, mà ngay tác giả của nó là Jacob Bernoulli cũng trăn trở suy nghĩ trong 20 năm và trước khi ông mất vẫn chưa giải quyết xong.

Sau khi Montmort mất, chính De Moivre đã tiếp nối Doctrine Of Chance(Học thuyết sự ngẫu nhiên) của ông ta. Từ giữa thế kỷ 18 , vấn đề kết hợp những kết quả quan sát đã trở thành một đề tài quan trọng được nghiên cứu bởiBoscovich, Laplace và những nhà khoa học khác.

Năm 1705: Jacob Bernoulli mất. Một bản trường ca của Fontenelle viết tóm tắt công trình Ars Conjectandi của Jacob Bernoulli đã được xuất bản trong những năm tiếp theo. Do sự tranh chấp của gia đình, phải mất 8 năm trước khi Ars Cọnjectandi được xuất bản. Đây là điều đáng buồn vì nội dung chính của văn bản đã được hoàn thành vào năm 1690.

Năm 1708: Pierre Remond de Montmort xuất bản công trình Essai d’Analyse sur les Jeux de Hazards.

Năm 1709: Luận văn của Nicolaus BernoulliDe Usu Artis Conjectandis in Jure, được xuất bản vào năm 1709. Phần lớn của luận văn được sao chép trực tiếp từ những công trình của Jacob Bernoulli như là Meditationes và Ars Cọnjectandi.

Năm 1710: John Arbuthnot đọc bài luận của ông An Argument for Divine Providence, taken from the constant Regularity observed in the Births of both Sexes (Cuộc tranh cãi ý trời về tính đều khi quan sát tỷ lệ sinh giữa hai giới tính) (xuất bản năm 1712) cho hoàng gia. Ông đã xem xét số lượng lễ đặt tên hàng năm cho các bé trai và bé gái trong suốt giai đoạn dài trước đó (1629-1710). Ông nhấn mạnh rằng có nhiều bé trai hơn bé gái và tỷ lệ này gần như là hằng số.

Từ nhận định này, ông đã tính xác suất và đưa ra sự khác nhau về số các kết quả là 0.5 Ngoại suy kết quả này, ông ta kết luận … Tuổi và Tuổi… và… trên khắp Thế giới… đó là Nghệ thuật, không phải là Ngẫu nhiên, là sự định đoạt.

Năm 1711Abraham de Moivre xuất bản công trình De Mensura Sortis, seu, de Probilitate Eventuum in Ludis a Casu Fortuito Pendentibus.

Năm 1712Willem Jacob’s Gravesande xuất bản công trình Démonstration Mathématique du soin que Dieu prend de diriger ce qui se passe dans ce monde, tiree du nombre des Garcons et des Filles qui naissent journellement (tạm dịch: Những bẳng chứng của Toán học về sự tác động của Chúa trời đối với tỉ lệ sinh trai, gái – M4Ps). Ông ta gặp Nicolaus Bernoulli (1687-1759) khi Bernoulli trên đường đến Anh quốc thăm Hague, và cùng thảo luận bài nghiên cứu của Arbuthnots với Bernoulli. Jacob’s Gravesande cải tiến sự xấp xỉ của Arbuthnot bằng cách đính chính những sự khác nhau về số liệu sinh đẻ xảy ra trong mỗi năm.

Năm 1713Ars Cọnjectandi của Jacob Bernoulli được cháu trai của ông, Nicolaus Bernoulli, xuất bản khi ông đã qua đời; công trình gồm bốn phần:

I. Tractatum Hugenii De Ratiociniis in Ludo Aleae, Cum.

Một bản chú thích của Jacobi Bernoullj.

Một bản thuật lại chú thích của công trình De Ratiociniis in Ludo Aleae.

II. Doctrinam de Permutationibus & Combinationibus (Học thuyết về tính hoán vị & tính kết hợp) trong đó ông ta chứng minh phân phối nhị thức của Newton.

III. Usum Praecedentis Doctrinate in variis Sortitionibus & Ludis Aleae, trong đó ông ta áp dụng các yếu tố ở phần II vào các câu hỏi của xác suất.

IV. Usum & Applicationem Praecedentis Doctrinate in Civilibus, Moralibus & Oeconomicis, trong đó ông phát triển Luật (yếu) số lớn.

Năm 1713/14Pierre Remond de Montomort xuất bản công trình thứ 2, mở rộng các kết quả của cuốn sách Essai d’Analyse sur les Jeux de Hazards. (tạm dịch: những phân tích thử nghiệm dựa trên trò chơi đầy tính nguy hiểm – M4Ps)

Năm 1714: Willian Browne xuất bản bản dịch của ông về công trình De Ratiociniis in Ludo Alae của Huygens. Ông từ bỏ kế hoạch ban đầu là thêm vào một phần với nội dung là những ví dụ, bởi vì khi ông viết lời nói đầu, nó đã được bao quát đầy đủ bởi Pierre Remond de Montmort’s enlarged Essai… Cuốn sách thứ 2 do John Arbuthnot dịch vào năm 1692 được xuất bản trong cùng năm.

Năm 1718: Abraham de Moivre định nghĩa sự độc lập thống kê trong cuốn sách của ông về Doctrine of Chances (Học thuyết sự Ngẫu nhiên).

Năm 1730: Abraham de Moivre công bố định lý giới hạn trung tâm trong trường hợp đặc biệt là phân phối nhị thức.

Năm 1733: Abraham de Moivre chỉ ra trong công trình của ông, Approximatio ad Summam Terminorum Binomii (a+b) in Seriem expansi, phân phối chuẩn là một xấp xỉ của phân phối nhị thức. Kết luận của ông :

Và như vậy trong tất cả các trường hợp, có thể thấy rằng tính Ngẫu nhiên sinh ra tính bất quy tắc, vẫn là những sự so le vô cùng lớn, qua Thời gian, những cái bất quy tắc sẽ không tỷ lệ với sự hồi quy của Quy luật, là những kết quả tự nhiên từ Thiết kế gốc.

Chúng ta phải đợi 77 năm trước khi phân phối chuẩn được nhận biết bởi Gauss và Laplace trong việc đưa ra miêu tả chung những sai số quan sát được sẽ có phân phối như thế nào.

Năm 1738: Abraham de Moivre công bố cuốn sách mở rộng thứ 2 của Doctrine of Chances (Học thuyết sự ngẫu nhiên), với một bản mở rộng tổng quan của Approximatio (bản Anh ngữ).

Theo Stigler (1986) vào khoảng năm 1750, sự thuận lợi của việc tổ hợp những quan sát đã từ từ trở nên rõ ràng. Mãi đến khi một khái niệm được chấp nhận đó là khi tổ hợp những quan sát, sai số sẽ tăng lên thay vì bù đắp cho nhau. Một ngoại lệ là vào thế kỷ 16, nhà du hành vũ trụ Đan Mạch, Tycho Brahe, như đã được mô tả bởi Hald (1990).

Năm 1749, Leonard Euler trong khi đang cố gắng giải quyết vấn đề bất đẳng thức trong chuyển động của Sao Mộc và Sao Thổ, đã không có chiều hướng kết hợp những quan sát. Tobias Mayer trong khi khắc phục vấn đề tương tự đã đưa ra khái niệm hàng rào và giải quyết vấn đề.

Năm 1757: The Dalmatian jesuit Roger Boscovich công bố ý tưởng của ông ta về việc tổ hợp những quan sát trong một bản đề cương của công trình năm 1755 với tham khảo Anh ngữ Christopher Maire của ông trong việc đo cung kinh tuyến nằm gần Rome. Một bản mô tả đầy đủ phương pháp của ông được công bố vào năm 1760, về sau xuất hiện trong một công trình khác đó là Voyage astronomique et geographique dans Pétat de Péglise (1770).

Năm 1763: Định lý của Thomas Bayes được giới thiệu sau khi ông mất, nhưng hầu như nó không gây chú ý trong làng toán học cho tới tận năm 1780.

Năm 1774: Pierre Simon Laplace công bố công trình Mémoire sur la probabilité des causes par les évènements, trong đó ông cố gắng Xác định giá trị trung bình có được sau ba lần quan sát trên cùng một hiện tượng. Có thể nói nội dung của công trình này dựa trên một hồi ký năm 1772 chưa được công bố và một công trình khác được mở rộng thúc đẩy từ kiến thức của những nhà khoa học khác cùng thời (Joseph-Louis Lagrange và Johan III Bernoulli) cũng nghiên cứu cùng một vấn đề. Tuy nhiên, một bước ngoặt sai lầm trong xấp xỉ đã làm Laphace kẹt ở phương trình bậc 15 trong lời giải của vấn đề.

Năm 1787: Pierre Simon Laplace xuất bản tập Théorie de Jupiter et Saturne (Lý thuyết về sao Mộc và sao Thổ), trong đó ông giải quyết vấn đề bất đẳng thức trong chuyển động của sao Mộc và sao Thổ và chứng minh trạng thái ổn định của hệ mặt trời. Ông cải tiến dựa trên phương pháp sử dụng kết hợp những quan sát Tobias Mayer.

Những vấn đề về XSTK xuất hiện trong Thế kỷ thứ 19:

Năm 1805: Adrien Marie Legendre công bố phương pháp bình phương cực tiểu trong cuốn sách Nouvelles méthodes pour la détermination des orbites des comètes (tạm dịch: phương pháp mới xác định quỹ đạo của sao chổi – M4Ps). Theo Stigler (1986, trang145-146), Gauss nhắc đến phương pháp này như một nguyên tắc đơn giản vào năm 1809 và đã đề cập đến việc chính ông phát triển phương pháp bình phương cực tiểu vào năm 1775, nhưng không công bố. Đây chính là nguyên nhân Legendre tố cáo Gauss về tội ăn cắp ý tưởng. (Xem trong Eric W.Weissteins Biography of Gauss. Tuy nhiên, chú ý rằng Weissteins dường như xác minh khám phá của Legendres vào năm 1811.)

Năm 1809: Carl Friedrich Gauss đã chỉ ra được phân phối chuẩn là sự mô tả phân phối của những lỗi quan sát trong công trình Theoria Motus Corporum Coclestium in Sectionibus Conicis Solum Ambientum. Tuy nhiên, lý lẽ lập luận của ông hơi vòng vo.

Năm 1810: Pierre Simon Laplace người nhận ra yếu điểm trong công việc của Gauss năm 1809, đã đưa ra bản chặt chẽ và cải tiến hơn trong phần bổ sung của cuốn sách Mémoire sur les approximations des formules qui sont fonctions de très grant nombres et sur leur application aux probabilités của ông.

Năm 1812: Pierre Simon Laplace công bố công trình Théorie analytique des probabilités (Lý thuyết giải tích xác xuất).

Năm 1815: Bessel đưa ra thuật ngữ probable error (sai số có thể) (wahrscheinliche Fehler) để chỉ ra khoảng cách giữa giá trị trung bình và phân vị trong phân phối chuẩn (chính bằng 0,6745 độ lệch chuẩn). Nó là thước đo cho tính hay thay đổi mãi cho đến khi được thay thế bởi độ lệch chuẩn.

Năm 1835: Adolphe Quatelet giới thiệu trong Sur l’homme et le developpement de ses facultés, essai d’une physique sociale ý tưởng của ông về l’homme moyen (người đàn ông trung bình); ý tưởng này xuất phát từ những ai trong chúng ta chệch đi nhiều hay ít so với phân phối chuẩn. Quatelet chú trọng đến phương pháp dùng thông kê và ý tưởng này thật sự hữu ích trong thiên văn học và toán học nhằm nghiên cứu các thuộc tính của con người và trong con đường ông cải tiến xấp xỉ của mình.

Năm 1837: Một vài điều chưa rõ trong Recherchés sur la probabilité des jugements… của Simeon Denis Poisson, ông ta đã giới thiệu phân phối, mà vào năm 1914 phân phối này được H.E. Spoer đặt tên là phân phối Poisson. Poisson đưa ra “Luật số lớn”. Phân phối Poisson đạt được vị trí quan trọng vào năm 1973 khi Thomas Pynchon miêu tả phân phối tác động của tên lửa V2 trong Gravity’s Rainbow.

Năm 1867: Pafnuti Chebyshev đã đưa ra và chứng minh bất đẳng thức Chebyshev.

Năm 1875: Francis Galton giới thiệu cách sử dụng đường bậc bốn và đặt tên ogive cho hàm phân phối tích lũy chuẩn ngược.

Năm 1885: Francis Galton đã sử dụng hồi quy.

Năm 1893: Karl Pearson đặt tên độ lệch chuẩn cho độ đo phân tán, được biết đến như “Sai số bình phương trung bình so với gốc”, “Sai số của bình phương trung bình” hay “Trung bình sai số”.

Năm 1897: Karl Pearson giới thiệu hệ số tương quan (Pearson). Vào năm 1888 Galton cũng đã có cùng ý tưởng nhưng ông không theo đuổi dòng suy nghĩ này (Stigler, 1986, p. 297-299). Cái tên Auguste Bravais(1846) cũng gắn liền với khái niệm hệ số tương quan (Mối tương quan Bravais-Pearson). Nhưng theo Stigler (1986, p. 353) sự gắn liền này không xác thực.

Những vấn đề về XSTK xuất hiện trong Thế kỷ thứ 20:

Thế kỷ XX được đặc trưng bởi một số tranh luận về phương pháp luận. Đầu tiên, có một sự bất đồng trong nhìn nhận đến sở thích nghiên cứu với mức ý nghĩa tương quan lớn (Karl Pearson) hay nghiên cứu trên những thực nghiệm có mức ý nghĩa nhỏ (Ronald Fisher). Lĩnh vực nghiên cứu thực nghiệm với mức thang nhỏ đã chứng kiến sự nổi lên của một cuộc tranh luận thứ 2: H testing (Ronald Fisher) đối lập với bao gồm H và khái niệm Power(Jerzy Neyman & Egon Pearson).

Niềm tin của Spearman vào một nhân tố thông minh chung (g) mà được cho là sức mạnh ý định bên cạnh sự phát triển của nhân tố phân tích, đã dẫn đến cuộc tranh cãi kéo dài đến vài thập kỷ, với Thurstone và những nhà khoa học khác, những người dần dần đề cao nhân tố phân tích như là một cách duy nhất đơn giản hóa số liệu.

Sau chiến tranh thế giới lần thứ 2, bùng nổ các bài toán không-tham số và sự phát minh máy tính đã tạo ra khối luợng lớn khả năng thực hiện những ý tưởng mới và cũ như là mức thang đa chiều, bootstrapping và phân tích đa biến ngẫu nhiên.

Năm 1900: Karl Pearson đưa ra ý tưởng phân phối Chi bình phương.

Năm 1904: Charles Spearman dựa trên nền tảng về phân tích thừa số và hoàn thành nó trong 8 năm. Spearman biểu diễn hệ số tương quan cho vấn đề sắp xếp số liệu.

Năm 1908: William Gosset giới thiệu công trình về phân phối t và ứng dụng của phép thử t. Sự xuất hiện đầu tiên của phép thử t trong tâm lý học và những lĩnh vực liên quan đã xảy ra trước thập niên 30 của thế kỷ, nhưng Shen (1940) vẫn nhắc đến phép thử t như chưa phải là cách ứng dụng chung trong lĩnh vực giáo dục.

Năm 1925: Ronald Alymer Fisher công bố công trình Statistical methods for research workers. Đây là cuốn sách giáo khoa giới thiệu phân tích biến ngẫu nhiên.

Năm 1933: Andrei Kolmogorov đưa ra những tiên đề cơ bản của lý thuyết xác suất trong cuốn sách của ông Grundbegriffe der Wahrscheinlichkeitsrechnung (Foundations of the Calculus of Probabilities – Tạm dịch: Nền tảng giải tích của Xác suất – M4Ps). Ông cũng giới thiệu phép thử thống kê \left|F_n(x) - F_0(x)\right| .

Năm 1933: Harold Hotelling công bố công trình nghiên cứu về phân tích thành phần chính.

Năm 1939: Vadimir Smirnov dùng thống kê được phát triển bởi Kolmogorov để xây dựng phép thử Kolmogorov-Smirnov.

Năm 1976: Gene Glass công bố báo cáo của ông về việc kết hợp những kết quả trong của nghiên cứu đa cấp và đặt tên cho phương pháp này là meta-analysis. Mặc dù có nhiều ý tưởng đã tồn tại từ trước đó (Lush 1931, Fisher 1932, Pearson 1933, Snedecor 1946) nhưng chính Glass là người đã mang lại cho phương pháp này sự thúc đẩy để đạt được vị trí xứng đáng.

Năm 1977: John Tukey giới thiệu phân tích dữ liệu giải thích (EDA) như là thuốc giải độc cho giả thiết kiểm định tuần tự thay vì quan sát đầu tiên về số liệu

Nguồn: diendantoanhoc.org – Nguyễn Duy Tiến (st)

—————&&—————-

Xác suất

Xác suất

(Nguồn: vi.wikipedia.org)

Từ xác suất (probability) bắt nguồn từ chữ probare trong tiếng Latin và có nghĩa là “để chứng minh, để kiểm chứng”. Nói một cách đơn giản, probable là một trong nhiều từ dùng để chỉ những sự kiện hoặc kiến thức chưa chắc chắn, và thường đi kèm với các từ như “có vẻ là”, “mạo hiểm”, “may rủi”, “không chắc chắn” hay “nghi ngờ”, tùy vào ngữ cảnh. “Cơ hội” (chance), “cá cược” (odds, bet) là những từ cho khái niệm tương tự. Nếu lí thuyết cơ học (cơ học cổ điển) có định nghĩa chính xác cho “công” và “lực”, thì lí thuyết xác suất nhằm mục đích định nghĩa “khả năng”.

Mục lục

Các giai đoạn lịch sử

Khoa học nghiên cứu về xác suất là một phát triển trong thời kỳ cận đại. Việc chơi cờ bạc (gambling) cho chúng ta thấy rằng các ý niệm về xác suất đã có từ trước đây hàng nghìn năm, tuy nhiên các ý niệm đó được mô tả bởi toán học và sử dụng trong thực tế thì có muộn hơn rất nhiều.

Hai nhà toán học Pierre de FermatBlaise Pascal là những người đầu tiên đặt nền móng cho học thuyết về xác suất vào năm (1654). Christiaan Huygens (1657) được biết đến như là người đầu tiên có công trong việc đưa xác suất thành một vấn đề nghiên cứu khoa học.

Học thuyết chủ nghĩa về xác suất bắt đầu bằng những lần thư từ qua lại giữa Pierre de Fermat và Blaise Pascal (1654). Christiaan Huygens (1657) đã đưa ra những hiểu biết đầu tiên mang tính khoa học về vấn đề này. Các cuốn Ars Conjectandi của Jakob Bernoulli (sau khi chết, 1713) và Học thuyết chủ nghĩa cơ hội (Doctrine of Chances) của Abraham de Moivre (1718) đã xem xét chủ đề như một chi nhánh của ngành toán học.

Lý thuyết sai số (the theory of errors) có thể bắt đầu từ cuốn sách Opera Miscellanea của Roger Cotes (xuất bản sau khi ông mất, 1722), nhưng lí thuyết này đã được áp dụng lần đầu tiên trong một luận văn của Thomas Simpson vào năm 1755 (in vào năm 1756) trong thảo luận về sai số xảy ra trong quan sát (errors of observation). Bản in lại (1757) của luận văn này đưa ra tiên đề rằng khả năng sai số âm và dương (positive and negative errors) là ngang nhau, “và rằng có các giới hạn xác định được mà mọi sai số đều nằm trong các khoảng đó; các sai số liên tục được thảo luận và một đường cong xác suất được đưa ra” (and that there are certain assignable limits within which all errors may be supposed to fall; continuous errors are discussed and a probability curve is given).

Pierre-Simon Laplace (1774) đã thực hiện nỗ lực đầu tiên trong việc rút ra một qui luật từ việc kết hợp các quan sát từ các nguyên lí của lí thuyết xác suất. Ông đã giới thiệu định luật xác suất về sai số (the law of probability of errors) bằng một đường cong y = ϕ(x), x là một sai số bất kì và y là xác suất của lỗi đó, và đưa ra 3 thuộc tính cho đường cong này: (1) Nó là đối xứng qua trục y; (2) trục x là đường tiệm cận, xác suất của sai số \infty là 0; (3) diện tích vùng bao phủ là 1, thì một sai số là tồn tại. Ông cũng đã rút ra một công thức từ 3 quan sát đó. Ông cũng đã đưa ra (1781) một công thức cho định luật của điều kiện của sai số (the law of facility of error) (một thuật ngữ của Lagrange, 1774), nhưng công thức này dẫn đến phương trình không thể giải quyết được. Daniel Bernoulli (1778) đã giới thiệu nguyên lí của tích cực đại của các xác suất của một hệ thống sai số đồng thời.

Phương pháp bình phương cực tiểu do Adrien-Marie Legendre (1805), giới thiệu trong cuốn Nouvelles méthodes pour la détermination des orbites des comètes (Những Phương pháp mới để Xác định Quỹ đạo Sao chổi). Không biết đến đóng góp của Legendre, Robert Adrain, một tác giả Mỹ gốc Ireland, chủ bút tạp chí The Analyst (1808), lần đầu đưa ra định luật điều kiện của sai số,

\phi(x) = ce^{-h^2 x^2}

ch là các hằng số phụ thuộc vào độ chính xác của quan sát.

Ông đưa ra hai chứng minh, chứng minh thứ hai về cơ bản giống với chứng minh của John Herschel (1850). Carl Friedrich Gauss đưa ra chứng minh thứ nhất, dù chứng minh này có thể đã được biết đến ở châu Âu là chứng minh thứ ba sau Adrain, vào năm 1809. Các chứng minh tiếp theo đã được Laplace (1810, 1812), Gauss (1823), James Ivory (1825, 1826), Hagen (1837), Friedrich Bessel (1838), Donkin (1844, 1856) và Morgan Crofton (1870) đưa ra. Các tác giả khác đã đóng góp vào định luật này là Ellis (1844), Augustus De Morgan (1864), Glaisher (1872) và Giovanni Schiaparelli (1875). Công thức của Peters (1856) về r, sai số xác suất của một quan sát, rất phổ biến.

Vào thế kỷ 19 các tác giả về lý thuyết xác suất có Laplace, Sylvestre Lacroix (1816), Littrow (1833), Adolphe Quetelet (1853), Richard Dedekind (1860), Helmert (1872), Hermann Laurent (1873), Liagre, Didion và Karl Pearson. Augustus De Morgan và George Boole đã đóng góp vào việc giải thích lý thuyết xác suất.

Về mặt hình học (xem hình học giải tích) các tác giả có ảnh hưởng lớn là Miller, Crofton, McColl, Wolstenholme, Watson và Artemas Martin.

Khái niệm

Về cơ bản có một tập hợp những quy luật toán để có thể biến đổi các giá trị của xác suất; những quy luật nầy sẽ được liệt kê ra trong phần “Sự hình thành của xác suất” dưới đâỵ. (Có một số các quy luật được khác dùng để định lượng sự ngẫu nhiên như trong lý thuyết Dempster-Shaferlý thuyết khả tạo nhưng những quy luật này thì khác biệt từ bản chất và không tương hợp với cách hiểu thông thường các định luật về xác suất. Tuy nhiên, người ta vẫn còn tranh biện về những đối tượng chính xác nào mà trên đó những quy luật này được áp dụng. Đây là đầu đề của những diễn dịch của xác suất.

Ý tưởng chung của xác suất thường được chia thành 2 khái niệm liên quan:

  • Xác suất may rủi (aleatory probability), đề cập đến khả năng xảy ra của các sự kiện trong tương lai mà khả năng xảy ra của các sự kiện này phụ thuộc vào một hiện tượng vật lí nào đó mang tính ngẫu nhiên. Khái niệm này còn được chia ra thành (1) các hiện tượng vật lí, về cơ bản, có thể dự đoán được khi có đủ thông tin và (2) các hiện tượng không thể dự đoán được. Ví dụ của loại trước là việc thả một con súc sắc hay quay một bánh xe roulette; ví dụ của loại sau là sự phân rã hạt nhân.
  • Xác xuất trong tri thức (epistemic probability), đề cập đến sự không chắc chắn của chúng ta về một mệnh đề nào đó vì thiếu thông tin cung cấp để suy luận. Ví dụ việc xác định khả năng một nghi phạm là có phạm tội, dựa trên các chứng cứ cung cấp.

Sự hình thành xác suất

Như các lý thuyết khác, lý thuyết xác suất là một biễu diễn của khái niệm xác suất bằng các thuật ngữ hình thức – nghĩa là các thuật ngữ mà có thể xác định một cách độc lập với ý nghĩa của nó. Các thuật ngữ hình thức này được thao tác bởi các qui luật toán học và logic, và kết quả thu được sẽ được chuyển dịch trở lại miền (domain) của bài toán.

Có hai hướng công thức hóa xác suất đã thành công là sự hình thành công thức Kolmogorov và sự hình thành công thức Cox. Trong công thức của Kolmogorov, các tập được hiểu là các sự kiện và xác suất chính là một phép đo trên một lớp các tập đó.

Trong công thức của Cox, xác suất được xem là cái cơ bản (primitive – không thể phân tích thêm được nữa) và tập trung nghiên cứu vào việc xây dựng một phép gán tốt các giá trị xác suất đến các mệnh đề. Trong cả 2 trường hợp, các định luật về xác suất là như nhau, ngoại trừ yếu tố chi tiết kĩ thuật:

  1. xác suất là một giá trị số trong khoảng 0 và 1;
  2. xác suất của một sự kiện hay mệnh đề và phần bù của nó cộng lại phải bằng 1; và
  3. xác suất kết hợp của hai sự kiện hay hai mệnh đề là tích của các xác suất của một trong chúng và xác suất của cái thứ hai với điều kiện biết cái trước xảy ra.

Cách biểu diễn và chuyển đổi các giá trị xác suất

Xác suất của một sự kiện thương được biễu diễn bằng số thực trong khoảng 0 và 1, bao gồm 2 giá trị biên. Và một sự kiện không thể xảy ra thì có xác suất là 0, còn một sự kiện chắc chắn thì có xác suất là 1, nhưng điều ngược lại không đúng. Sự khác biệt giữa “chắc chắn” và “xác suất xảy ra 1” là rất quan trọng.

Hầu hết các giá trị xác suất xảy ra trong thực tế là giữa 0 và 1.

Sự phân bố

Một phân bố xác suất là một hàm số nhằm gán các giá trị (gọi là xác suất) cho các sự kiện. Các giá trị số này đặc trưng cho khả năng xảy ra của các sự kiện. Với một tập bất kì các sự kiện, có rất nhiều cách để gán các xác suất, và thường dựa vào sự lựa chọn loại phân bố của các sự kiện đang xem xét.

Có nhiều cách để chỉ định một phân bố xác suất. Thông thường nhất có lẽ là chỉ định một hàm mật độ xác suất (probability density function). Từ đó, xác suất của một sự kiện sẽ được bằng cách lấy tích phân hàm mật độ. Tuy nhiên, hàm phân bố cũng có thể được chỉ định rõ trực tiếp. Trong trường hợp chỉ có một biến (hay một chiều), thì hàm phân bố được gọi là hàm phân bố tích lũy (cumulative distribution function). Phân bố xác suất cũng có thể được chỉ định thông qua các giá trị mômen hay hàm đặc trưng (characteristic function), hay các cách khác nữa.

Một phân bố được gọi là phân bố rời rạc nếu nó được định ra trên một tập rời rạc, đếm được; ví dụ tập các số nguyên.

Một phân bố được gọi là phân bố liên tục nếu nó được định ra trên một tập vô hạn, không đếm được.

Hầu hết các phân bố trong các ứng dụng thực tế đều hoặc là một trong hai, nhưng có một số ví dụ về phân bố bao gồm của cả 2, gọi là phân bố hỗn hợp.

Các phân bố rời rạc quan trọng bao gồm phân bố đồng nhất, phân bố Poisson, phân bố nhị thức, phân bố nhị thức âmphân bố Maxwell-Boltzmann.

Các phân bố liên tục quan trọng bao gồm phân bố chuẩn (hay còn gọi là phân bố Gauss), phân bố gamma, phân bố-t của Student (Student’s t-distribution), và phân bố hàm mũ (exponential distribution).

Xác suất với toán học

Tiên đề xác suất tạo thành nền tảng cho lý thuyết xác suất. Việc tính toán các xác suất thường dựa vào phép tổ hợp hoặc áp dụng trực tiếp các tiên đề. Các ứng dụng xác suất bao gồm thống kê, nó dựa vào ý tưởng phân bố xác suấtđịnh lý giới hạn trung tâm.

Để minh họa, ta xem việc tung một đồng xu cân đối. Về mặt trực quan, xác suất để head xuất hiện phía trên là 50%; nhưng phát biểu này thiếu tính toán học – Vậy con số 50% có ý nghĩa thực sự thế nào trong ví dụ này?

Một hướng là dùng định luật số lớn. Giả sử là ta thực hiện một số lần gieo đồng xu, với mỗi lần gieo là độc lập nhau – nghĩa là, kết quả của 2 lần gieo khác nhau là độc lập nhau. Nếu ta tiến hành N lần gieo (trials), và đặt NH là số lần mà mặt head xuất hiện, thì với tỉ lệ NH/N.

Khi số lần gieo N trở nên lớn, ta kì vọng rằng tỉ lệ NH/N sẽ tiến gần hơn đến giá trị 1/2. Điều này cho phép ta định nghĩa xác suất Pr(H) của mặt head xuất hiện là giới hạn, khi N tiến ra vô cùng, của chuỗi các tỉ lệ này:

\Pr(H) = \lim_{N \to \infty}{N_H \over N}

Trong thực tế, dĩ nhiên ta không thể tiến hành vô hạn lần các lần gieo được; vì thế, nói chung công thức này áp dụng chính xác cho tình huống khi mà chúng ta biết được một xác suất cho sắn (a priori) cho một kết quả đầu ra nào đó (mà trong ví dụ này là thông tin đồng xu cân đối). Khi đó, định luật số lớn phát biểu rằng, khi cho biết Pr(H), và với một số nhỏ bất kì ε, luôn tồn tại một giá trị n sao cho với mọi N > n,

<img src="http://upload.wikimedia.org/wikipedia/vi/math/a/1/a/a1a9ac0165575e1ec6a5c6d3e9ffb94c.png&quot; alt="\left| \Pr(H) – {N_H \over N}\right|

Khía cạnh thông tin cho sẵn a priori của hướng tiếp cận này đôi khi gặp khó khăn trong thực tiễn. Ví dụ, trong với kịch Rosencrantz and Guildenstern are Dead của Tom Stoppard, một nhân vật gieo đồng xu mà luôn xuất hiện mặt head, sau 100 lần gieo. Ông ta không thể xác định đây là sự kiện ngẫu nhiên hay không – vì dù sao, điều này vẫn có thể xảy ra với đồng xu cân đối (dù hiếm).

Những chú ý khi tính toán xác suất

Khó khăn trong việc tính toán xác suất nằm ở việc xác định số sự kiện có thể xảy ra (possible events): đếm số lần xuất hiện của mỗi sự kiện, và đếm số lượng sự kiện có thể xảy ra đó. Đặc biệt khó khăn trong việc rút ra một kết luận có ý nghĩa từ các xác suất tính được. Một bài toán đố thú vị, bài toán Monty Hall sẽ cho thấy điều này.

Để học thêm về cơ bản của lí thuyết xác suất, xem bài viết về tiên đề xác suấtđịnh lý Bayes giải thích việc sử dụng xác suất có điều kiện trong trường hợp sự xuất hiện của 2 sự kiện là có liên quan nhau.

Ứng dụng của xác suất với đời sống hàng ngày

Ảnh hưởng chính của lý thuyết xác suất trong cuộc sống hằng ngày đó là việc xác định rủi ro và trong buôn bán hàng hóa. Chính phủ cũng áp dụng các phương pháp xác suất để điều tiết môi trường hay còn gọi là phân tích đường lối.

Lý thuyết trò chơi cũng dựa trên nền tảng xác suất. Một ứng dụng khác là trong xác định độ tin cậy. Nhiều sản phẩm tiêu dùng như xe hơi, đồ điện tử sử dụng lý thuyết độ tin cậy trong thiết kế sản phẩm để giảm thiểu xác suất hỏng hóc. Xác suất hư hỏng cũng gắn liền với sự bảo hành của sản phẩm.

Xem thêm

Liên kết ngoài

Các câu nói nổi tiếng

  • Damon Runyon, “It may be that the race is not always to the swift, nor the battle to the strong – but that is the way to bet.”
  • Pierre-Simon Laplace “It is remarkable that a science which began with the consideration of games of chance should have become the most important object of human knowledge.” Théorie Analytique des Probabilités, 1812.
  • Richard von Mises “The unlimited extension of the validity of the exact sciences was a characteristic feature of the exaggerated rationalism of the eighteenth century” (in reference to Laplace). Probability, Statistics, and Truth, p 9. Dover edition, 1981 (republication of second English edition, 1957).

—————–&&—————–