Hỏi bao nhiêu là đủ ?

Hỏi bao nhiêu là đủ ?

(Tác giả: Vũ Hà Văn – Nguồn: vuhavan.wordpress.com)

Ý kiến chung của đám đông, chẳng hạn về ứng cử viên tổng thống trước một cuộc bầu cứ,  về độ khả thi một công trình xây dựng,  về chất lượng một mặt hàng, vv  hiển nhiên  có vai trò rất quan trọng đối với người làm chính trị, luật, hay kinh doanh.

Phương pháp chính xác nhất  để thống kê là hỏi ý kiến từng người một. Việc này dĩ nhiên rất tốn kém, và chỉ thực hiện rất ít lần, chẳng hạn như bầu cử tổng thống ở Mỹ.

Thông thường, để có được số liệu về đám đông,  phương pháp hay dùng là   thử hỏi một số ít người, rồi  từ đó rút ra kết luận. Chẳng hạn, nếu hỏi  ý kiến 1000 người về một công trình xây dựng, và 650 người không tán thành, thì có thể suy ra ước chừng 65% dân số cả vùng không tán thành công trình này.

Phương pháp này có đáng tin cậy không ? Và hỏi bao nhiêu người là đủ  ?  Hiển nhiên, nếu chọn ra 1000 người trong dân số Hà nội, thì gần như chắc chắn sẽ không có bạn, và có khi cũng chẳng có ai bạn quen. Phản ứng của bạn sẽ là “Hừm, cái thống kê này chẳng liên quan quái gì đến mình, chẳng ai mình biết  đả động gì đến nó cả, không thể tin được. Vả lại Hà nội có 5 triệu dân, 1000 người làm sao đại diện. Bốc phét !!”  Phản ứng này hoàn toàn tự nhiên. Nếu Hànội có 5 triệu dân mà thống kê trên 1000 người,   dân số cả nuóc là 90 triệu, thì cần hỏi bao nhiêu người ?

Trong phân tích dưới đây, ta giả sử vấn đề được nói đến chỉ có hai câu trả lời ( chẳng hạn bạn có muốn công trình này được xây hay  không ? giữa hai ông A và B, bạn bỏ phiểu cho ông A hay B  ?). Các thống kê phức tạp hơn, như thu nhập trung bình sẽ được bàn đến một dịp khác.

Giả sử dân số là N, và trong số đó có M người sẽ  trả lời “có”, và N-M người trả lời “không”.  Ta chọn ra n người một cách ngẫu nhiên và hỏi ý kiến của họ.  Nếu ý kiến một ngừoi là “có”, ta cho anh ta 1 điểm, nếu ý kiến là “không”, ta cho 0 điểm. Tổng số người nói “có” sẽ là tổng số điểm.  Mục đích của ta là đánh giá tỷ số   p:=M/N, tỷ lệ tán thành. Vì tính đối xứng của bài toán, ta có thể giả sử p \ge 1/2.

Nếu ai đó được chọn ra một cách hoàn toàn ngẫu nhiên từ đám đông N người, xác suất anh ta nói có hiển nhiên sẽ là p.  Vậy số điểm của một người sẽ là một biến ngẫu nhiên  X bằng với xác suất  p0 với xác suất 1-p. 

Tổng số điểm S của  n người  được chọn sẽ là tổng của n biến ngẫu nhiên X. Kỳ vọng của  S  là np.  Tương tự, phương sai của Snp (1-p). Theo định lý Chernoff, xác suất đê  | S -np|  >   t   sẽ nhỏ hơn   2 exp (-t^2/np)

Nếu ta lấy  t=    cnp, ta kết luận là với xác suất nhỏ hơn 2 exp {- c^2 np ),  S ở giữa   np -cnpnp + cnp.  Hay nói cách khác p (1-c) \le S/n \le p(1+c); tức ta có thể dùng S/n để đánh giá p với sai số tương đối là c.

Công thức trên cho thấy sự liên quan giữa hai đại lượng quan trọng: độ tin cậy và độ chính xác của thống kê. Chẳng hạn ta muốn độ chính xác tương đối khi đánh giá p  là 10%, ta để c =1/10=10 %. Khi đó  xác suât để thống kê cho mức chính xác này là ít nhât  1- 2 exp ( - np/100 ) .  Nếu  n =1000 và p \ge 1/2, xác suât này là 1- 2 exp (-5) > .98. Điều đó có nghĩa là với xác suất it nhất 98%, đánh giá của ta về p có sai số nhiều nhất 10%.

Nhìn vấn đề một cách khác, nếu mục đích của bạn là có một đánh giá với sai số (tương đối) là c, với một độ tin cây 1- \epsilon, thì số n  cần  thoả mãn  1 -2 ẽxp (- c^2 np) >   1 – ε. Ta có thể đặt   n = ln  (2/ ε) /c^2p. Với  p \ge 1/2, ta có thể lấy  n= 2 c^{-2}  ln (2/ε).

Ví du: Nếu c= 10% =1/10 và  ε=5% =1/20;  ta cần n = 200 ln  40 ~ 740 ngưởi.  Với c =  ε =5% =1/20, cần   n = 800  ln  40 ~ 3000  người.

Điều thú vị nhất trong tính toán trên là  n chỉ phụ thuộc vào độ chính xác và tin cây mà ta mong muốn, chứ không phụ thuộc vào số N, tổng số dân trên địa bàn.  Nếu ta hỏi ý kiến 740 người, thì với xác suất 95%, độ chính xác của đánh giá là 10%, không phụ thuộc vào tổng dân số là 5 hay 50 triệu hay 500 triệu. 

Cái khó của làm thống kê không phải là thu thập ý kiến của vài ngàn người. Vấn đề lớn là làm sao đảm bảo được nhũng người này được tìm ra một cách hoàn toàn ngẫu nhiên trong tổng số dân trong vùng.  Việc nghe đơn giản này trong thực tế thực hiện cực khó. Dưới đây là một số ví dụ:

(1) Trưng cầu ý kiến qua mạng: Gửi email đến n địa chỉ  ngẫu nhiên. Giả sử trong trưởng hơp tốt nhất, cả n người đều trả lời. Vấn đề  là không phải ai cũng dùng email, nên ta chỉ nhận được thống kê trên nhóm người dùng email thôi.   Điều này có thể thấy rõ qua cuộc bình chọn cầu thủ bóng đá mọi thời đại giữa Maradona và Pele. Maradona thắng  áp đảo ở cuộc bình chọn  qua mạng, một phần  vì  những người dùng mạng trẻ hơn và khả năng họ đã xem trực tiếp Mâradona chơi bóng cao hơn là xem Pele.

(2) Ngay cả trong trường hợp tất cả mọi người dùng email, phương pháp trên vẫn có vấn đề, vì không phải ai nhận được email cũng trả lời. Quyết định trả lời và câu trả lời thường liên quan đến nhau.  Nếu chiếc xe hơi của bạn chạy bình thường,   ít khi bạn  trả lời những câu hỏi về chất lượng   của hãng xe. Nhưng nếu nó trục trặc luôn, thì khả năng  này tăng rất cao. Nếu ta thấy 30% khách trên mạng than thở về chất lượng của xe, điều đó không chắc đã nói lên là 30% số người mua xe gập vấn đề.

————–&&————

Trả lời

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Đăng xuất / Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Đăng xuất / Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Đăng xuất / Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Đăng xuất / Thay đổi )

Connecting to %s

%d bloggers like this: