Tạm biệt tương quan (Correlation). Giới thiệu về điểm số khả năng dự đoán Predictive Power Score (PPS)

Tạm biệt tương quan (Correlation). Giới thiệu về điểm số khả năng dự đoán Predictive Power Score (PPS)

(Nguồn: http://amatech.funix.edu.vn/)

Quá nhiều vấn đề với sự tương quan

Hôm đó là chiều thứ Sáu và sếp của bạn nói rằng dữ liệu đã được cung cấp sớm một cách đáng ngạc nhiên – chỉ trong vòng 4 tuần. Đây chính là mảnh ghép còn thiếu cho mô hình dự đoán của bạn. Bạn rất hào hứng nhưng cũng đôi chút lo lắng vì bạn biết rằng việc tiếp theo phải làm là: khai phá dữ liệu. Tất cả 45 cột. Công việc này sẽ ngốn của bạn hàng giờ đồng hồ nhưng bạn biết nó hoàn toàn xứng đáng vì nếu không hiểu gì về dữ liệu bạn sẽ như mò kim đáy bể vậy.

Bạn tự hỏi: có mối quan hệ nào giữa các cột với nhau?

Để trả lời câu hỏi này, bạn có thể lại phương thức cổ điển quen thuộc: tính ma trận tương quan (corr. Matrix) và xem liệu có mối quan hệ nào đặc biệt không. Mỗi khi bạn tìm thấy mối quan hệ giữa hai cột nào đó, bạn dành thời gian để vẽ một biểu đồ phân tán (scatterplot) của hai cột đó và xem liệu bạn có thể rút ra thêm được gì không. Hi vọng là bạn có thể nhưng đa số trường hợp thì không vì bạn thậm chí còn chẳng hiểu những cột đó có ý nghĩa gì ngay từ ban đầu rồi. Nhưng chúng ta sẽ đề cập vấn đề này trong một bài viết khác.

Sau khi quan sát ma trận tương quan, bạn tiếp tục công việc và không hề biết bạn đã bỏ lỡ điều gì (thật đáng ngại).

Hãy dành chút thời gian để xem lại về sự tương quan. Một giá trị nằm trong khoảng -1 đến 1 và chỉ ra liệu có hay không một quan hệ tuyến tính mạnh (strong linear relationship) – dù theo chiều thuận hay nghich. Mọi thứ đều ổn. Tuy nhiên, có rất nhiều quan hệ phi tuyến mà sự tương quan không thể phát hiện ra được. Ví dụ, dạng sóng hình sin, đường cong bậc hai hay một hàm bí ẩn. Các trường hợp này hệ số tương quan sẽ bằng 0, và kết luận rằng: “Chẳng có mối quan hệ nào ở đây”. Ngoài ra, sự tương quan chỉ được sử dụng với các cột dữ liệu ở dạng số (numeric). Vì vậy, chúng ta sẽ bỏ qua hết các dữ liệu phân loại (categorical). Trong dự án gần đây của tôi, hơn 60% các cột có kiểu dữ liệu phân loại. Và tôi sẽ không chuyển đổi dữ liệu vì chúng không có thứ bậc và OneHotEncoding sẽ tạo ra một ma trận có kích thước lớn hơn cả số nguyên tử trong vũ trụ.

Bạn cũng đã biết rằng ma trận tương quan có tính đối xứng. Do đó về cơ bản chúng ta có thể ném một nửa đi. Tuyệt, chúng ta giảm bớt được chút công việc rồi đó! Đúng không nhỉ? Đối xứng nghĩa là tương quan của A và B bằng tương quan của B và A. Tuy nhiên, các mối quan hệ trong thực tế hiếm khi nào đối xứng. Thường thì, quan hệ là bất đối xứng. Đây là một ví dụ: Lần cuối tôi kiểm tra, mã bưu chính của tôi là 60327 giúp người ta có thể biết rằng tôi đang sống ở Frankfurt, Đức. Nhưng khi tôi chỉ nói cho họ về thành phố, họ thường chẳng bao giờ suy ra được chính xác mã bưu chính cả (Mã bưu chính của một thành phố thường là một khoảng giá trị, ví dụ như Hà Nội sẽ là từ 10000-14000 chứ không phải là một giá trị chính xác duy nhất).

Một ví dụ khác: một cột dữ liệu với 3 giá trị phân biệt sẽ không bao giờ có thể dự đoán chính xác một cột khác với 100 giá trị phân biệt. Nhưng điều ngược lại thì có thể. Rõ ràng, bất đối xứng là một phần rất quan trọng vì chúng rất phổ biến trong thực tế.

Nhận thấy những thiếu sót của tương quan, tôi đã bắt đầu suy nghĩ: liệu chúng ta có thể làm tốt hơn?

Các yêu cầu: Một ngày nào đó của năm ngoái, tôi đã mơ về một điểm số có thể nói cho tôi biết liệu có bất cứ quan hệ nào giữa hai cột – bất kể quan hệ đó là tuyến tính, phi tuyến, quan hệ gaussian hay quan hệ ngoài hành tinh đi chăng nữa. Đương nhiên, điểm số đó sẽ bất đối xứng vì tôi muốn tìm ra mọi mối quan hệ kì lạ giữa thành phố và mã bưu chính. Điểm số sẽ là 0 nếu không có quan hệ nào cả và bằng 1 nếu có một quan hệ hoàn hảo. Và để cho mọi thứ tuyệt vời hơn, điểm số có thể xử lý cả dữ liệu dạng số và dữ liệu phân loại. Tóm lại: một điểm số bất đối xứng, không phụ thuộc kiểu dữ liệu, dự đoán mối quan hệ giữa hai cột, có giá trị từ 0 đến 1.

Tính Điểm số khả năng dự đoán (Predictive Power Score – PPS) là gì

Trước tiên, không tồn tại duy nhất một cách để tính PPS. Thực tế là, có rất nhiều cách có thể tính điểm số khả năng dự đoán thỏa mãn các yêu cầu nêu trên. Vì vậy, hãy nghĩ về PPS như là đại diện cho một họ các điểm số.

Giả sử chúng ta có hai cột và muốn tính PPS của A dự đoán B. Trong trường hợp này, chúng ta coi B là biến mục tiêu và A là thuộc tính duy nhất. Giờ chúng ta có thể tính cross-validated Decision Tree và tính một ma trận đánh giá phù hợp. Khi mục tiêu là biến số học, chúng ta có thể sử dụng Decision Tree Regressor và tính Trung bình sai lệch tuyệt đối (MAE). Khi mục tiêu là biến phân loại, chúng ta có thể sử dụng Decision Tree Classifier và tínhF1 có trọng số. Bạn cũng có thể sử dụng các cách đánh giá khác như ROC nhưng tạm gác lại chúng sang một bên đã vì chúng ta gặp một vấn đề khác:

Hầu hết các ma trận đánh giá đều vô nghĩa nếu bạn không so sánh chúng với một kết quả cơ sở

Tôi đoán bạn đã hiểu tình huống này: bạn nói với bà rằng mô hình mới của bạn có điểm F1 là 0.9 và chẳng hiểu sao bà có vẻ không hài lòng giống như bạn. Thực chất, bà đã rất sáng suốt vì bà chưa biết liệu đã có ai đạt được điểm “0.9” chưa hay bạn là người đầu tiên đạt điểm số cao hơn 0.5 sau rất nhiều cố gắng trước đó. Do đó, chúng ta cần phải “chuẩn hóa” điểm đánh giá của mình. Và bạn sẽ chuẩn hóa điểm như thế nào? Bạn định nghĩa một giới hạn trên và một giới hạn dưới rồi đặt điểm của bạn vào. Vậy giới hạn trên và dưới nên để như thế nào? Hãy bắt đầu với giới hạn trên vì thường nó dễ hơn: điểm F1 tuyệt đối là 1. Điểm MAE tuyệt đối là 0. Bùm! Xong. Thế còn giới hạn dưới thì sao? Thực ra, chúng ta không có đáp án đúng cho mọi trường hợp.

Giới hạn dưới phụ thuộc vào ma trận đánh giá và bộ dữ liệu của bạn. Nó là giá trị mà một mô hình dự đoán đơn giản có thể đạt được.

Nếu bạn đạt được điểm F1 là 0.9 thì nó có thể là vô cùng tệ hoặc thực sự tốt. Nếu mô hình phát hiện ung thư siêu ngầu của bạn luôn đoán “không có bệnh” và vẫn đạt được điểm 0.9 cho bộ dữ liệu rất không cân đối đó thì rõ ràng 0.9 không tốt chút nào. Vậy thì, chúng ta cần tính điểm cho một mô hình thật đơn giản. Nhưng thế nào là một mô hình đơn giản? Đối với bài toán phân loại, luôn đoán giá trị hay xuất hiện nhất là một cách khá đơn giản. Với bài toàn hồi quy, luôn đoán giá trị trung vị là một cách khá đơn giản.

Hãy cùng quan sát một giả thiết chi tiết sau:

Quay lại với ví dụ về mã bưu chính và tên thành phố. Giả sử cả hai cột đều là biến phân loại. Đầu tiên, chúng ta muốn tính PPS của mã bưu chính đối với thành phố. Chúng ta sử dụng điểm F1 có trọng số vì thành phố là biến phân loại. Cross-validated Decision Tree Classifier của chúng ta đạt điểm F1 là 0.95. Chúng ta tính điểm cơ sở bằng cách luôn đoán thành phố hay xuất hiện nhất và đạt điểm F1 là 0.1. Nếu chuẩn hóa điểm, bạn sẽ thu được điểm khả nàng dự báo PPS cuối cùng là 0.94 sau khi áp dụng công thức chuẩn hóa: (0.95–0.1) / (1–0.1). Như chúng ta có thể thấy, 0.94 là điểm khả nàng dự báo khá cao, do đó mã bưu chính có vẻ là có khả năng dự đoán tốt đối với thành phố. Tuy nhiên, nếu chúng ta tính điểm khả nàng dự báo PPS theo chiều ngược lại, chúng ta sẽ được điểm PPS gần với 0 vì Decision Tree Classifier không tốt hơn đáng kể so với việc luôn đoán mã bưu chính thường xuất hiện nhất.

Chú ý: công thức chuẩn hóa cho MAE khác với F1. Với MAE thì càng bé càng tốt và giá trị tốt nhất là 0.

So sánh PPS với tương quan

Để có cái nhìn khách quan hơn về PPS và điểm khác biệt với tương quan, hãy cùng quan sát hai ví dụ dưới đây:

Ví dụ 1: Phi tuyến và bất đối xứng

Hãy dùng quan hệ bậc hai điển hình: thuộc tính x là một biến thống nhất nằm trong khoảng -2 đến 2 và biến mục tiêu y là bình phương của x cộng thêm nhiễu. Trong trường hợp này, x có thể đoán y khá tốt vì có một quan hệ phi tuyến, bậc 2 rõ ràng – sau cùng thì đó chính là cách ta tạo ra dữ liệu. Tuy nhiên, điều này không không còn đúng theo chiều ngược lại là y tới x. Ví dụ, nếu y là 4 thì sẽ không thể đoán được liệu x là 2 hay -2. Như vậy, quan hệ dự đoán là bất đối xứng và điểm số nên phản ánh điều này.

Các điểm số trong ví dụ này bằng bao nhiêu? Nếu bạn chưa biết bạn đang tìm cái gì, thì tương quan cũng sẽ chẳng giúp gì được bạn vì tương quan bằng 0 theo cả hai chiều từ x đến y và từ y đến x vì tương quan có tính đối xứng. Tuy nhiên PPS từ x đến y là 0.67, chỉ ra mối quan hệ phi tuyến. Tuy nhiên, PPS không bằng 1 vì vẫn có nhiễu trong quan hệ. Theo chiều ngược lại, PPS từ y đến x là 0 vì không có quan hệ nào để y có thể đoán được nếu chỉ biết mỗi giá trị của y. Điều này giống với quan sát của chúng ta trước đó.

Ví dụ 2: Cột biến phân loại và mô hình ẩn

Cùng so sánh ma trận tương quan với ma trận PPS trên bộ dữ liệu Titanic. “Lại là Titanic nữa sao??” Tôi biết, có thể bạn nghĩ rằng bạn đã thấy quen thuộc với bộ dữ liệu Titanic rồi nhưng có thể PPS sẽ cho bạn thêm những góc nhìn sâu hơn.

Hai điều rút ra về ma trận tương quan:

  1. Ma trận tương quan nhỏ hơn và bỏ qua nhiều quan hệ quan trọng. Đương nhiên, điều đó hợp lý bởi các cột như Giới tính, TicketID hay Port là biến phân loại và không thể tính tương quan với chúng được.
  2. Ma trận tương quan chỉ ra một tương quan âm giữa Giá vé và Hạng vé ở mức trung bình (-0.55). Chúng ta có thể kiểm tra lại quan hệ này nếu chúng ta nhìn vào PPS. Chúng ta sẽ thấy Giá vé có thể đoán chính xác Hạng vé (0.9 PPS) nhưng chiều ngược lại thì không. Hạng vé chỉ đoán được Giá vé với PPS là 0.33. Điều này hợp lý bởi nếu bạn biết giá vé là 5000hay10000hay10000 thì bạn có thể đoán được đó là hạng vé cao nhất. Ngược lại, nếu bạn biết ai đó ở hạng vé cao nhất thì cũng khó có thể đoán họ trả 5000hay10000hay10000 cho chiếc vé đó. Trong trường hợp này, tính bất đối xứng của PPS lại phát huy hiệu quả.

Bốn nhận xét về ma trận PPS:

  1. Hàng đầu tiên của ma trận chỉ ra cột dữ liệu độc lập dự đoán tốt nhất cho cột Sống sót  là Giới tính. Điều này hợp lý vì phụ nữ thường được ưu tiên trong quá trình cứu hộ. (Chúng ta không thể tìm thấy thông tin này ở ma trận tương quan vì cột Giới tính đã bị bỏ.)
  2. Nếu bạn để ý cột TicketID, bạn có thể thấy TicketID dự đoán khá tốt một vài cột khác. Nếu đào sâu thêm, bạn sẽ thấy rằng nhiều người có cùng TicketID. TicketID thực chất đại diện cho một nhóm các hành khách cùng mua vé với nhau, ví dụ như gia đình Rossi người Ý. Vậy nên, PPS đã giúp chúng ta phát hiện một mẫu ẩn.
  3. Điều ngạc nhiên hơn cả khả năng dự đoán của TicketID là khả năng dự đoán tốt của Giá vé đối với nhiều cột. Đặc biệt là: Giá vé dự đoán khá tốt TicketID (0.67) và ngược lại (0.7). Dựa theo tìm hiểu kỹ hơn bạn sẽ nhận ra rằng vé thường có giá nhất định. Ví dụ, chỉ có gia đình Ý Rossi trả giá 72,50$. Đây là một phát hiện vĩ đại! Nó có nghĩa là Giá Vé chứa thông tin về TicketID và về gia đình Rossi. Thông tin mà bạn cần phải có khi cân nhắc lựa chọn thông tin tiềm năng.
  4. Nhìn vào ma trận PPS, chúng ta có thể thấy một vài đánh giá có thể được giải thích bằng chuỗi nhân quả. (Có phải anh ta vừa nói nhân quả? – Tất nhiên những giả thuyết nhân quả phải được xem xét kĩ lưỡng nhưng điều này vượt quá phạm vi của bài viết.) Ví dụ, bạn sẽ ngạc nhiên tại sao Giá vé lại có khả năng dự đoán khả năng sống sót (PPS 3.39). Nhưng nếu bạn biết rằng Hạng vé ảnh hưởng đến khả năng sống sót (0.36) và Giá Vé dự đoán tốt về Hạng (PPS 0.9), thì bạn đã thấy lời giải thích rồi đó.

Ứng dụng của PPS và ma trận PPS

Sau khi chúng ta đã tìm hiểu về những ưu điểm của PPS, hãy cùng xem chúng ta có thể áp dụng chúng ở đâu trong thực tế.

Chú ý: Có các trường hợp có thể sử dụng cả PPS và tương quan. PPS rõ ràng có những ưu điểm vượt trội hơn tương quan trong việc tìm thuộc tính dự đoán trong dữ liệu. Tuy nhiên, một khi đã tìm thấy thuộc tính, tương quan vẫn là một phương pháp hiệu quả để diễn đạt các quan hệ tuyến tính đã tìm thấy.

  • Tìm quan hệ trong dữ liệu: PPS tìm thấy mọi quan hệ mà tương quan tìm thấy – và hơn thế nữa. Do đó, bạn có thể sử dụng ma trận PPS thay thế cho ma trận tương quan để tìm kiếm và hiểu các quan hệ tuyến tính và phi tuyến trong dữ liệu của bạn. Điều này là có thể giữa các kiểu dữ liệu khác nhau, sử dụng một điểm số duy nhất nằm trong khoảng 0 đến 1.
  • Lựa chọn thuộc tính: Bổ sung thêm vào cơ chế lựa chọn thuộc tính thông thường của bạn, bạn có thể dùng PPS để tìm ra thuộc tính dự đoán tốt cho biến mục tiêu của bạn. Hơn nữa, bạn cũng có thể loại bỏ các thuộc tính mà chỉ tăng thêm nhiễu cho mô hình. Những thuộc tính đó đôi khi vẫn có điểm cao trong ma trận độ quan trọng của các thuộc tính. Thêm vào đó, bạn có thể loại bỏ các thuộc tính có thể được dự đoán bởi các thuộc tính khác vì chúng không bổ sung thêm thông tin mới (Đa cộng tuyến). Bên cạnh đó, bạn còn có thể đánh dấu các cặp thuộc tính dự đoán tốt lẫn nhau trong ma trận PPS – bao gồm các thuộc tính tương quan mạnh và cả những quan hệ phi tuyến nữa.
  • Phát hiện rò rỉ thông tin: Dùng PPS để phát hiện thông tin rò rỉ giữa các biến – kể cả nếu thông tin rò rỉ là trung gian giữa các biến khác.
  • Chuẩn hóa dữ liệu: Tìm cấu trúc thực thể trong dữ liệu thông qua việc dịch ma trận PPS như một đồ thị có hướng. Sẽ khá bất ngờ khi dữ liệu chứa các cấu trúc tiềm ẩn mà trước đó chưa được biết tới. Ví dụ: TicketID trong bộ dữ liệu Titanic thường để chỉ một gia đình.

Tốc độ tính toán của PPS so với tương quan?

Mặc dù PPS có nhiều ưu điểm vượt trội hơn tương quan, nhưng vẫn có một số nhược điểm: nó tốn nhiều thời gian tính toán hơn. Nhưng nó tệ đến mức nào? Liệu nó sẽ tiêu tốn nhiều tuần liền hay chỉ sau vài phút hoặc vài giây? Khi tính toán một điểm số PPS duy nhất sử dụng thư viện Python, thời gian sẽ không phải là vấn đề vì thường nó chỉ tốn 10-500ms. Thời gian tính toán chủ yếu phụ thuộc vào kiểu dữ liệu, số hàng và công cụ được sử dụng. tuy nhiên, khi tính toán toàn bộ ma trận PPS với 40 cột tương ứng với 40*40=1600 phép tính thì sẽ tốn 1-10 phút. Với các dự án và bộ dữ liệu của chúng tôi, hiệu suất tính toán luôn đủ tốt nhưng đương nhiên luôn có cách để cải thiện. May mắn là, chúng tôi tìm thấy nhiều cách để cải thiện tốc độ tính toán của PPS.

Những hạn chế

Chúng ta đã tạo ra nó – bạn đang rất phấn khởi và muốn chia sẻ PPS với đồng nghiệp. Tuy nhiên, bạn biết rằng người ta rất hay phê bình những phương pháp mới. Đó là lý do bạn nên hiểu rõ những hạn chế của PPS:

  1. Tính toán chậm hơn (ma trận) tương quan.
  2. PPS không thể được diễn giải một cách dễ dàng như tương quan vì nó không cung cấp thông tin gì liên quan đến kiểu quan hệ đã được tìm thấy. Do đó, PPS tốt hơn trong việc tìm ra quan hệ còn tương quan lại nhỉnh hơn trong việc diễn giải các quan hệ tuyến tính.
  3. Bạn không thể so sánh các điểm số giữa các biến mục tiêu khác nhau vì chúng được tính theo các ma trận đánh giá khác nhau. Điểm số vẫn có ý nghĩa trong thực tế, nhưng bạn cần chú ý điều này.
  4. Có một số hạn chế đối với các thành phần được sử dụng. Hãy nhớ rằng: bạn có thể thay đổi các thành phần, ví dụ: sử dụng GLM thay cho Decision Tree hay sử dụng ROC thay cho F1.
  5. Nếu bạn sử dụng PPS cho việc lựa chọn thuộc tính, bạn nên kiểm tra cả trước và sau khi chọn. PPS cũng không thể phát hiện hiệu ứng kết hợp giữa các thuộc tính đối với cột mục tiêu của bạn.

Kết luận

Sau nhiều năm sử dụng tương quan, chúng ta thật dũng cảm (hay điên rồ?) khi đề xuất một sự thay thế giúp phát hiện các quan hệ tuyến tính hoặc phi tuyến. PPS có thể áp dụng với các cột dữ liệu ở dạng số hoặc phân loại và nó có tính bất đối xứng. Chúng tôi đã cung cấp công cụ tính toán trong một thư viện của Python. Hơn nữa, chúng tôi đã chỉ ra điểm khác biệt với tương quan trong một vài ví dụ và đã thảo luận về một số cái nhìn sâu hơn mà chúng ta có thể rút ra được từ ma trận PPS.

Bài gốc: An open-source alternative that finds more patterns in your data.

Đoàn Ngọc Chiến (dịch giả)

Lấy và làm sạch dữ liệu: Xử lý dữ liệu ngoại lai (Outliers)

Lấy và làm sạch dữ liệu: Xử lý dữ liệu ngoại lai (Outliers)

(Nguồn: https://ongxuanhong.wordpress.com)

Các phần tử ngoại lai (Outliers hay anomalies) có ảnh hưởng lớn đến độ chính xác của các mô hình dự đoán. Phát hiện và xử lý các điểm ngoại lai là một bước quan trọng trong quá trình chuẩn bị dữ liệu cho mô hình dự đoán. Trong bài viết này, ta sẽ tìm hiểu thế nào là điểm ngoại lai trong thống kê cũng như liệt kê một số phương pháp để xử lý các điểm dữ liệu này.

Các điểm ngoại lai là gì?

Hình ảnh ví dụ bên dưới cho ta thấy chỉ cần tồn tại một điểm ngoại lai cũng đã ảnh hưởng đến quá trình khớp (fitting) dữ liệu của mô hình linear regression như thế nào.

Outlier example
Outlier example

Ta thường xem các giá trị ngoại lai như các mẫu dữ liệu đặc biệt, cách xa khỏi phần lớn dữ liệu khác trong tập dữ liệu. Chưa có một định nghĩa toán học cụ thể nào để xác định một điểm ngoại lai. Việc này dẫn đến một bài toán liên quan đến xác định thế nào là một điểm ngoại lai trong quá trình xử lý dữ liệu. Có nhiều phương pháp khác nhau để phát hiện outlier. Một số áp dụng phương pháp đồ thị ví dụ như normal probability plots, một số phương pháp khác dựa trên các mô hình thống kê (model-based).

Ta có các khái niệm sau khi làm việc với outlier

Left outlier

Left outlier
Left outlier

Là điểm ngoại lai có giá trị cực tiểu (extreamly low) trong mẫu quan sát.

Right outlier

Right outlier
Right outlier

Là điểm ngoại lai có giá trị cực đại (extreamly large) trong mẫu quan sát.

Representative outlier

Representative Outlier
Representative Outlier

Là một outlier trong tập dữ liệu. Trong đó, điểm dữ liệu này giả định rằng đã được quan sát đúng (thu thập và ghi chép số liệu chính xác) và các phần tử tương tự nó có thể tìm thấy trong quần thể. Nghĩa là, đây là một đại diện (representative) cho các outlier cùng thể loại khác và thường được giữ lại để phân tích. Ví dụ khi so sánh kích thước các loài động vật trong thiên nhiên, cá voi đại diện cho động vật có kích thước lớn, con chuột đại diện cho động vật có kích thước nhỏ.

Nonrepresentative outlier

Nonrepresentative Outlier
Nonrepresentative Outlier

Là một outlier trong tập dữ liệu. Trong đó, nó chưa được quan sát một cách chính xác (sai sót trong quá trình thu thập và ghi chép dữ liệu) và được xem là duy nhất trong quần thể vì không tồn tại một giá trị nào tương tự như điểm dữ liệu này.

Alpha-trimmed mean

Alpha trimmed mean
Alpha trimmed mean

Alpha là giá trị trung bình của tập dữ liệu. Trong đó, 1/2 alpha trên và dưới của của tập dữ liệu sẽ bị loại bỏ.

Alpha-winsorized mean

Winsorized mean
Winsorized mean

Alpha là giá trị trung bình của tập dữ liệu. Trong đó, 1/2 alpha trên và dưới của tập dữ liệu sẽ được thay thế hoặc chuyển đổi sao cho phù hợp với tập dữ liệu hiện tại. Ví dụ ta có giá trị x1 (nhỏ nhất) đến x10 (lớn nhất). Hai giá trị này sẽ được thay thế bởi hai giá trị gần nó nhất là x2 và x9.

Làm thế nào để phát hiện các điểm ngoại lai?

Có một vài hướng tiếp cận để phát hiện các điểm ngoại lai. Trong cuốn sách Outlier Analysis của Charu Aggarwal, tác giả phân loại các mô hình phát hiện các điểm ngoại lai thành các nhóm như sau:

  • Extreme Value Analysis (phân tích giá trị cực hạn): đây là dạng cơ bản nhất để phát hiện các điểm ngoại lai và chỉ tốt cho dữ liệu 1 chiều. Trong mô hình phân tích này, ta giả định các giá trị nào quá lớn hay quá nhỏ đều là ngoại lai. Các phương pháp Z-test và Student’s t-test là ví dụ cho các mô hình thống kê này. Tuy nhiên, mô hình này không thật sự mạnh khi phân tích trên các điểm dữ liệu nhiều chiều (multivariate). Mô hình này thường được sử dụng ở bước cuối trong quá trình diễn giải kết quả nghiên cứu và phân tích.
  • Probabilistic and Statistical Models: ta áp đặt một phân bố cụ thể cho tập dữ liệu (normal distribution, Bernoulli distribution, poisson distribution, ..). Sau đó, ta sử dụng phương pháp expectation-maximization(EM) để ước lượng tham số cho các mô hình thống kê này. Cuối cùng, ta tính xác suất cho các phần tử thuộc tập dữ liệu ban đầu. Các phần tử nào có xác suất thấp sẽ được cho là điểm ngoại lai.
  • Linear Models: phương pháp này chuyển đổi tập dữ liệu ban đầu sang không gian ít chiều hơn (sub-space) bằng cách sử dụng tương quan tuyến tính (linear correlation). Sau đó, khoảng cách của từng điểm dữ liệu đến mặt phẳng ở không gian mới sẽ định tính toán. Khoảng cách tính được này được dùng để tìm ra các điểm ngoại lai. PCA (Principal Component Analysis) là ví dụ của linear models để xác định các điểm ngoại lai.
  • Proximity-based Models: ý tưởng của phương pháp này là mô hình hóa các điểm ngoại lai sao cho chúng hoàn toàn tách biệt (isolated) khỏi toàn bộ các điểm dữ liệu còn lại. Cluster analysis, density based analysis và nearest neighborhood là các hướng tiếp cận chính của phương pháp này.
  • Information Theoretic Models: ý tưởng của phương pháp này là dựa trên nguyên lý các điểm ngoại lai sẽ làm tăng giá trị minimum code length khi mô tả tập dữ liệu.
  • High-Dimensional Outlier Detection: phương pháp đặc biệt để xử lý các tập dữ liệu nhiều chiều và rời rạc (high dimensional sparse data). Ví dụ, ta có phương pháp High Contrast Subspaces for Density-Based Outlier Ranking (HiCS).

Thống kê có thể và không thể nói gì về chúng ta?

Thống kê có thể và không thể nói gì về chúng ta?

(Nguồn: http://tiasang.com.vn/)

Harold Eddleston, người đàn ông 77 tuổi ở Greater Manchester, vẫn đang quay cuồng với chẩn đoán ung thư vừa được biết thì vào một sáng thứ Bảy tháng Hai năm 1998, nhận được tin tồi tệ nhất: người vợ yêu quý của ông đã mất bất ngờ, sau một cơn đau tim.


Thí nghiệm đồng xu ưa thích của các nhà thống kê. 

Con gái của Eddleston, đã gọi bác sĩ của gia đình, một người đàn ông được kính trọng tại địa phương có tên là Harold Shipman. Shipman đến khám và trò chuyện ân cần riêng với Eddleston, nhưng khi gia đình người bệnh lo lắng hỏi về kết quả chẩn đoán, ông ta thông báo với vẻ nghiêm trọng: “năm nay sẽ không cần phải mua cho ông ấy trứng Phục sinh”. Tới thứ Tư, Eddleston chết; bác sĩ Shipman đã giết ông ấy.

Harold Shipman là một trong những kẻ giết người hàng loạt nhiều nhất trong lịch sử. Trong 23 năm, y đã tiêm cho ít nhất 215 bệnh nhân những liều chế phẩm có chứa thuốc phiện (opiate) chết chóc. Y bị bắt vào tháng 9/1998, sáu tháng sau khi Eddleston mất.

Gói những điều bất định vào các con số đơn lẻ 

David Spielgelhalter, tác giả của cuốn sách “The Art of Statistics” (Nghệ thuật của thống kê), là một trong những nhà thống kê được giao nhiệm vụ xác định xem liệu tỉ lệ tử vong của các bệnh nhân của Shipman có gợi lên nghi ngờ từ trước đó hay không. Spiegelhalter đã nhận ra số lượng bệnh nhân của Shipman tử vong quá nhiều so với những bác sĩ thông thường– 174 nữ và 59 nam.

Nhưng về mặt thống kê, tới ngưỡng nào thì nhiều cái chết chuyển thành quá nhiều cái chết? làm thế nào để phân biệt một sự kiện bất thường đáng ngờ với một chuỗi những điều không may? Cũng như vậy, làm sao chúng ta có thể dự đoán số người sẽ tử vong? Mỗi cái chết đều liên quan tình cảnh của mỗi cá nhân, chuyện riêng, và nhiều nguyên do; gói gọn tất cả những điều bất định đó vào trong một con số đơn lẻ thì có nghĩa lý gì?

Năm 1825, Bộ Tư pháp Pháp đã yêu cầu tạo ra một tuyển tập hồ sơ tội phạm quốc gia. Dường như đó là kiểu tuyển tập hồ sơ đầu tiên trên thế giới – thống kê mọi vụ bắt bớ và kết án trên khắp đất nước, theo vùng miền, được tổng hợp lại và sẵn sàng để phân tích. Đó là ví dụ sơ khai về Dữ liệu Lớn – lần đầu tiên phân tích toán học được áp dụng vào dự đoán địa hạt rối rắm và khó lường của hành vi con người.

Đầu những năm 1830, một nhà thiên văn học, toán học người Bỉ, Adolphe Quetelet đã phân tích những con số và nhận ra một hình mẫu đáng chú ý. Hồ sơ tội phạm cho thấy một quy luật đáng chú ý: số lượng các vụ tội phạm qua các năm đều nhất quán đến sửng sốt.

Quetelet phát triển ý tưởng về lý thuyết “Cơ chế xã hội” (Social Physics), và bắt đầu khám phá khả năng về một cơ chế, quỹ đạo ẩn sau đời sống con người: ở mức nào đó, có thể dự đoán và lượng hóa đời sống con người. Giờ đây chúng ta có thể dự đoán, với độ chính xác ấn tượng, số phụ nữ ở Đức sẽ lựa chọn mang bầu mỗi năm, số vụ tai nạn ôtô ở Canada, số vụ tai nạn máy bay ở khắp Nam bán cầu, thậm chí số người sẽ tới phòng cấp cứu của thành phố New York vào một buổi tối thứ Sáu nữa.

Dự đoán về cá nhân từ đặc tính tập thể có thể sẽ sai?

Tuy nhiên, đưa ra các dự đoán về cá nhân từ đặc tính tập thể có thể sẽ sai. Có thể nhìn vào ví dụ của luật sư người Pháp  André-François Raffray năm 1965. Ông đồng ý trả một cụ bà 90 tuổi 25 franc mỗi tháng cho tới khi bà cụ mất, đổi lại ông sẽ sở hữu căn hộ của bà ở Arles. Vào thời điểm đó, tuổi thọ trung bình kỳ vọng của phụ nữ Pháp là 74,5, và không nghi ngờ gì, Raffray, khi đó 54 tuổi, nghĩ rằng mình đã điều đình được một hợp đồng có lợi. Không may cho ông, cụ bà đó là Jeanne Calment đã sống tiếp 32 năm sau khi hợp đồng của họ được ký kết, còn lâu hơn Raffray, người mất ở tuổi 77. Tính tới khi đó, ông đã trả gấp đôi giá thị trường cho một căn hộ mà ông chưa từng sống trong đó.

Raffray đã mắc sai lầm khi tưởng rằng có thể dự đoán về tương lai một ai đó dựa trên dữ liệu trung bình của cả cộng đồng. Như nhà toán học Ian Stewart đã chỉ ra trong cuốn “Do Dice Play God?”, căn cứ theo số liệu trung bình thì mỗi người đều có một vú và một tinh hoàn. Trong các nhóm lớn, sự biến thiên tự nhiên giữa các cá thể tự động trung hòa nhau, nhưng sự biến thiên này khiến chúng ta không thể nói chắc chắn về từng cá nhân – một sự thực với nhiều hệ quả sâu rộng.

David Spiegelhalter bàn thêm là mỗi ngày hàng triệu người nuốt một viên statin nhỏ màu trắng để giảm nguy cơ đau tim và đột quỵ. Nếu bạn là một trong số những người đó, và tiếp tục sống thọ và vui vẻ  mà không bị đau tim bao giờ, bạn sẽ không bao giờ biết liệu viên statin của bạn đã có hiệu quả hay ngay từ đầu bạn không bao giờ bị đau tim. Với một nghìn người uống statin trong vòng 5 năm, thuốc sẽ chỉ giúp 18 người tránh khỏi một cơn trụy tim hay đột quỵ. Và nếu thấy mình bị đau tim thì bạn cũng không bao giờ biết được có phải nó bị statin làm chậm lại hay không.

Đó là quy tắc với các thuốc phòng ngừa: với hầu hết các cá nhân, phần lớn những thuốc này không có tác dụng gì cả. Thực tế rằng lý do chúng đáng được dùng là chúng tạo ra một ích lợi tổng thể cho cả cộng đồng.

Có quá nhiều điều chúng ta không biết, ở mức cá nhân: tại sao một số người có thể hút thuốc mà không bị ung thư phổi; tại sao một trong hai người sinh đôi vẫn khỏe mạnh trong khi người còn lại lại mắc chứng ALS (xơ cứng teo cơ một bên); tại sao một số trẻ em giống nhau lại xuất sắc ở trường học trong khi số khác chuệch choạc. Mặc cho những hứa hẹn lớn lao về khả năng khai thác Dữ liệu lớn để đưa ra các dự đoán thì đời sống của một con người cụ thể vẫn vô cùng khó lường.

Tuy nhiên, các nhà thống kê đã tìm được con đường dẫn tới sự chắc chắn tối đa trong một thế giới bất định. Có lẽ chúng ta không thể trả lời những câu hỏi dớ dẩn gây lúng túng, như “Tôi sẽ thọ bao nhiêu tuổi?”, nhưng người ta có thể giải quyết những câu hỏi như “Bao nhiêu bệnh nhân chết thì là quá nhiều?”.

Trong quá trình này, một ý tưởng mạnh mẽ đã nảy sinh để tạo thành cơ sở của nghiên cứu khoa học hiện đại.
Một người lạ đưa cho bạn một đồng xu. Bạn ngờ rằng nó đã bị sửa đi thế nào đó, có lẽ là để mặt ngửa xuất hiện nhiều hơn. Bạn tung đồng xu hai lần và nhận được hai mặt ngửa liên tiếp. Một đồng xu chuẩn hoàn hảo sẽ cho kết quả hai mặt ngửa liên tiếp với tỉ lệ 25% – một xác suất được biết đến dưới tên gọi giá trị p. Bạn tiếp tục tung và lại nhận được mặt ngửa tiếp. Và lại một lần nữa. Chuyện dần có vẻ ám muội, nhưng ngay cả khi bạn tung đồng xu 1000 lần, hay 1 triệu lần, trên lý thuyết bạn không bao giờ tuyệt đối chắc rằng nó đã bị sửa. Xác suất có thể rất nhỏ, nhưng về lý thuyết, một đồng xu chuẩn có thể tạo ra một tổ hợp mặt ngửa bất kỳ.


Bức tranh Cái chết của thần Baldur [The Death of Baldur], Christoffer Wilhelm Eckersberg, 1817. Trong thần thoại Bắc Âu, thần Baldur nằm mộng thấy mình bị giết, Frigg mẹ của thần Baldur liền yêu cầu mọi loài sinh vật phải thề không được làm hại con bà nhưng không nghĩ một cây tầm gửi vô hại mọc trên cây sồi có thể làm hại con mình nên không bắt cây tầm gửi phải thề. Cuối cùng, Baldur bị chết bởi một mũi tên tầm gửi. Nguồn: Vox. 

Ngưỡng đáng để nghi ngờ – khái niệm “ý nghĩa thống kê” được thiết lập

Các nhà khoa học đã chọn một lối đi giữa tất cả những bất định này bằng cách đặt ra một ngưỡng tùy ý, và chấp thuận rằng bất cứ thứ gì vượt ngưỡng đó sẽ cho bạn các lý do để nghi ngờ. Kể từ năm 1925, khi nhà thống kê người Anh Ronald Fisher lần đầu tiên đề xuất quy ước này, ngưỡng kia thường được đặt ở mức 5%. Bạn đang thấy một số lượng mặt ngửa đáng ngờ, và một khi xác suất một đồng xu chuẩn hiện ít nhất cũng nhiều mặt ngửa như bạn từng thấy dưới 5%, bạn có thể bỏ thái độ vô tư của mình cho tới khi chứng minh được tội lỗi. Trong trường hợp này, 5 mặt ngửa liên tiếp, với giá trị p là 3,125%, sẽ cho thấy điều đó.

Đây là nguyên lý nền tảng để khoa học hiện đại đưa ra các kết luận của mình. Khi chúng ta chỉ ra bằng chứng về biến đổi khí hậu hay khi quyết định xem liệu một loại thuốc có tác dụng hay không thì đều cùng áp dụng theo một nguyên lý. Nếu các kết quả là quá bất thường để xảy ra nhờ ngẫu nhiên – chí ít, không hơn một trong 20 lần – bạn có lý do để nghĩ rằng giả thuyết của mình đã được chứng minh. Khái niệm “Ý nghĩa thống kê” đã được thiết lập.
Có thể ví dụ bằng cách xem lại một thử nghiệm lâm sàng về tác dụng của aspirin trong việc chữa đau tim, do nhà dịch tễ học ở Oxford Richard Peto thực hiện năm 1988.

Thử nghiệm của họ có tới 17.187 người tham gia và đã cho thấy hiệu quả đáng chú ý. Trong một nhóm được dùng giả dược, 1016 bệnh nhân chết; với những người được dùng aspirin, chỉ có 804 người chết. Con số này vượt ngưỡng; nhóm nghiên cứu đã kết luận rằng aspirin có tác dụng.

Những phương pháp thống kê như vậy đã trở thành công cụ phổ biến trong nghiên cứu hiện đại. Chúng giúp chúng ta tiến những bước dài, để tìm kiếm các tín hiệu trong dữ liệu đầy nhiễu loạn. Nhưng, trừ phi bạn cực kỳ thận trọng, việc thử xóa bỏ những yếu tố tất định cũng có các điểm bất lợi. Nhóm của Peto đã gửi những kết quả thử nghiệm của mình cho một tạp chí y học có tiếng, và nhận lại một yêu cầu từ người bình duyệt: có thể chia những kết quả này thành các nhóm không? có bao nhiêu người phụ nữ đã được aspirin cứu, bao nhiêu đàn ông, bao nhiêu người mắc tiểu đường, bao nhiêu người ở độ tuổi này hay kia, v.v.


Cuốn sách “The Art of Statistics” (Nghệ thuật của thống kê).

Peto phản đối. Bằng cách chia nhỏ bức tranh toàn cảnh, bạn đưa tất cả những kiểu bất định vào kết quả, ông lập luận. Một lý do là, kích thước của nhóm thử nghiệm càng nhỏ, xác suất may mắn càng lớn. Sẽ thật “ngu ngốc về mặt khoa học”, khi đưa ra những kết luận từ bất cứ thứ gì khác ngoài bức tranh toàn cảnh, ông nhận xét. Tạp chí cứ khăng khăng, nên Peto đã dao động. Ông gửi lại bài báo với tất cả những nhóm nhỏ mà người bình duyệt yêu cầu, nhưng với một sự bổ sung ranh mãnh. Ông cũng chia nhỏ các kết quả theo các cung hoàng đạo. Thật tình cờ, aspirin có tác dụng ở một số nhóm lớn hơn ở các nhóm còn lại: trong nghiên cứu này, dường như aspirin không có tác dụng với cung Thiên Bình và Song Tử, nhưng làm giảm nguy cơ tử vong của bạn xuống một nửa nếu bạn thuộc cung Ma Kết.

Sử dụng các nhóm đủ lớn có thể giúp đảm bảo không tình cờ gặp may, nhưng còn có một cạm bẫy khác trực chờ các nhà khoa học thiếu hoài nghi. Đó là điều mà thử nghiệm của Peto cũng nhấn mạnh, và là cái dẫn đến một cuộc khủng hoảng ở cốt lõi của khoa học.

Cẩn thận với “những thất thường của sự ngẫu nhiên”

Cách dễ nhất để hiểu vấn đề là trở lại với nan đề về đồng xu không chuẩn (đồng xu luôn là ví dụ ưa thích của các nhà thống kê). Giả như bạn đặc biệt không thích đưa ra một kết luận sai, và quyết định tin vào giả thuyết đồng xu là chuẩn trừ phi bạn nhận được mặt ngửa 20 lần liên tiếp. Một đồng xu chuẩn sẽ chỉ làm được như vậy một trong một triệu lần, nên đây là mức yêu cầu chứng minh cực kỳ cao – vượt rất xa ngưỡng 5% mà nhiều khoa học sử dụng.  Như vậy, nếu bạn đưa các đồng xu bình thường cho ba trăm triệu người Mỹ tung lên, thì chúng ta dự kiến sẽ có khoảng ba trăm người nhận được 20 mặt ngửa liên tiếp, và họ buộc phải căn cứ theo luật chơi của bạn để kết luận rằng đồng xu bạn đưa là không chuẩn. Có nghĩa là, dù ngưỡng bạn đặt ra có khắt khe tới đâu thì cuối cùng vẫn có thể xảy ra trường hợp cực đoan nếu bạn lặp lại thí nghiệm rất nhiều lần.

Apple đã học được điều này không lâu sau khi iPod Shuffle được ra mắt. Chiếc máy này sẽ chơi ngẫu nhiên các bản nhạc từ thư viện của người dùng, nhưng Apple nhận thấy nó phải chịu đầy những lời phàn nàn của người dùng, rằng họ nhận thấy chiếc Shuffle của mình chơi các bản nhạc theo một quy luật nào đó. Các quy luật xảy ra thường xuyên hơn chúng ta nghĩ rất nhiều, nhưng ngay cả nếu vài bản nhạc của cùng một nghệ sĩ, hay các bản nhạc liên tiếp từ một album chỉ có xác suất xuất hiện liên tiếp trong danh sách rất nhỏ, thì vẫn có quá nhiều người nghe iPod tới mức không thể tránh khỏi những trùng hợp lạ lùng xảy ra.

Trong khoa học, các tình huống trở nên gay cấn hơn, và những gì được mất cũng lớn hơn. Với một ngưỡng chỉ 5%, một trong 20 nghiên cứu sẽ tìm thấy bằng chứng về những hiện tượng không tồn tại trong dữ liệu của nó. Đó là một lý do khác mà Peto đã chống lại đề xuất rằng ông phải chia ra nhiều nhóm nhỏ: số lượng nhóm bạn chia ra quan sát càng nhiều, khả năng nhìn thấy những hiệu ứng giả càng cao. Đây không chỉ là mối quan ngại lý thuyết. Trong y học, một nghiên cứu về 49 công bố y học được trích dẫn nhiều nhất từ 1990 tới 2003 phát hiện ra rằng 16% các kết luận trong đó mâu thuẫn với các nghiên cứu sau này. Tâm lý học là lĩnh vực tệ nhất trong những khảo sát này (có thể là vì tái kiểm chứng những nghiên cứu này rẻ hơn). Một nghiên cứu năm 2015 phát hiện ra rằng tái kiểm chứng 100 thử nghiệm tâm lý học thì chỉ 36 thử nghiệm cho các kết quả nhất quán với kết quả nghiên cứu ban đầu, mặc dù 97% các nghiên cứu ban đầu đã báo cáo một giá trị p dưới ngưỡng 5%.

Giờ đây người ta nhận ra nhiều nghiên cứu nổi tiếng đã dựa trên những kết quả sai lệch một cách tình cờ như thế. Điển hình như nghiên cứu về tạo dáng mạnh mẽ (power posing), vốn đặt ra giả thuyết rằng việc đứng theo một tư thế mạnh mẽ sẽ giúp giảm hoóc-môn căng thẳng trong cơ thể. Nghiên cứu này được trích dẫn một nghìn lần, và bài nói chuyện về nó trên TED talk có hơn 50 triệu lượt xem, nhưng nghiên cứu đó lại không tái kiểm chứng được và giờ đây được coi là một ví dụ nổi bật cho các sai sót trong các phương pháp của Fisher.

Vấn đề này bị trầm trọng thêm trong kỷ nguyên Dữ liệu lớn. Dữ liệu càng được thu thập, tham chiếu chéo, và nghiên cứu nhiều để tìm các mối tương quan, càng dễ để đưa ra những kết luận sai lầm. Để minh họa cho quan điểm này, Spiegelhalter đã kể thêm về một nghiên cứu thực hiện năm 2009 trong đó các nhà nghiên cứu đưa một đối tượng vào máy chụp cộng hưởng từ chức năng và phân tích phản ứng ở 8064 khu vực trong não trong khi trình chiếu một loạt các bức ảnh về biểu hiện khác nhau của con người. Các nhà khoa học muốn xem vùng não nào sáng lên khi phản ứng với các bức ảnh và sử dụng một ngưỡng 0,01% cho thí nghiệm của mình. “Điểm lắt léo là ‘đối tượng’ ở đây là một con cá hồi Đại Tây Dương nặng 1,6kg vốn ‘đã không còn sống sót tại thời điểm chụp,’” Spiegelhalter lưu ý.

Nhưng thậm chí ở ngưỡng đó, việc chạy đủ các thí nghiệm cuối cùng vẫn khiến bạn có cảm giác vượt ngưỡng. Với hơn 8000 khu vực trong não của một con cá chết các nhà nghiên cứu đang xét, 16 khu vực cho thấy phản ứng có ý nghĩa thống kê. Điều này có nghĩa là, nếu cứ yên tâm dựa vào “ý nghĩa thống kê”, người ta có thể ngộ nhận tin vào những kết quả khoa học vô căn cứ tương tự như vậy. Khoa học luôn là đối tượng cho sự kiểm chứng kỹ lưỡng, nhưng cuộc khủng hoảng giá trị p cho thấy các phương thức kiểm chứng hiện hành vẫn cần phải được cải thiện.


Trong các nền văn minh, con người hay sợ những “điềm gở” như gặp mèo đen, gương vỡ, thứ sáu ngày 13… Nó chỉ là ngẫu nhiên hay có “ý nghĩa thống kê”?

Giờ đây các nhà khoa học nói rằng các nhà nghiên cứu nên tuyên bố giả thuyết của mình từ trước khi tiến hành một nghiên cứu để hạn chế cách làm khoa học theo lối mò mẫm lựa chọn giả thuyết sao cho khớp nhất với kết quả thống kê. Đa số cũng cho rằng cần chú trọng hơn nữa các nghiên cứu được thiết kế để kiểm chứng công trình của người khác. Nhiều người cho rằng khoa học nên quan tâm đến mức độ ảnh hưởng – chẳng hạn như bao nhiêu sinh mạng được một loại thuốc cứu – thay vì chỉ chú trọng xem dữ liệu do một hiệu ứng nào đó có vượt một ngưỡng thống kê nào đấy hay không. Như với ví dụ về aspirin. Một nghiên cứu khổng lồ –theo dõi 22.000 cá nhân trong vòng 5 năm – đã chứng minh rằng việc dùng một lượng thuốc nhỏ mỗi ngày sẽ làm giảm nguy cơ đau tim. Giá trị p, xác suất của việc vẫn để xảy ra đau tim hay hệ lụy ngẫu nhiên nào đó cực đoan hơn xảy ra, là cực kỳ nhỏ: 0,001%. Nhưng mức độ ảnh hưởng tích cực của thuốc thực ra cũng rất khiêm tốn. Với quy mô mẫu như vậy, sẽ có một trăm ba mươi cá nhân vốn dĩ khỏe mạnh sẽ phải dùng thuốc để phòng ngừa một cơn đau tim, và trong suốt một thời gian mỗi người sẽ chịu thêm nguy cơ về tác dụng phụ có hại của thuốc. Đó là nguy cơ mà giờ đây được coi là vượt quá lợi ích cho hầu hết mọi người, và lời khuyên những người lớn sử dụng một viên aspirin của trẻ con mỗi ngày đã bị rút lại một cách công khai.

Nhưng có lẽ vấn đề thực sự là việc chúng ta thấy khó nắm bắt sự bất định đến thế nào. Đầu năm 2019, 850 nhà nghiên cứu nổi tiếng, bao gồm cả David Spiegelhalter, đã ký một thư thỉnh nguyện gửi lên tạp chí Nature lập luận rằng vấn đề không thể giải quyết được bằng một giải pháp kỹ thuật tạm thời. Giá trị p không phải vấn đề; vấn đề là nỗi ám ảnh của chúng ta với việc đặt ra một ngưỡng an toàn.

Việc vạch ra một ranh giới tùy ý tạo ra một ảo tưởng rằng chúng ta có thể biệt giữa đúng và sai. Nhưng các kết quả của một thí nghiệm phức tạp không thể được rút gọn về một câu trả lời có-hay-không. Quay trở lại khi Spiegelhalter được yêu cầu xác định xem liệu có nên nghi vấn về bác sĩ Harold Shipman từ sớm hơn căn cứ trên tỉ lệ bệnh nhân tử vong, ông đã nhanh chóng quyết định rằng phép kiểm định độ tin cậy thống kê sẽ là cách “cực kỳ không phù hợp” để giám sát các bác sĩ. Ngành y tế sẽ quy kết oan các bác sĩ vô tội với tỉ lệ 1/20 – nghĩa là ảnh hưởng tới hàng nghìn thầy thuốc lâm sàng ở Anh. Các bác sĩ sẽ bị quy kết oan chỉ vì họ điều trị cho các bệnh nhân có nguy cơ tử vong cao.

Thay vào đó, Spiegelhalter và các đồng nghiệp đề xuất một phép thử khác, chú ý tới cái chết của nạn nhân khi chúng xảy ra, đối chiếu số lượng tử vong tích lũy qua các năm so với một con số trung bình dự kiến. Năm này qua năm khác, nó so sánh khả năng tỉ lệ tử vong cao của bệnh nhân của một bác sĩ như một chuỗi rủi ro với khả năng do nguyên nhân nào đó đáng ngờ hơn, và cảnh báo khi các bằng chứng bắt đầu xuất hiện. Nhưng ngay cả phương pháp rất phức tạp này cũng sẽ, do những thất thường của sự ngẫu nhiên, cuối cùng hướng sự nghi ngờ tới người vô tội. Thật vậy, ngay khi một hệ thống giám sát những người thầy thuốc được triển khai, nó “ngay lập tức phát hiện một thầy thuốc với tỉ lệ tử vong cao hơn Shipman,” Spiegelhalter viết. Đó là người bác sĩ thiếu may mắn làm việc ở một thành phố ven biển với cộng đồng dân cư lớn tuổi. Kết quả này làm nổi bật sự thận trọng bạn cần phải có ngay cả đối với những phương pháp thống kê tốt nhất. Nói như Spiegelhalter, trong khi thống kê có thể tìm ra những yếu tố ngoại lệ, thì nó lại “không thể cung cấp các lý do tại sao những điều này lại xảy ra, nên cần được bổ sung cẩn thận để tránh những cáo buộc sai lầm.”□

Hoàng Mai lược dịch
https://www.newyorker.com/magazine/2019/09/09/what-statistics-can-and-cant-tell-us-about-ourselves

———————–&&&———————–

Chọn biến số: một sai lầm phổ biến trong phân tích dữ liệu

Chọn biến số: một sai lầm phổ biến trong phân tích dữ liệu

(Tác giả: Nguyễn Văn Tuấn – Nguồn: https://www.facebook.com)

Một trong những sai lầm trong phân tích dữ liệu là cách chọn các biến số (variables) liên quan để xây dựng mô hình tiên lượng. Hôm qua, nhân dịp xem các kết quả nghiên cứu và nói chuyện với các em sinh viên tác giả nghiên cứu, tôi phát hiện gần như tất cả đều phạm phải sai lầm này! Trong cái note này tôi cố gắng giải thích tại sao sai lầm, và giới thiệu vài phương pháp mới tốt hơn.

1. Vấn đề

Với một nghiên cứu mà biến outcome (tạm gọi là Y) là biến nhị phân, và nếu nghiên cứu có hàng ngàn biến số X (X1, X2, X3, …., X1000) có thể dùng để tiên lượng Y), câu hỏi đặt ra là biến X nào quan trọng? Câu hỏi đơn giản, nhưng đã làm đau đầu những bộ óc siêu việt trong hơn nửa thế kỉ qua! Cho đến nay, vấn đề vẫn chưa phải là giải quyết xong, nhưng có thể nói rõ rằng các phương pháp ‘truyền thống’ mà người ta đã và đang sử dụng là không thoả đáng (nếu không muốn nói là sai), còn một số phương pháp mới tốt hơn thì ít người biết đến. Cái note này muốn giới thiệu các phương pháp mới đó.

Chọn biến liên quan (bên Machine Learning gọi là ‘Feature Selection’, còn bên thống kê học trước đó gọi là ‘Model Selection’) là một vấn đề vô cùng quan trọng trong khoa học. Chúng ta khám phá trong y học nhờ vào phương pháp này. Trong số hàng triệu marker xét nghiệm, làm sao biết marker nào có liên quan đến bệnh? Chúng ta xây dựng mô hình để tiên lượng và điều trị bệnh nhân cũng nhờ vào phương pháp này. Chọn mô hình rất quan trọng vậy.

Triết lí của việc chọn mô hình ‘tối ưu’ là … hà tiện (parsimony). Giải thích như sau sẽ dễ hiểu: nếu có hai cuốn sách trên thị trường hướng dẫn hành nghề sửa xe có cùng nội dung và dung lượng thông tin, một cuốn có giá bán 5 đồng, cuốn kia là 7 đồng. Dĩ nhiên, chúng ta sẽ chọn mua cuốn 5 đồng. Nói cách khác, chúng ta chọn sách rẻ tiền nhưng có dung lượng thông tin đầy đủ hay không kém cuốn sách mắc hơn. Tương tự, trong bối cảnh chọn mô hình, chúng ta muốn chọn mô hình nào cung cấp nhiều thông tin nhứt nhưng có ít tham số nhứt (hay ít biến số nhứt). Đó là triết lí và cũng là mục tiêu của việc chọn mô hình. Đó cũng là một thách thức.

2. Phương pháp ‘truyền thống’

Trong quá khứ (tức hơn 30 năm trước), phương pháp chọn mô hình xoay quanh 3 cách làm như sau:

Cách đơn giản nhứt là phân tích từng biến một. Theo cách làm này, nếu tôi có 1000 biến X (có thể là gen, markers, hay signals), tôi sẽ thực hiện 1000 phân tích mối liên giữa mỗi X với Y. Tôi sẽ có 1000 trị số P cho 1000 biến X liên quan đến Y. Dựa vào kết quả đó, tôi sẽ chọn ra những biến nào có trị số P < 0.05, và tôi dùng các biến được chọn lọc để xây dựng mô hình tiên lượng Y.

Cách thứ hai là dùng thuật toán “stepwise”. Thật ra, có 3 thuật toán trong nhóm này: forward, backward, và stepwise. Một cách ngắn gọn, phương pháp forward bắt đầu với mô hình chỉ có một biến X1, sau đó thêm vào những biến mới có ý nghĩa thống kê (tức P < alpha; alpha có thể là 0.1 hay 0.2). Phương pháp backward thì ngược lại: bắt đầu với mô hình với 1000 biến số, và dần dần loại bỏ các biến không có ý nghĩa thống kê (tức P > alpha). Còn phương pháp stepwise thì phối hợp cả forward và backward để đi tìm “mồ hình tối ưu.”

Cách thứ ba là hơi mất thì giờ, hay được gọi bằng tiếng Anh là “all possible regressions”. Như cách gọi, phương pháp này chủ yếu là phân tích tất cả các mô hình khả dĩ, rồi từ đó tìm mô hình nào có giá trị tiên lượng cao nhứt. Để hiểu sự nhiêu khê, tôi lấy vài ví dụ đơn giản nhứt. Nếu nghiên cứu có hai biến X1 và X2, thì sẽ có 3 mô hình khả dĩ (mô hình với X1, mô hình với X2, và mô hình với X1+X2); nếu nghiên cứu có 3 biến thì sẽ có 3 mô hình với 1 biến tiên lượng (X1, X2, X3), 3 mô hình với 2 biến tiên lượng (X1+X2, X1+X3, X2+X3 (X1+X2+X3), v.v. Các bạn đã hình dung ra sự nhiêu khê và phức tạp. Nếu nghiên cứu có 1000 biến X thì số mô hình khả dĩ ít nhứt là 2^1000 trừ 1 (vài chục tỉ mô hình). Ý tưởng là phân tích tất cả 2^1000 – 1 mô hình, và tìm mô hình nào có chỉ số ‘fitness’ (ví dụ như R^2) cao nhứt.

Tại sao sai?

Nhưng rất tiếc là cả 3 cách phân tích phổ biến đó hoặc là sai, hoặc là kém hiệu quả. Cách phân tích thứ nhứt sai, vì không xem xét đến mối tương quan giữa các biến số X trong mô hình. Chẳng hạn như X1 có thể có liên quan đến Y, X2 cũng có liên quan đến Y, nhưng nếu X1 và X2 có liên quan chặt chẽ với như thì mô hình với 2 biến số X1 + X2 sẽ trở nên khó diễn giải và không hợp lí. Cái “phương pháp đơn biến” nó sai ngay từ logic, nhưng rất phổ biến trong khoa học. Nên tránh phương pháp này!

Phương pháp stepwise cũng rất ư là phổ biến và có sẵn trong các software như SPSS. Nhưng sau này, rất nhiều nghiên cứu lí thuyết và thực nghiệm chỉ ra rằng phương pháp stepwise rất dễ cho ra kết quả “dương tính giả”, có nghĩa là nó có thể nhận dạng các biến X dù các biến đó không có liên quan đến Y! Nếu các bạn thử mô phỏng 1000 biến X, và 1000 biến này hoàn toàn không có dính dáng gì đến Y, và nếu các bạn dùng phương pháp stepwise thì nó sẽ cho ra vài biến X có ý nghĩa thống kê! Không nên dùng phương pháp stepwise trong nghiên cứu khoa học.

Phương pháp “all possible regressions” cũng có nhiều vấn đề. Không chỉ là vấn đề thời gian dành cho phân tích, mà còn là vấn đề quan trọng hơn: multiple tests of hypothesis — tức kiểm định nhiều giả thuyết. Khi kiểm định nhiều giả thuyết thì sẽ cho ra vài kết quả dương tính giả. Ngoài ra, phương pháp này chỉ cho ra một mô hình duy nhất (sau cùng), nhưng trong thực tế thì có rất nhiều mô hình có thể có giá trị fitness tương đương nhau, nhưng nó không nhận ra. Ngày nay, không một ai am hiểu về thống kê học sử dụng phương pháp “all possible regressions” để tìm mô hình tối ưu.

3. Phương pháp ‘mới’

Vậy thì phương pháp nào là tốt nhất trong việc chọn biến tiên lượng? Trong thời gian chừng 30 năm qua, khoa học thống kê đã có nhiều tiến bộ và cho ra đời một số phương pháp được đánh giá à tốt hơn 3 phương pháp truyền thống kia. Trong số các phương pháp này có Bayesian Model Averaging (BMA), LASSO, và Random Forest mà giới Machine Learning rất thích.

Cái note này không có mục tiêu giải thích các phương pháp đó, mà chỉ đơn giản cung cấp từ khoá để các bạn có thể tìm hiểu thêm. Một cách ngắn gọn, phương pháp BMA dựa vào xác suất hậu định (posterior probability) của mỗi mô hình. Xác suất hậu định tuỳ thuộc vào xác suất tiền định (prior probability) và dữ liệu thực tế (likelihood). Bắt đầu, chúng ta phải đề ra xác suất hậu định của các mô hình bằng một luật phân bố xác suất (thường là uniform, với giả định là các mô hình có xác suất như nhau). Bước kế tiếp, BMA phân tích mỗi mô hình và tính toán chỉ số thông tin Bayesian Information Criterion (BIC). Sau cùng là tính xác suất hậu định.

Mô hình nào có xác suất hậu định cao nhứt sẽ được chọn là mô hình ‘tối ưu’. BMA không dùng và không lệ thuộc vào trị số P, và đó là một lợi thế. Thí nghiệm thực tế và mô phỏng cho thấy phương pháp BMA quả thật có khả năng nhận dạng chính xác các biến số liên quan. Trong các nghiên cứu lâm sàng, dịch tễ học vừa (tức vài trăm biến X và vài trăm đến vài ngàn đối tượng nghiên cứu), BMA là một phương pháp rất được ưa chuộng.

LASSO (least absolute shrinkage and selection operator) là một phương pháp tương đối mới do Rob Tibshirani đề xướng vào giữa thập niên 1990s (nhưng thật ra vào thập niên 1980s đã có người sử dụng trong vật lí). Ý tưởng của LASSO là ‘kiểm soát’ các ước số của mô hình bằng cách thêm một “giá trị phạt” vào công thức ước tính tham số. LASSO “phạt” những mô hình nào quá phức tạp, tức có nhiều biến số hơn cần thiết.

Do đó, ước số được ước tính bằng LASSO có xu hướng thấp hơn so với phương pháp bình phương tối thiểu (least squares method). Phương pháp LASSO thường chọn mô hình với ít biến số (vì bảo thủ hơn) và xử lí rất tốt trong trường hợp các biến X liên quan nhau (đa cộng tuyến). Phương pháp LASSO rất nhất quán với triết lí hà tiện của việc chọn mô hình. Trong nghiên cứu di truyền và ‘big data’, LASSO là một phương pháp được ưa chuộng.

Kinh nghiệm từ các nghiên cứu mà tôi thực hiện, tôi thấy BMA và LASSO là rất tốt. Đối với dữ liệu qui mô trung bình (dưới 10,000 biến số) thì BMA cho ra kết quả khá chính xác, nhưng với dữ liệu lớn (chừng 1 triệu biến số) thì LASSO có lẽ là lựa chọn tốt nhứt.

4. Chọn mô hình tối ưu: khoa học và nghệ thuật

Xây dựng mô hình tiên lượng là một khoa học nhưng cũng là một nghệ thuật. Khoa học tính ở điểm có những chỉ số khách quan và hiệu quả để so sánh và đánh giá mô hình. Như đề cập lúc ban đầu, chúng ta chọn làm những kẻ hà tiện: muốn có thông tin nhiều nhứt nhưng trả giá rẻ nhứt. Chúng ta cần phải có những thước đo khoa học để đánh giá dung lượng thông tin mà mô hình cung cấp. Trong thống kê học, có hàng loạt thước đo dung lượng thông tin của mô hình như chỉ số R^2, phương sai (MSE), độ lệch chuẩn (RMSE), AUROC, DCA, v.v. Việc chọn những thước đo này là vấn đề khoa học.

Ngoài các chỉ số trên, còn có chỉ số thông tin AIC, BIC. Chỉ số AIC và BIC càng thấp càng tốt, vì nó thể hiện đúng tiêu chí ‘hà tiện’ trong việc chọn mô hình. Hai chỉ số này được dùng trong phương pháp BMA và LASSO.

Còn khía cạnh nghệ thuật là dùng kiến thức chuyên ngành để chọn mô hình sao cho đơn giản, có thể dùng được trong thực tế mà không vi phạm các nguyên tắc khoa học. Nếu hai mô hình cung cấp thông tin không khác nhau mấy, nhưng một mô hình dễ sử dụng và một mô hình phức tạp, thì đương nhiên chúng ta chọn mô hình dễ sử dụng. Chẳng hạn như bác sĩ cấp cứu rất bận rộn, họ không có thì giờ phải gõ cả 20 biến số để tiên lượng bệnh nhân sống chết ra sao; họ chỉ cần những thông tin ngắn, gọn, sẵn có để làm tiên lượng ngay. Để biết thông tin nào cần hay không cần thì đó là vấn đề kiến thức chuyên ngành. Khoa học có thể cho ra các thước đo chính xác, nhưng nếu không có kiến thức chuyên ngành thì các thước đo và mô hình có thể vô dụng.

Tóm lại, xây dựng mô hình tiên lượng đòi hỏi phải chọn biến số liên quan. Dứt khoát tránh chọn biến liên quan bằng 3 phương pháp truyền thống như mô tả trên; nên áp dụng các phương pháp mới hơn như BMA và LASSO. Để kết thúc cái note này, tôi xin trích câu nói nổi tiếng của George Box (là con rể của Ronald Fisher) “All models are wrong, but some are useful” (tất cả các mô hình đều sai, nhưng trong số đó có một số mô hình có ích).

Tại sao ông Box nói tất cả các mô hình đều sai? Các bạn thử suy nghĩ xem. Hi vọng rằng cái note này giúp các bạn giải trí cuối tuần.

===

Xin nói thêm là tôi có 2 bài giới thiệu phương pháp BMA (qua R) như sau:

Bài 39: BMA cho mô hình hồi qui tuyến tính.
https://www.youtube.com/watch?v=eVp0oyKxtrI

Bài 46: BMA cho mô hình hồi qui logistic.
https://www.youtube.com/watch?v=bAUrZqhCNww

———————&&&———————-

Phân tích nhiều chiều

Phân tích nhiều chiều

(Nguồn: http://www.phantichkinhte123.com)

Multidimensional Analysis

Michel LAMURE

Phân tích nhiều chiều các dữ liệu[*] tập hợp một số những kĩ thuật thống kê cho phép phân tích những bảng dữ liệu lớn. Có thể phân loại những kĩ thuật của phân tích nhiều chiều thành ba nhóm: những kĩ thuật mô tả, những kĩ thuật cấu trúc hoá và những kĩ thuật giải thích. Cũng còn phải xét những kĩ thuật khác nhau của phân tích dữ liệu tuỳ theo kiểu dữ liệu trên đó những kĩ thuật này được ứng dụng. Như vậy, trước khi vận dụng một kĩ thuật phân tích dữ liệu bao giờ cũng phải đặt hai câu hỏi sau: 1) Ta có (những) kiểu dữ liệu nào? 2) Mục đích của ta là gì? Sơ đồ dưới đây cho thấy vị thế của những kĩ thuật khác nhau của phân tích dữ liệu theo cả hai quan điểm tính chất của dữ liệu và mục đích theo đuổi.

Michel LAMURE

Giáo sư Đại học Claude Bernard (Lyon 1)

Nguyễn Đôn Phước dịch

® Biến; Kinh trắc học; Thống kê; Tối ưu hoá tĩnh; Tối ưu hoá và phân tích nhiều tiêu chí.

Nguồn: Dictionnaire des sciences économiques, sous la direction de Claude Jessua, Christian Labrousse, Daniel Vitry, PUF, Paris, 2001.

Chú thích:

[*] Có thể tham khảo bằng tiếng Việt Phân tích số liệu nhiều chiều – Tập I: Phân tích theo quan điểm hình học của Tô Cẩm Tú và Nguyễn Huy Hoàng, nhà xuất bản Khoa học và kỹ thuật, Hà Nội, 2003 (ND).

———————–&&&———————-

Thống kê học đã đánh mất quyền lực của nó như thế nào

Thống kê học đã đánh mất quyền lực của nó như thế nào

(Tác giả: William Davies – Nguồn: http://www.phantichkinhte123.com)

 THỐNG KÊ HỌC ĐÃ ĐÁNH MẤT QUYỀN LỰC CỦA NÓ NHƯ THẾ NÀO – VÀ TẠI SAO CHÚNG TA NÊN LO NGẠI VỀ NHỮNG ĐIỀU SẮP TỚI

Khả năng của thống kê học để mô tả thế giới một cách chính xác đang suy giảm. Ngay sau đó, là một thời đại mới của dữ liệu lớn do các công ty tư nhân kiểm soát đang thế chỗ [của thống kê học] – và gây nguy hiểm cho nền dân chủ.
Về mặt lý thuyết, thống kê học giúp giải quyết các cuộc tranh luận. Nó cung cấp các điểm tham chiếu ổn định để tất cả mọi người – bất luận  quan điểm chính trị thế nào – có thể đồng ý với nhau. Tuy nhiên, trong những năm gần đây, nhiều mức độ tin tưởng khác nhau về thống kê học đã trở thành một trong những luồng chia rẽ chính được mở ra trong các nền dân chủ tự do phương Tây. Ngay trước khi diễn ra cuộc bầu cử tổng thống vào tháng 11, một nghiên cứu tại Hoa Kỳ đã phát hiện ra rằng 68% số người ủng hộ Trump không tin vào các dữ liệu kinh tế được chính phủ liên bang công bố. Tại Anh, một dự án nghiên cứu của Đại học Cambridge và YouGov về các thuyết âm mưu phát hiện ra rằng 55% người dân tin rằng chính phủ “đang che giấu sự thật về số lượng người nhập cư đang sinh sống tại đây”.
Thay vì phổ biến cuộc tranh luận và sự phân cực, trên thực tế dường như thống kê học đang đổ thêm dầu vào lửa. Sự ác cảm đối với thống kê học đã trở thành một trong những dấu ấn của phái hữu dân túy, với việc các nhà thống kê và các nhà kinh tế chủ yếu nằm trong số nhiều “chuyên gia” khác có vẻ đã bị các cử tri loại bỏ trong năm 2016. Thống kê học không những bị nhiều người xem là không đáng tin cậy, mà dường như đối với họ còn là một cái gì đó gần như luôn có tính xúc phạm hoặc ngạo mạnQuy giản các vấn đề xã hội và kinh tế thành các tổng gộp và bình quân số học dường như là điều vi phạm ý thức của một số người về sự đúng đắn chính trị.

Điều này được biểu hiện không ở đâu mạnh mẽ bằng vấn đề nhập cư. Viện nghiên cứu chính sách British Future đã nghiên cứu cách thức tốt nhất để chiến thắng những lập luận ủng hộ vấn đề nhập cư và đa văn hóa. Một trong những phát hiện chính của họ là người dân thường phản ứng nồng nhiệt với các bằng chứng định tính, chẳng hạn như các chuyện kể của những cá nhân nhập cư và hình ảnh của nhiều cộng đồng khác nhau. Nhưng thống kê học – đặc biệt liên quan đến những lợi ích được cho là của việc nhập cư đối với nền kinh tế Anh – lại gây nên những phản ứng khá đối lập. Người dân cho rằng các con số đã bị thao túng và không thích việc giới tinh hoa viện đến những bằng chứng định lượng. Được cho biết ước tính chính thức về số người nhập cư bất hợp pháp vào nước Anh, phản ứng chung là một sự chế giễu. Viện British Future nhận thấy là khi chỉ ra hiệu ứng tích cực của vấn đề nhập cư đối với GDP, thì thay vì làm tăng sự ủng hộ vấn đề nhập cư thì ngược lại trên thực tế điều này có thể lại làm cho người dân Anh càng thù địch hơn đối với vấn đề đó. Bản thân GDP có vẻ giống như con ngựa thành Troia cho một nghị trình theo chủ nghĩa tự do của giới tinh hoa. Cảm nhận được điều này, các chính trị gia hiện nay đã hầu như không thảo luận vấn đề nhập cư về mặt kinh tế.
Tất cả điều này là một thách thức nghiêm trọng đối với nền dân chủ tự do. Nói một cách thẳng thừng, chính phủ Anh – các quan chức, chuyên gia, cố vấn và nhiều chính trị gia khác – tin rằng vấn đề nhập cư khi cân nhắc kĩ là có lợi cho nền kinh tế. Chính phủ Anh tin rằng Brexit là một lựa chọn sai. Vấn đề là chính phủ giờ đây đang dấn thân vào một hình thức tự kiểm duyệt, vì lo ngại khiêu khích người dân hơn nữa.
Đây là một tình thế tiến thoái lưỡng nan không mong muốn. Hoặc nhà nước tiếp tục tuyên bố tin tưởng vấn đề nhập cư là có cơ sở vững chắc và bị những hoài nghi cáo buộc là tuyên truyền, hoặc khác, các chính trị gia và quan chức đều bị giới hạn nói ra những gì họ cảm thấy hợp lý và đúng theo trực giác, nhưng có thể cuối cùng là không chính xác. Trong cả hai trường hợp, hoạt động chính trị sa lầy trong những lời buộc tội dối trá và bao che.
Uy tín suy giảm của thống kê học là tâm điểm của cuộc khủng hoảng, được biết đến là hoạt động chính trị “hậu sự thật”
Uy tín suy giảm của thống kê học – và của các chuyên gia phân tích nó – là tâm điểm của cuộc khủng hoảng, được biết đến dưới tên gọi chính trị “hậu sự thật”. Và trong thế giới mới bất định này, thái độ đối với đánh giá định lượng của chuyên gia đã trở nên ngày càng không thống nhất. Theo quan điểm của một phía, đặt chính trị trên nền tảng của thống kê học thuộc về giới tinh hoa, phi dân chủ và mù tịt về sự đầu tư cảm xúc của người dân vào cộng đồng và quốc gia của họ. Đó chỉ là một cách khác để những người có đặc quyền ở London, Washington DC hay Brussels tìm cách áp đặt thế giới quan của họ lên tất cả mọi người khác. Theo quan điểm đối lập lại, thống kê học là hoàn toàn trái ngược với giới tinh hoa. Nó cho phép các nhà báo, người dân và các chính trị gia cùng thảo luận chung vấn đề xã hội nhìn như một tổng thể, không phải trên cơ sở các giai thoại, tình cảm hay thành kiến, mà là theo những cách có thể chứng minh là đúng đn. Đối chọn cho đánh giá định lượng ít có khả năng  dân chủ hơn bằng việc thả lõng những biên tập viên của các tờ báo lá cải và những người mị dân cung cấp những “sự thật” của riêng họ về những gì đang xảy ra trong toàn xã hội.
Liệu có cách nào để thoát khỏi sự phân cực này không? Liệu chúng ta chỉ phải đơn giản lựa chọn giữa một nền chính trị dựa vào sự kiện và một nền chính trị dựa vào cảm xúc, hay là liệu có một cách phân tích nào khác không? Có một cách là xem xét thống kê học qua lăng kính lịch sử của bộ môn này. Chúng ta cần thử và xem những gì thống kê thật sự  gì: đó không phải là những sự thật không thể bác bỏ và cũng không phải là những âm mưu của giới tinh hoa, mà đúng hơn là những công cụ được thiết kế để đơn giản hóa công việc của chính phủ, vì điều tốt hơn hoặc tồi tệ hơn. Xem xét về mặt lịch sử, chúng ta có thể thấy được vai trò quan trọng mà thống kê học đã đóng góp vào sự hiểu biết của chúng ta về nhà nước-dân tộc và sự tiến triển của nó. Điều này đặt ra câu hỏi đáng báo động là làm thế nào – nếu có thể – để chúng ta có thể tiếp tục có những ý tưởng chung về xã hội và sự tiến bộ tập thể, nếu thống kê học rơi rụng giữa đường.
Trong nửa sau của thế kỷ 17, do hậu quả của các cuộc xung đột kéo dài và đẫm máu, các nhà cai trị châu Âu đã chọn một quan điểm hoàn toàn mới về nhiệm vụ của chính phủ, tập trung vào các xu hướng của dân số – một cách tiếp cận khả thi với sự ra đời của thống kê học hiện đại. Từ xa xưa, các cuộc tổng điều tra đã được sử dụng để theo dõi quy mô dân số, nhưng chúng rất tốn kém và mất thời gian để thực hiện và tập trung vào những công dân được coi là quan trọng về mặt chính trị (những người sở hữu tài sản), chứ không phải là xã hội nói chung. Thống kê học đã cung cấp một cái gì đó hoàn toàn khác, làm biến đổi bản chất của chính trị trong quá trình xử lí.

Thống kê học được thiết kế để cung cấp sự hiểu biết về một dân số trong tính toàn vẹn của nó, chứ không phải đơn thuần nhận diện nguồn gốc của quyền lực và sự giàu có có giá trị về mặt chiến lược. Ban đầu, điều này không phải lúc nào cũng liên quan đến việc đưa ra các con số. Ví dụ, tại Đức (nơi đã sản sinh cho chúng ta thuật ngữ Statistik) thách thức là lập bản đồ nhiều tập tục, thể chế và luật pháp khác nhau trong một đế chế của hàng trăm bang siêu nhỏ. Điều đặc trưng cho kiến thức này về mặt thống kê là bản chất tổng thể luận của nó: nó nhằm mục đích tạo ra hình ảnh của quốc gia như một bức tranh toàn thể. Thống kê học xử lí dân số cũng giống như bản đồ học xử lí lãnh thổ.

William Petty (1623-1687)
John Graunt (1620- 1674)

Không kém quan trọng là nguồn cảm hứng của các ngành khoa học tự nhiên. Nhờ các thước đo tiêu chuẩn hóa và các kỹ thuật toán học, kiến thức thống kê có thể được giới thiệu như là ngành khách quan, theo cách giống như thiên văn học. Những nhà dân số học tiên phong người Anh như William Petty và John Graunt đã sử dụng các kỹ thuật toán học để ước tính sự thay đổi dân số, và nhờ đó mà họ được Oliver Cromwell và Charles II tuyển dụng.

Sự xuất hiện, vào cuối thế kỷ thứ 17, của các cố vấn chính phủ được khẳng định bởi uy tín khoa học, chứ không phải là sự nhạy bén về chính trị hay quân sự, tượng trưng cho nguồn gốc của văn hóa “chuyên gia” mà giờ đây đang bị những người theo tư tưởng dân túy mắng nhiếc. Những cá nhân mở đường này không phải là những học giả thuần túy và cũng không phải là những quan chức chính phủ, mà là những người ở đâu đó giữa hai loại người nói trên. Họ là những người nghiệp dư nhiệt tình, những người tạo ra một cách suy nghĩ mới về dân số nhờ các tổng gộp và sự kiện khách quan. Nhờ vào năng lực toán học, họ tự tin là có thể tính toán những gì mà nếu không đòi hỏi phải tiến hành một cuộc điều tra rộng lớn mới khám phá được.
Mù tịt về tính đa dạng của văn hóa địa phương chính là điều làm cho thống kê học trở nên tầm thường và có khả năng mang tính xúc phạm
Ban đầu chỉ có một khách hàng cho loại hình đánh giá chuyên môn này, và đầu mối nằm trong từ “thống kê học”. Chỉ có các nhà nước-dân tộc tập quyền mới có khả năng thu thập dữ liệu trên các tổng thể lớn theo một cách được chuẩn hóa và chỉ nhà nước mới có bất cứ nhu cầu nào về những dữ liệu như vậy, trước tiên. Trong nửa sau thế kỷ 18, các quốc gia châu Âu bắt đầu thu thập nhiều số liệu thống kê hơn mà về mặt về hình thức trông có vẻ quen thuộc với chúng ta ngày nay. Xét một cách tổng quát các tổng thể ở cấp quốc gia, các nhà nước đã tập trung vào một loạt các vấn đề: sinh, tử, rửa tội, hôn nhân, thu hoạch, nhập khẩu, xuất khẩu, biến động giá cả. Những thứ mà trước đây được đăng ký ở cấp địa phương và theo nhiều cách khác nhau ở cấp giáo phận thì nay đã tổng gộp lại ở cấp quốc gia.
Những kỹ thuật mới đã được phát triển để biểu trưng các chỉ báo nàychúng khai thác c chiều kích hàng dọc lẫn hàng ngang của trang, trình bày dữ liệu dưới dạng ma trận và bảng biểu, giống như các nhà buôn đã làm với sự phát triển của kỹ thuật kế toán được chuẩn hóa vào những năm cuối của thế kỷ 15. Việc sắp xếp các con số thành hàng và cột đã tạo ra một cách thức mới mạnh mẽ để giới thiệu các thuộc tính của một xã hội nhất định. Những vấn đề lớn, phức tạp giờ đây có thể được khảo sát một cách đơn giản bằng cách quét các dữ liệu được trình bày bằng hình học chỉ trên một trang.
Những đổi mới này mang lại tiềm lực phi thường cho các chính phủ. Bằng cách đơn giản hóa nhiều tổng thể khác nhau xuống thành những chỉ báo cụ thể, và sắp xếp chúng trong những bảng biểu thích hợp, các chính phủ có thể tránh né sự cần thiết phải hiểu tường tận về địa phương và lịch sử một cách chi tiết ở diện rộng hơn. Tất nhiên, nhìn từ một góc độ khác, sự mù tịt về tính đa dạng của văn hóa địa phương chính là điều làm cho thống kê học trở nên tầm thường và có khả năng mang tính xúc phạm. Bất luận việc một quốc gia nhất định có hay không một bản sắc văn hóa chung, các nhà thống kê học sẽ giả định là quốc gia ấy có một sự đồng nhất về mặt văn hóa hoặc, như một số người có thể lập luận, áp đặt tính đồng nhất đó lên quốc gia này.
Không phải mọi khía cạnh của một tổng thể nhất định đều có thể được thống kê học nắm bắt. Luôn có một sự lựa chọn ngầm ẩn về những gì được đưa vào và những gì được loại ra, và sự lựa chọn này tự thân nó đã có thể là một vấn đề chính trị. Việc GDP chỉ nắm bắt giá trị của những công việc được trả lương, do đó loại trừ công việc nội trợ truyền thống của phụ nữ, đã làm cho phong trào nữ quyền lấy đó làm mục tiêu phê phán kể từ năm 1960. Ở Pháp, việc thu thập dữ liệu điều tra dân số về sắc tộc là điều bất hợp pháp kể từ năm 1978, trên cơ sở cho rằng các dữ liệu đó có thể được sử dụng vì các mục đích chính trị về phân biệt chủng tộc. (Điều này có tác dụng phụ là khiến càng khó lượng hóa hơn tệ phân biệt chủng tộc có hệ thống trong thị trường lao động.)
Mặc cho những lời phê phán nói trên, khát vọng mô tả xã hội trong tổng thể của nó, và để làm điều đó một cách khách quan, có nghĩa là có nhiều lý tưởng tiến bộ khác nhau đã được gắn liền với thống kê học. Hình ảnh của thống kê học là một khoa học xã hội lạnh lùng chỉ là một phần của câu chuyện. Phần khác [của câu chuyện] là việc những lý tưởng chính trị mạnh mẽ đó được đầu tư như thế nào vào những kỹ thuật này: đó là lý tưởng của các “chính sách dựa trên chứng cứ”, tính duy lý, sự tiến bộ và tinh thần dân tộc căn cứ vào sự kiện, hơn là vào là những câu chuyện lãng mạn hóa.
Benedict Anderson (1936-2015)

Kể từ đỉnh điểm của thời kỳ Khai sáng vào cuối thế kỷ 18, những người theo chủ nghĩa tự do và cộng hòa đã rất hy vọng rằng các khung đo lường quốc gia có thể tạo ra một nền chính trị duy lý hơn, được tổ chức xung quanh những cải tiến chứng minh được trong đời sống xã hội và kinh tế. Lý thuyết gia vĩ đại của chủ nghĩa dân tộc, Benedict Anderson, đã mô tả quốc gia như là một “cộng đồng tưởng tượng”, nhưng thống kê học đưa ra lời hứa neo trí tưởng tượng này trong một cái gì đó mang tính hữu hình. Tương tự, thống kê học hứa hẹn sẽ bộc lộ lộ trình lịch sử mà quốc gia đang đi là gì: loại tiến bộ nào đang diễn ra? Tốc độ như thế nào? Đối với những người theo chủ nghĩa tự do của thời kỳ Khai sáng, những người đã thấy các quốc gia chuyển động theo một hướng lịch sử đơn nhất, thì vấn đề này  cực kỳ quan trọng.

Tiềm năng của thống kê học để bộc lộ trạng thái của quốc gia đã được tận dụng trong thời kỳ sau cuộc cách mạng Pháp. Nhà nước theo phái Jacobin dự định áp đặt một khung đo lường quốc gia và thu thập dữ liệu quốc gia hoàn toàn mới. Văn phòng thống kê chính thức đầu tiên trên thế giới được thành lập ở Paris vào năm 1800. Tính đồng nhất của việc thu thập dữ liệu, được giám sát bởi các chuyên gia có trình độ chuyên ngành cao, là một phần không thể thiếu của lý tưởng về một nước cộng hòa tập quyền ở trung ương, để tìm cách thiết lập một xã hội thống nhất, bình đẳng.
Charles Booth (1840-1916)
Web Du Bois (1868-1963)

Từ thời kỳ Khai sáng trở đi, thống kê học đã đóng một vai trò ngày càng quan trọng trong các lĩnh vực công, cung cấp thông tin cho các cuộc tranh luận trên các phương tiện truyền thông,  cho các phong trào hoạt động xã hội những bằng chứng mà họ có thể sử dụng. Theo thời gian, việc tạo ra và phân tích những dữ liệu như vậy càng ít bị nhà nước chi phối. Các nhà khoa học xã hội hàn lâm bắt đầu phân tích dữ liệu phục vụ cho những mục đích riêng của họ, thường không liên quan gì đến các mục tiêu chính sách của chính phủ. Vào cuối thế kỷ 19, những nhà cải cách như Charles Booth tại London và Web Du Bois tại Philadelphia đã tiến hành những cuộc điều tra riêng của họ để tìm hiểu nạn nghèo khổ ở thành thị.

Ảnh minh họa của Guardian Design
Để nhận ra cách thức mà thống kê học đã sa lầy vào các khái niệm về sự tiến bộ quốc gia, hãy xem xét trường hợp của GDP. GDP là một ước tính về tổng số tiền chi tiêu của người tiêu dùng, chi tiêu của chính phủ, đầu tư và cán cân thương mại (kim ngạch xuất khẩu trừ nhập khẩu) của một quốc gia, được tượng trưng bằng một con số đơn nhất. Đây là một công việc cực kỳ khó khăn để tính đúng, và những nỗ lực để tính con số này bắt đầu, giống như rất nhiều kỹ thuật toán học khác, như là một việc bên lề, một quan tâm có phần nào đó chuyên sâu trong những năm 1930. Nó chỉ được nâng lên thành một vấn đề chính trị cấp bách ở tầm quốc gia bởi cuộc chiến tranh thế giới lần thứ hai, khi các chính phủ cần phải biết liệu dân số cả nước có sản xuất đủ để theo kịp các nỗ lực phục vụ chiến tranh hay không. Trong những thập niên sau đó, chỉ báo đơn nhất này, mặc dù chưa bao giờ không bị phê phán, đã có được một địa vị chính trị thiêng liêng, như là một phong vũ biểu tối thượng về năng lực điều hành của chính phủ. Cho dù GDP tăng hay giảm, hiện nay nó gần như là một biểu trưng cho năng lực này bất luận là xã hội đang tiến lên hay tụt lùi.
Hoặc thử lấy ví dụ về cuộc điều tra dư luận, một ví dụ rất sm cho sự đổi mới thống kê trong khu vực tư nhân. Trong những năm 1920, các nhà thống kê đã phát triển các phương pháp để xác định một mẫu đại diện của những người trả lời khảo sát, để thu nhặt thông tin về thái độ của công chúng nói chung. Bước đột phá này, trước tiên được các nhà nghiên cứu thị trường nhận thức, đã sớm dẫn đến sự ra đời của cuộc điều tra dư luận. Ngành công nghiệp mới này ngay lập tức trở thành đối tượng mê hoặc của công chúng và giới chính trị, khi các phương tiện truyền thông tường thuật những gì mà ngành khoa học mới này cho chúng ta biết những suy nghĩ về thế giới của “phụ nữ” hay “người Mỹ” hay “người lao động chân tay”.
Ngày nay, người ta không ngừng phê phán những khuyết tật của các cuộc điều tra dư luận. Nhưng điều này có lý do một phần từ những hy vọng quá to lớn đã từng được đầu tư vào việc điều tra dư luận ngay từ khi kĩ thuật này ra đờiChỉ trong chừng mực ta tin vào nền dân chủ đại chúng thì mới bị mê hoặc hoặc quá quan tâm đến những gì mà công chúng suy nghĩ. Nhưng nhờ phần lớn vào thống kê học, chớ không phải vào bản thân các định chế dân chủ, ta mới có thể biết được những gì công chúng suy nghĩ về những vấn đề cụ thể. Chúng ta đã đánh giá thấp ý thức của chúng ta về “lợi ích công cộng” bắt nguồn sâu như thế nào từ những tính toán của các chuyên gia, như được đối lập với các định chế dân chủ.
Khi các chỉ báo về sức khỏe, thịnh vượng, bình đẳng, dư luận và chất lượng cuộc sống cho chúng ta biết chúng ta là một tập thể, bất luận sự vật có trở nên tốt hơn hay tồi tệ hơn, thì các chính trị gia đã dựa rất nhiều vào thống kê học để củng cố quyền lực của họ. H thường dựa vào thống kê học quá nhiềucường điệu hóa bằng chứng quá đà, diễn giải dữ liệu quá dễ dãi, để phục vụ các mục đích của họ. Nhưng đó là một nguy cơ không thể tránh khỏi của tình trạng phổ biến của các con số trong đời sống công cộng, và không tất yếu kích hoạt loại chối bỏ thật tình đánh giá của chuyên gia mà chúng ta đã chứng kiến trong thời gian gần đây.
James C. Scott (1936- )

Về nhiều mặt, cuộc tấn công của phái dân túy hiện đại vào các “chuyên gia” phát sinh từ cùng một sự bất mãn cũng giống như cuộc tấn công vào các đại biểu dân cử. Khi nói về xã hội như là một tổng thể, để tìm cách điều hành nền kinh tế như là một tổng thể, các chính trị gia lẫn các nhà kỹ trị được cho là đã “đánh mất” cảm giác của một công dân đơn nhất trong trường hợp cá biệt. Cả nhà thống kê lẫn các chính trị gia đã rơi vào cái bẫy “dưới góc nhìn của chính quyền [seeing like a state]”, sử dụng lại một cụm từ của nhà tư tưởng chính trị theo trường phái vô chính phủ James C Scott. Bàn luận một cách khoa học về quốc gia – ví dụ về mặt kinh tế vĩ mô – là một sự xúc phạm đến những người muốn dựa vào kí ức và tự sự cho ý thức tinh thần dân tộc của họ, và chán ngấy khi bị nói rằng “cộng đồng tưởng tượng” của họ không tồn tại.

Mặt khác, thống kê học (cùng với các đại biểu dân cử) đã thực hiện một công việc thích hợp là hỗ trợ một diễn ngôn đáng tin trong công chúng trong nhiều thập niên qua, nếu không muốn nói nhiều thế kỷ qua. Điều gì đã thay đổi?
Cuộc khủng hoảng thống kê học không bất ngờ như nó có vẻ. Trong khoảng 450 năm, thành tích tuyệt vời của các nhà thống kê là làm giảm tính phức tạp và tính lỏng lẻo của các tổng thể quốc gia thành những cơ sở lập luận và con số có thể quản lý, dễ hiểu. Tuy nhiên, trong những thập niên gần đây, thế giới đã thay đổi đáng kể, nhờ vào các quan niệm chính trị văn hoá xuất hiện trong những năm 1960 và sự định hình lại của nền kinh tế toàn cầu đã bắt đầu ngay sau đó. Có điều không rõ là liệu các nhà thống kê có luôn theo kịp với những thay đổi này không. Các hình thức phân loại và định nghĩa thống kê truyền thống đang bị thử thách từ những bản sắc, thái độ và lộ trình kinh tế lỏng lẻo hơn. Những nỗ lực để biểu trưng sự thay đổi về dân số, xã hội và kinh tế bằng những chỉ báo đơn giản, được thừa nhận đang đánh mất tính chính danh.
Hãy thử xem xét sự thay đổi về mặt địa lý chính trị và kinh tế của các nhà nước-dân tộc trong 40 năm qua. Các số liệu thống kê, chi phối các cuộc tranh luận chính trị, phần lớn là các số liệu mang tính quốc gia: mức độ nghèo đói, thất nghiệp, GDP, nhập cư thuần. Nhưng vị trí địa lý của chủ nghĩa tư bản đang bị lôi kéo theo những hướng có phần nào đó khác nhau. Rõ ràng toàn cầu hóa đã không làm cho vị trí địa lý không thích hợp. Trong nhiều trường hợp, nó đã làm cho vị trí của hoạt động kinh tế quan trọng hơn, làm trầm trọng thêm sự bất bình đẳng giữa những địa danh thành công (như London hay San Francisco) và những địa danh kém thành công (như phía đông bắc nước Anh hoặc vành đai rỉ sét của Hoa Kỳ). Đơn vị then chốt theo địa lý không còn là nhà nước-dân tộc nữa. Thay vào đó, đó là các thành phố, vùng miền hoặc khu đô thị cá lẻ lân cận đang tăng lên và giảm xuống.
Quốc gia lý tưởng của thời kỳ Khai sáng như là một cộng đồng đơn nhất, gắn kết với nhau bởi một khung đo lường chung, là điều ngày càng khó duy trì. Khi bạn sống ở một trong những thị trấn trong vùng thung lũng Welsh, từng phụ thuộc vào các việc làm sản xuất thép hoặc khai thác mỏ, và khi các chính trị gia nói về mức độ “hoạt động tốt” của “nền kinh tế”, thì điều đó có nhiều khả năng làm sản sinh thêm nhiều sự bất mãn. Từ quan điểm đó, thuật ngữ “GDP” không có khả năng nắm bắt được bất cứ điều gì có ý nghĩa hoặc đáng tin cậy.
Khi kinh tế học vĩ mô được sử dụng để hậu thuẫn cho một lập luận chính trị, thì điều này hàm ý rằng những thiệt hại trong một phần của đất nước được bù đắp bởi những lợi ích ở một nơi khác. Các chỉ báo quốc gia thu hút sự chú ý, chẳng hạn như GDP và lạm phát, che đậy tất cả các loại lợi ích và tổn thất cục bộ ít được các chính trị gia quốc gia thảo luận. Vấn đề nhập cư có thể tốt cho nền kinh tế nói chung, nhưng điều này không có nghĩa là không hề có chi phí nào cả cho địa phương. Do đó, khi các chính trị gia sử dụng các chỉ báo quốc gia để biện minh việc họ làm là đúng, thì họ ngầm giả định cử tri có một tinh thần yêu nước hy sinh cho nhau: bạn có thể là người thua cuộc trong dịp này, nhưng trong thời gian tới bạn có thể là người thụ hưởng. Nhưng điều gì sẽ xảy ra nếu tình thế không bao giờ đảo ngược? Điều gì sẽ xảy ra nếu cùng một thành phố hoặc vùng miền đó luôn giành thắng lợi, trong khi những thành phố hoặc vùng miền khác thì luôn thất bại? Chúng ta sẽ dựa vào nguyên tắc nào để biện minh cho quan hệ có qua có lại này?
Tại châu Âu, liên minh tiền tệ đã làm vấn đề này thêm gay gắt. Những chỉ báo quan trọng đối với Ngân hàng Trung ương châu Âu (ECB), ví dụ, là những chỉ báo đại diện cho một nửa tỷ người. ECB quan tâm đến tỷ lệ lạm phát hay tỷ lệ thất nghiệp trong toàn khu vực các nước sử dụng đồng tiền chung châu Âu, như thể đó là một vùng lãnh thổ đồng nhất và đơn nhất, cùng lúc số phận của người dân châu Âu về mặt kinh tế lại phân mảnh theo nhiều hướng khác nhau, tùy thuộc vào vùng miền, thành phố hoặc vùng lân cận mà họ đang sống. Kiến thức chính thức càng trở nên trừu tượng hơn so với kinh nghiệm sống, cho đến khi kiến thức này đơn giản không còn phù hợp hoặc đáng tin nữa.
Ưu tiên cho quốc gia, như là một cấp độ thước đo phân tích tự nhiên, là một trong những định kiến vốn có của thống kê học mà những năm tháng thay đổi kinh tế đã phá hủy từ từ. Một định kiến vốn có khác đang ngày càng bị thử thách là phương pháp phân loại. Một phần công việc của các nhà thống kê là phân loại người dân bằng cách đưa họ vào một loạt các khung mà các nhà thống kê đã tạo ra: có việc làm hay thất nghiệp, đã lập gia đình hay chưa có gia đình, có tư tưởng ủng hộ Âu hay chống lại châu Âu. Chừng nào người dân còn được đặt vào những khung theo cách trên, thì người ta thấy rõ một phân loại nhất định có thể được mở rộng tới mức nào trên toàn thể dân số.
Điều này có thể kéo theo những lựa chọn có phần nào đó bị thu hẹp. Để được tính là người thất nghiệp, ví dụ, một người phải báo cáo cho cuộc khảo sát rằng họ không tự nguyện thất nghiệp, một điều thậm chí có thể còn phức tạp hơn trong thực tế. Lúc nào cũng có rất nhiều người kiếm được việc và rất nhiều người thất nghiệp, vì nhiều lý do có thể có, từ những lý do liên quan đến sức khỏe và nhu cầu của gia đình đến các điều kiện của thị trường lao động. Nhưng nhờ vào cách đơn giản hóa này, người ta có thể xác định tỷ lệ thất nghiệp trên toàn dân số nói chung.
Dữ liệu thống kê chỉ đáng tin nếu người dân chấp nhận những phạm vi hạn chế về nhân khẩu học được cung cấp
Tuy vậy, cũng có một vấn đề. Điều gì sẽ xảy ra nếu không thể giải quyết nhiều vấn đề xác định thời đại của chúng ta bằng phạm vi người dân được tính đến mà bằng cường độ người dân bị tác động? Tình trạng thất nghiệp là một ví dụ. Việc nước Anh vượt qua cuộc Đại suy thoái từ năm 2008 đến năm 2013, trong khi về cơ bản tỷ lệ thất nghiệp không tăng, thường được xem là một thành tựu tích cực. Nhưng tập trung chú ý vào “thất nghiệp” che giấu sự gia tăng của tình trạng thiếu việc làm, đó là người dân không có đủ việc làm hoặc đang làm một công việc ở mức độ thấp hơn khả năng của họ. Hiện tượng này hiện đang chiếm khoảng 6% lực lượng lao động “có việc làm”. Tiếp đến là sự gia tăng của lực lượng lao động tự làm chủ, làm cho sự phân chia thành “người có việc làm” và “người thất nghiệp không tự nguyện” là không mấy ý nghĩa.
Đây không phải là một lời phê phán các cơ quan như Văn phòng Thống kê Quốc gia (ONS), mà hiện nay đang tính toán các số liệu về tình trạng thiếu việc làm. Nhưng chừng nào các chính trị gia còn tiếp tục làm chệch hướng sự phê phán bằng cách viện dẫn tỷ lệ thất nghiệp, thì kinh nghiệm của những người đấu tranh để có đủ việc làm hoặc sống nhờ vào tiền lương không được đại diện trong các cuộc tranh luận công cng. Điều này không có gì đáng ngạc nhiên khi chính những người này trở nên nghi ngờ các chuyên gia về chính sách và việc sử dụng các số liệu thống kê trong các cuộc tranh luận chính trị, căn cứ vào sự không khớp nhau giữa những gì các chính trị gia nói về thị trường lao động và thực tế cuộc sống.
Sự nổi lên của các phong trào bản sắc chính trị kể từ những năm 1960 đã làm tăng thêm tình trạng căng thẳng về những hệ thống phân loại như vậy. Dữ liệu thống kê chỉ đáng tin nếu người dân chấp nhận số hạn chế những phạm trù về dân số học được cung cấp, được các chuyên gia lựa chọn chớ không phải bởi những người trả lời khảo sát. Nhưng khi bản sắc trở thành một vấn đề chính trị, thì người dân yêu cầu được tự xác định những điều kiện của riêng họ, khi liên quan đến vấn đề giới tính, tình dục, chủng tộc hay giai cấp.
Cuộc điều tra dư luận có thể cũng bị tổn thương vì những lý do tương tự. Theo truyền thống, các cuộc điều tra dư luận nắm bắt thái độ và sở thích của người dân, trên cơ sở sự giả định hợp lý cho rằng người dân sẽ cư xử phù hợp với điều đã được nhắc đến. Nhưng trong thời đại  mức độ tham gia chính trị suy giảm, thì việc biết rằng ô nào được ai đó đánh dấu “X” là chưa đủ. Người ta còn cần phải biết liệu dân có cảm thấy đủ mạnh để bõ công làm điều như vậy. Và khi nói đến việc nắm bắt những biến động về cường độ cảm xúc như vậy, thì điều tra dư luận là một công cụ vụng về.
Thống kê học đã phải thường xuyên đối mặt với sự phê phán suốt lịch sử lâu dài của nó. Những thách thức mà bản sắc chính trị và toàn cầu hóa mang đến cũng không phải là điều mới đối với thống kê học. Vậy tại sao những sự kiện của năm qua được cảm nhận là gây tác hại đến thế cho lý tưởng của việc đánh giá định lượng của chuyên gia và vai trò của đánh giá này trong các cuộc tranh luận chính trị?
Trong những năm gần đây, một phương pháp mới định lượng và hình dung các quần thể đã xuất hiện, có nhiều khả năng đẩy thống kê học ra bên lề, báo hiệu một thời đại khác hoàn toàn. Thống kê học, được các chuyên gia kỹ thuật thu thập và biên soạn, đang nhường đường cho dữ liệu được tích lũy một cách mặc định, như một hệ quả của kỹ thuật số hóa sâu rộng. Theo truyền thống, các nhà thống kê biết những câu hỏi nào mà họ muốn hỏi liên quan đến dân số nào, rồi lên kế hoạch để có các câu trả lời. Ngược lại, dữ liệu sẽ tự động tạo ra bất cứ lúc nào khi chúng ta quẹt một thẻ khách hàng trung thành, bình luận trên Facebook hay tìm kiếm một điều gì đó trên Google. Khi các thành phố, xe hơi, nhà cửa và vật dụng gia đình được kết nối bằng kỹ thuật số, thì khối lượng dữ liệu mà chúng ta để lại dấu vết càng phát triển lớn hơn bao giờ hết. Trong thế giới mới này, dữ liệu được thu thập trước, rồi mới đến câu hỏi khảo sát.
Về lâu dài, hệ lụy của việc này chắc chắn sẽ rất sâu sắc như việc phát minh ra thống kê học vào cuối những năm của thế kỷ 17. Sự nổi lên của “dữ liệu lớn” đã tạo ra những cơ hội lớn hơn nhiều cho phân tích định lượng so với bất kỳ số lượng điều tra dư luận hay kỹ thuật mô hình hóa thống kê nào. Nhưng điều khác biệt không chỉ là khối lượng dữ liệu. Dữ liệu lớn còn tượng trưng cho một loại kiến thức hoàn toàn khác, đi kèm với một phương thức đánh giá chuyên gia mới.
Thứ nhất, dữ liệu lớn không giới hạn một cấp độ phân tích cố định (chẳng hạn như quốc gia) hay bất kỳ phân loại cụ thể nào (chẳng hạn như “người thất nghiệp”). Những tập hợp rộng lớn các dữ liệu mới này có thể được khai thác để tìm kiếm các mô thức, xu hướng, tương quan và tâm trạng mới nổi. Nó trở thành một cách để theo dõi những bản sắc mà con người tự n cho chính mình (chẳng hạn như “#ImwithCorbyn” hay “doanh nhân”) thay vì áp đặt những phân loại nào đó cho họ. Đây là một hình thức tổng gộp phù hợp với một thời đại chính trị lỏng lẻo, trong đó không phải mọi thứ đều có thể quy chiếu một cách đáng tin về một số lý tưởng của nhà nước-dân tộc của thời kỳ Khai sáng như là người giám hộ lợi ích công cộng.
Thứ hai, phần lớn trong chúng ta đều hoàn toàn mù tịt về tất cả những gì mà dữ liệu này nói về chúng ta, về mặt cá thể hoặc tập thể. Không có một cơ quan nào tương đương với Văn phòng Thống kê Quốc gia đối với các dữ liệu lớn được thu thập về mặt thương mại. Chúng ta đang sống trong một thời đại mà trong đó cảm xúc, bản sắc và quan hệ của chúng ta có thể được theo dõi và phân tích với tốc độ và sự nhạy cảm chưa từng có – nhưng không có cái gì neo được khả năng mới này vào lợi ích của công cng hay tranh luận công cng. Có những nhà phân tích dữ liệu làm việc cho Google và Facebook, nhưng họ không phải là những “chuyên gia” theo kiểu người tạo ra các số liệu thống kê và hiện đang bị lên án trên diện rộng. Sự khuyết danh và bí mật của những nhà phân tích [dữ liệu] mới có khả năng làm cho họ có quyền lực lớn hơn rất nhiều so với bất cứ nhà khoa học xã hội nào về mặt chính trị.
Một công ty như Facebook có khả năng nghiên cứu khoa học xã hội định lượng về hàng trăm triệu người, với chi phí rất thấp. Nhưng nó có rất ít động cơ để tiết lộ kết quả. Trong năm 2014, khi các nhà nghiên cứu của Facebook công bố kết quả của một nghiên cứu về “sự lây lan cảm xúc” mà họ đã thực hiện trên người sử dng – trong đó họ thay đổi tin tức cập nhật để xem nó ảnh hưởng như thế nào đến nội dung mà sau đó người sử dng đã chia sẻ để đáp lại – kết quả là đã có một làn sóng phản đối về việc người sử dụng Faceboook đã bị thử nghiệm mà không hề hay biết. Vì vậy, từ quan điểm của Facebook, tại sao phải quan tâm đến những rắc rối phức tạp của việc công bố kết quả? Tại sao không giới hạn vào việc nghiên cứu và giữ im lặng?
Dominic Cummings (1971- )

Điều có ý nghĩa nhất về mặt chính trị là mức độ dễ dàng trong việc hòa hợp với sự trỗi dậy của chủ nghĩa dân túy của sự thay đổi từ logic của thống kê học sang logic của dữ liệu. Các nhà lãnh đạo theo chủ nghĩa dân túy có thể khinh khi các chuyên gia truyền thống, chẳng hạn như các nhà kinh tế và các nhà thăm dò dư luận, trong khi tin vào một hình thức phân tích số học hoàn toàn khác. Các chính trị gia này dựa vào một giới tinh hoa mới, ít xuất hiện hơn, những người đi tìm các mô thức từ các ngân hàng dữ liệu rộng lớn, nhưng hiếm khi thực hiện bất kỳ tuyên bố nào, huống chi là công bố bất kỳ bằng chứng nào. Các nhà phân tích dữ liệu này thường là những nhà vật lý học hoặc toán học, mà kỹ năng hoàn toàn không được phát triển để nghiên cứu về xã hội. Đó là, ví dụ, thế giới quan được truyền bá bởi Dominic Cummings, cựu cố vấn của Michael Gove và giám đốc của chiến dịch Bỏ phiếu Rời khỏi [Liên minh châu Âu]. “Vật lý học, toán học và khoa học máy tính là lĩnh vực của những chuyên gia thực thụ, không giống như các nhà dự báo kinh tế vĩ mô”, theo lập luận của Cummings.

Steve Bannon (1953- )

Những nhân vật thân cận với Donald Trump, chẳng hạn như Steve Bannon, chiến lược gia trưởng của ông và nhà tỷ phú của Silicon Valley Peter Thiel, rất quen với các kỹ thuật mũi nhọn của phân tích dữ liệu, thông qua những công ty như Cambridge Analytica, mà Bannon là một thành viên của hội đồng quản trị. Trong chiến dịch tranh cử tổng thống, Cambridge Analytica đã dựa vào nhiều nguồn dữ liệu khác nhau để phát họa các hình dạng tâm lý của hàng triệu người Mỹ, mà sau đó được sử dụng để giúp Trump lựa chọn các cử tri mục tiêu với những tin nhắn phù hợp.

Khả năng phát triển và cải tiến những hiểu biết về tâm lý trên các quần thể rộng lớn là một trong những tính năng sáng tạo và gây tranh cãi nhất của kĩ thuật phân tích mới các dữ liệu. Khi các kỹ thuật “phân tích tình cảm”, phát hiện tâm trạng của một lượng lớn người dân bằng các chỉ báo theo dõi như việc sử dụng từ ngữ trên các phương tiện truyền thông xã hội, được kết hợp chặt chẽ trong các chiến dịch vận động chính trị, thì sự lôi cuốn cảm xúc của những nhân vật như Trump sẽ trở thành đối tượng củasự khảo sát khoa học. Trong một thế giới mà những cảm xúc chính trị của công chúng đang trở thành điều có thể theo dõi được, thì ai cần đến các nhà thăm dò dư luận?
Rất ít những phát hiện xã hội từ hình thức phân tích dữ liệu này kết thúc trong lĩnh vực công cộng. Điều này có nghĩa là nó giúp rất ít trong việc neo các tự sự chính trị vào một thực tế bất kỳ nào được chia sẻ. Với sự suy yếu của quyền lực thống kê, và khi không có cái gì thay thế nó trong lĩnh vực công cộng, thì người dân có thể sống trong bất cứ một cộng đồng tưởng tượng nào mà họ cảm thấy phù hợp nhất và sẵn sàng đặt niềm tin vào nhất. Khi thống kê học có thể được sử dụng để chỉnh sửa những yêu sách sai lầm về mặt kinh tế hay xã hội hay dân số, thì trong thời đại phân tích dữ liệu,sẽ có rất ít cơ chế để ngăn chặn người dân buông thả để phản ứng theo bản năng hay theo những định kiến nặng cảm tính của họ. Ngược lại, những công ty như Cambridge Analytica xử lý những cảm xúc nói trên như là những điều cần theo dõi.
Nhưng ngay cả khi có một Văn phòng phân tích dữ liệu, đại diện cho công chúng và chính phủ như Văn phòng Thống kê Quốc gia (ONS) hiện tại, thì cũng không rõ liệu nó có cung cấp loại quan điểm trung lập mà những người theo chủ nghĩa tự do ngày nay đang đấu tranh để bảo vệ không. Bộ máy tính toán siêu tốc mới rất thích hợp để phát hiện các xu hướng, hiểu được tâm trạng và nhận ra sự việc khi chúng nổi lên. Nó phục vụ rất tốt cho các nhà quản lý chiến dịch và các nhà tiếp thị. Nó ít phù hợp với việc đưa ra những kiểu yêu sách rõ ràng, khách quan, có khả năng hình thành sự đồng thuận về các vấn đề xã hội mà các nhà thống kê và các nhà kinh tế đã làm.
Trong môi trường kỹ thuật và chính trị mới này, giới tinh hoa mới về kỹ thuật số sẽ chịu trách nhiệm xác định những sự kiện, dự đoán và sự thật giữa dòng thác mà các dữ liệu đưa đến. Cho dù các chỉ báo như GDP và tỷ lệ thất nghiệp vẫn tiếp tục được xem là có ảnh hưởng về mặt chính trị, hay không, thì điều này cũng không nhất thiết báo trước sự kết thúc của các chuyên gia, huống hồ gì sự kết thúc của chân lý. Câu hỏi đặt ra một cách nghiêm túc hơn, là bây giờ khi mà con số đang được liên tục tạo ra sau lưng chúng ta và vượt xa kiến ​​thc ca chúng ta, thì cuc khng hong v thống kê học sẽ bỏ rơi nền dân chủ đại diện ở đâu.
Tim Berners-Lee (1955- )

Một mặt, chúng ta phải thừa nhận năng lực phản công của các định chế chính trị lâu đời. Cũng giống như các nền tảng của một “nền kinh tế chia sẻ” như Uber và Airbnb gần đây đã bị cản trở bởi những quyết định mang tính pháp lý (Uber bị buộc phải công nhận các lái xe như là nhân viên của mình, Airbnb bị một số chính quyền địa phương cấm hoàn toàn), thì pháp luật về quyền riêng tư và nhân quyền biểu trưng một chướng ngại tiềm tàng cho việc mở rộng các phân tích dữ liệu. Điều chưa rõ là những lợi ích của việc phân tích kỹ thuật số có thể được cung cấp cho công chúng như thế nào, có giống cách của các tập dữ liệu thống kê không. Những định chế như Viện dữ liệu mở (Open Data Institute), do Tim Berners-Lee đồng sáng lập, vận động để công chúng tiếp cận được dữ liệu một cách công khai, nhưng lại có rất ít ảnh hưởng trên các tập đoàn, nơi mà hiện nay có rất nhiều dữ liệu của chúng ta được tập hợp. Thống kê học ra đời như là một công cụ mà thông qua đó nhà nước có thể quan sát xã hội, nhưng dần dần phát triển thành một cái gì đó mà các học giả, các công dân hoạt động cải cách và các doanh nghiệp thấy được quyền lợi mình trong đó. Nhưng đối với nhiều doanh nghiệp về phân tích dữ liệu, bảo mật các phương pháp và các nguồn dữ liệu là một lợi thế cạnh tranh mà họ sẽ không tự nguyện từ bỏ.

Một xã hội hậu thống kê là một đề xuất có tiềm năng đáng sợ, không phải bởi vì nó thiếu hoàn toàn mọi hình thức về chân lý hay đánh giá chuyên môn, mà bởi vì nó sẽ tư nhân hóa cách hình thức trên một cách mạnh mẽ. Thống kê học là một trong nhiều cột trụ của chủ nghĩa tự do, quả nhiên là của thời kỳ Khai sáng. Các chuyên gia đã tạo ra và sử dụng nó đã bị tô điểm thành những người ngạo mạn và mù tịt về các chiều kích cảm xúc và cục bộ của chính trị. Chúng ta không nghi ngờ  các cách thức thu thập dữ liệu có thể được điều chỉnh để phản ánh tốt hơn các kinh nghiệm sống. Nhưng cuộc chiến cần được tiến hành trong dài hạn không phải là cuộc chiến giữa một nền chính trị dựa vào sự kiện do giới tinh hoa dẫn đầu với một nền chính trị dân túy dựa vào cảm xúc. Đó là cuộc chiến giữa những người còn cam kết với kiến ​​thc công cng và tranh lun công cng vi nhng người hưởng li t s tan rã đang din ra ca nhng cam kết ấy
William Davies

William Davies là nhà xã hội học và nhà kinh tế học chính trị. Các cuốn sách của ông bao gồm The Limits of Neoliberalism [Những hạn chế của chủ nghĩa tân tự do] và The Happiness Industry [Công nghiệp Hạnh phúc].

Huỳnh Thiện Quốc Việt dịch

 

Bảy sai lầm chết người khi hiểu sai về thống kê và cách tránh chúng

Bảy sai lầm chết người khi hiểu sai về thống kê và cách tránh chúng

(Nguồn: http://vienthongke.vn)

Thống kê là một công cụ hữu ích để tìm hiểu về các mô hình trong thế giới xung quanh chúng ta. Nhưng sự hiểu biết bằng trực giác thường khiến chúng ta dễ dãi hơn khi giải thích những mô hình đó. Trong bài viết này, chúng tôi sẽ chỉ ra một số sai lầm phổ biến thường mắc phải và cách tránh chúng khi đề cập đến số liệu thống kê, xác suất và rủi ro.

1. Giả sử những khác biệt nhỏ là có ý nghĩa

Các biến động hàng ngày trên thị trường chứng khoán biểu thị cho cơ hội, may rủi hơn là một điều gì đó có ý nghĩa. Sự khác biệt trong các cuộc thăm dò ý kiến khi một bên (mã cổ phiếu) vượt lên một hoặc hai điểm thường chỉ là thông tin nhiễu trong thống kê.

Bạn có thể tránh đưa ra các kết luận sai lầm về nguyên nhân của các biến động, bằng cách yêu cầu được xem “phạm vi sai số” liên quan đến các số liệu.

Nếu những khác biệt nhỏ hơn phạm vi sai số, đó là sự khác biệt không có ý nghĩa, và sự biến thiên có thể chỉ là các biến động ngẫu nhiên.

2. Ý nghĩa thống kê tương đương với ý nghĩa thực tế

Chúng ta thường khái quát hóa về sự khác biệt giữa hai nhóm như thế nào, chẳng hạn như thể lực phụ nữ thường yếu hơn so với nam giới.

Những khác biệt này thường dựa trên những định kiến và kinh nghiệm dân gian, nhưng lại bỏ qua sự tương đồng của những người giữa hai nhóm, và những khác biệt của những người trong cùng một nhóm.

Nếu bạn chọn ngẫu nhiên hai người đàn ông, có thể có khá nhiều khác sự biệt giữa họ về mặt thể lực. Nếu bạn chọn một người đàn ông và một phụ nữ, có thể hai người được nuôi dưỡng tương tự nhau, hoặc có thể người đàn ông được nuôi dưỡng tốt hơn người phụ nữ.

Hình 1: Các biểu đồ sai số minh họa mức độ không chắc chắn trong một điểm. Khi phạm vi sai số trùng nhau, sự khác biệt có thể là do thông tin nhiễu trong thống kê.

Bạn có thể tránh được lỗi này bằng cách hỏi về “hệ số ảnh hưởng” của những sự khác biệt giữa các nhóm. Đây là công cụ đo lường sự khác nhau về mức độ trung bình giữa hai nhóm.

Nếu hệ số ảnh hưởng nhỏ, thì có thể đưa ra kết luận là hai nhóm khá tương đồng. Ngay cả khi hệ số ảnh hưởng lớn, vẫn có nhiều cá thể tương đồng giữa hai nhóm, không phải tất cả thành viên của nhóm này đều sẽ khác biệt với tất cả thành viên của nhóm khác.

3. Không chú ý đến các điểm cực trị

Mặt khác, hệ số ảnh hưởng có liên quan khi bạn tập trung vào “phân phối chuẩn” (còn được gọi là “đường cong hình chuông”). Đây là vùng mà hầu hết mọi giá trị đều ở gần điểm trung bình và chỉ có một nhóm nhỏ nằm ở trên hoặc dưới mức trung bình.

Khi điều này xảy ra, một thay đổi nhỏ trong hoạt động của nhóm tạo ra sự bất thường, không có ảnh hưởng đến nhóm người ở mức trung bình (xem hình 2) nhưng lại tác động đến các giá trị ở những điểm cực trị rất lớn.

Chúng ta có thể tránh lỗi này bằng cách nhìn lại việc chúng ta có xem xét các điểm cực trị hay không. Khi bạn chỉ quan tâm đến nhóm người ở mức trung bình, sự khác biệt nhóm nhỏ thường không thành vấn đề. Khi bạn quan tâm đến các điểm cực trị, sự khác biệt nhóm nhỏ có thể trở nên rất quan trọng.

Hình 2: Trong hai tổng thể phân phối chuẩn, sự khác biệt giữa chúng sẽ rõ ràng hơn ở những điểm cực trị so với điểm trung bình.

4. Tin vào sự trùng hợp ngẫu nhiên

Bạn có biết rằng có sự tương quan giữa số người bị chết đuối mỗi năm tại Hoa Kỳ do ngã vào bể bơi và số lượng phim mà Nicholas Cage xuất hiện?

Nếu bạn đủ kiến thức bạn có thể tìm ra sự thú vị của mô hình về mối tương quan này, thực ra chỉ đơn thuần là do sự trùng hợp ngẫu nhiên.

Điều này xảy ra khi hai hiện tượng diễn ra cùng thời điểm, hoặc trong cùng một mô hình tương đồng nhau, không có nghĩa là chúng có liên quan đến nhau.

Tránh lỗi này bằng cách tìm hiểu mức độ liên kết quan sát được giữa các vấn đề có đáng tin cậy hay không. Nó chỉ xảy ra một lần hay diễn ra nhiều lần? Các mối liên hệ có thể dự đoán được trong tương lai không? Nếu bạn nhận thấy nó chỉ xảy ra một lần duy nhất, thì đó là sự tình cờ ngẫu nhiên.

Hình 3: Có tồn tại mối liên hệ nhân quả?

5. Xem xét ngược lại các nguyên nhân

Khi hai sự việc tương quan với nhau – ví dụ, các vấn đề về tình trạng thất nghiệp và bệnh tâm thần – có thể khiến chúng ta liên tưởng đến lối suy nghĩ nhân quả “hiển nhiên” là – hậu quả của bệnh tâm thần chính là tình trạng thất nghiệp.

Nhưng đôi khi mối quan hệ nhân quả xảy ra theo một cách khác, chẳng hạn như tình trạng thất nghiệp mới dẫn đến các vấn đề về sức khoẻ tâm thần.

Bạn có thể tránh được lỗi này bằng cách nhớ suy nghĩ về hướng ngược lại trong mối quan hệ nhân quả, khi bạn thấy một mối liên hệ xảy ra. Liệu ảnh hưởng có đi theo hướng khác không? Hoặc chúng có tác động lẫn nhau, tạo ra một vòng lặp thông tin phản hồi?

6. Bỏ quên việc đánh giá các nguyên nhân bên ngoài

Mọi người thường bỏ qua không đánh giá “các yếu tố thứ ba” hoặc các nguyên nhân bên ngoài có thể xảy ra tạo ra mối liên hệ giữa hai vấn đề mặc dù thực chất cả hai đều là kết quả của yếu tố thứ ba.

Ví dụ, có thể tồn tại mối liên hệ giữa việc ăn ở nhà hàng và sức khỏe tim mạch tốt hơn. Điều đó sẽ khiến bạn tin rằng có một sự liên hệ giữa hai sự việc này.

Tuy nhiên, có thể nghĩ ngay rằng những người có khả năng ăn ở nhà hàng đều đặn là những người nằm trong nhóm có điều kiện kinh tế cao, và họ cũng có điều kiện để chăm sóc sức khoẻ tốt hơn, trong đó bao gồm cả việc chú ý đến sức khỏe tim mạch nhiều hơn.

Bạn có thể tránh được lỗi này bằng cách nhớ hãy suy nghĩ về tác động của các yếu tố thứ ba khi nhìn nhận về một mối tương quan nào đấy. Nếu bạn quan tâm đến một vấn đề như là một nguyên nhân có thể xảy ra, hãy tự hỏi mình “cái gì, trong hoàn cảnh nào, gây ra điều đó? Có phải yếu tố thứ ba có thể cùng gây ra cả hai kết quả quan sát được không?”.

7. Biểu đồ dễ gây ra sự nhầm lẫn

Rất nhiều mối nguy hại xảy ra trong việc chia giá trị/tỷ lệ và ghi nhãn ở trục tung đồ thị. Việc ghi nhãn chỉ ra phạm vi đầy đủ ý nghĩa của bất cứ điều gì bạn đang nghiên cứu.

Nhưng đôi khi người tạo ra đồ thị lựa chọn một phạm vi hẹp hơn, nhằm tạo sự khác biệt nhỏ hoặc làm rõ sự liên hệ hiệu quả hơn. Trên thang đo từ 0 đến 100, hai cột có thể có cùng chiều cao. Nhưng nếu bạn sử dụng đồ thị có nguồn dữ liệu tương tự nhưng vùng chỉ hiển thị từ 52.5 đến 56.5, chúng có thể trông hoàn toàn khác biệt.

Hình 4: Các đồ thị cho thấy sự khác nhau nhiều hay ít phụ thuộc vào việc chia tỷ lệ

Bạn có thể tránh được lỗi này bằng cách chú ý phần nhãn ghi dọc theo các trục của biểu đồ. Hãy hoài nghi về bất cứ đồ thị nào không ghi nhãn.

Nhung Phạm (dịch)

Nguồn: https://phys.org/news/2017-03-deadly-statistical-misinterpretation.html

———————-&&&———————-

Ứng dụng của 7 công cụ thống kê trong vấn đề sản xuất

Ứng dụng của 7 công cụ thống kê trong vấn đề sản xuất

(Nguồn: http://pms.edu.vn)

Một trong các nguyên tắc của quản lý hiện đại là các quyết định phải dựa trên dựa trên sự kiện, dữ liệu, không được quyết định dựa trên cảm tính. Muốn vậy cần phải thu thập, thống kê, phân tích các dữ liệu riêng lẻ thành những thông tin, sự kiện thể hiện bản chất của vấn đề, từ đó sẽ có cách giải quyết nó.
7 công cụ thống kê (seven tools) đã được người Nhật lựa chọn và ứng dụng rất thành công từ sau chiến tranh thế giới lần thứ II. Từ đó việc áp dụng chúng càng rộng rãi và phổ biến trên toàn thế giới từ cải tiến công nghệ, thay thế nguyên liệu đến kiểm soát chất lượng.

1

Tại các doanh nghiệp vừa và nhỏ ở Việt Nam, việc áp dụng các công cụ thống kê trong kiểm soát chất lượng rất hạn chế hoặc không biết áp dụng. Sử dụng một hoặc nhiều trong số 7 công cụ, mỗi doanh nghiệp có thể phân tích các yếu tố trong quá trình để xác định vấn đề. Giá trị của các công cụ thống kê ở chỗ, nó đem lại những công cụ đơn giản nhưng hữu hiệu. Chúng có thể được sử dụng một cách độc lập hoặc kết hợp để xác định chính xác những điểm bất thường, các điểm thiếu kiểm soát và giảm thiểu những tác động của chúng trong quá trình sản xuất, kinh doanh.

Tóm lại, việc sử dụng các công cụ thống kê trong kiểm soát chất lượng đảm bảo cho việc quản lý chất lượng có căn cứ thực tế và khoa học khi ra quyết định. Sử dụng các công cụ thống kế giúp giải thích được tình hình quản lý chất lượng một cách đúng đắn, phát hiện kịp thời các nguyên nhân gây lỗi để có biện pháp điều chỉnh thích hợp.

13(39)
Chính nhờ những hiệu quả của chúng nên việc sử dụng 7 công cụ thống kê trong kiểm soát chất lượng trở thành một nội dung không thể thiếu trong quản lý chất lượng của mỗi doanh nghiệp, 7 công cụ đề cập ở đây bao gồm:

  1. Phiếu kiểm tra (Check sheet): được sử dụng cho việc thu thập dữ liệu. Dữ liệu thu được từ phiếu kiểm tra là đầu vào cho các công cụ phân tích dữ liệu khác, do đó đây bước quan trọng quyết định hiệu quả sử dụng của các công cụ khác.
  2. Biểu đồ Pareto (Pareto chart): sử dụng các cột để minh họa các hiện tượng và nguyên nhân ảnh hưởng có tính đến tầm quan trọng của chúng đối với sản phẩm. Sử dụng biểu đồ này giúp cho quản lý biết được những nguyên nhân cần phải tập trung xử lý.
  3. Biểu đồ nhân quả (Cause-effect diagram): giúp liệt kê những nguyên nhân có thể có dẫn đến kết quả, từ đó giúp ra nguyên nhân của một vấn đề.
  4. Biểu đồ phân bố (Histogram): là một dạng của đồ thị cột trong đó các yếu tố biến động hay các dữ liệu đặc thù được chia thành các lớp hoặc thành các phần và được diễn tả như các cột với khoảng cách lớp được biểu thị qua đường đáy và tần suất biểu thị qua chiều cao. Biểu đồ dạng này được sử dụng để theo dõi sự phân bố thô của sản phẩm/quá trình, từ đó đánh giá được năng lực của quá trình đó, giúp phòng ngừa trước khi các vấn đề đó sảy ra.
  5. Biểu đồ kiểm soát (Control chart): là biểu đồ với các đường giới hạn đã được tính toán bằng phương pháp thống kê được sử dụng nhằm mục đích theo dõi sự biến động của các thông số về đặc tính chất lượng của sản phẩm, theo dõi những thay đổi của quy trình để kiểm soát tất cả các dấu hiệu bất thường xảy ra khi có dấu hiệu đi lên hoặc đi xuống của biểu đồ.
  6. Biểu đồ phân tán (Scatter diagram): Biểu đồ phân tán chỉ ra mối quan hệ giữa 2 biến trong phân tích bằng số, để giải quyết các vấn đề và xác định điều kiện tối ưu bằng cách phân tícḥ lượng mối quan hệ nhân quả giữa các biến số.
  7. Phương pháp phân vùng (Stratified diagram): Phân vùng thông thường để tìm ra nguyên nhân của khuyết tật.

Trong bối cảnh môi trường kinh tế cạnh tranh gay gắt hiện nay, bên cạnh việc đổi mới công nghệ, các doanh nghiệp, đặc biệt là các doanh nghiệp vừa và nhỏ cần chú trọng ứng dụng các công cụ quản lý để cải tiến, nâng cao năng suất chất lượng trong hoạt động sản xuất, kinh doanh. Vì đây là những công cụ hữu hiệu, đã được các doanh nghiệp của các nước phát triển như Nhật Bản Hàn Quốc, Mỹ … áp dụng và gặt hái được những thành công vượt trội về năng suất chất lượng.

——————-&&&——————-

Tuyên bố của ASA về ý nghĩa thống kê và trị số P

Tuyên bố của ASA về ý nghĩa thống kê và trị số P

(Nguồn: http://ibsgacademic.com)

Giới thiệu

Gia tăng định lượng trong nghiên cứu khoa học và phát triển các tập hợp dữ liệu lớn, phức tạp trong những năm gần đây đã mở rộng phạm vi ứng dụng của các phương pháp thống kê. Điều này đã tạo ra những hướng mới cho tiến bộ khoa học, nhưng nó cũng mang lại những lo ngại về kết luận rút ra từ dữ liệu nghiên cứu. Giá trị (validity) của kết luận khoa học, bao gồm cả khả năng tái lặp (reproducibility) của chúng, phụ thuộc nhiều hơn so với tự thân phương pháp thống kê. Các kỹ thuật thích hợp được lựa chọn, phân tích thực hiện đúng và giải thích chính xác của kết quả thống kê cũng đóng một vai trò quan trọng trong việc đảm bảo rằng kết luận là có cơ sở và sự không chắc chắn xung quanh chúng được trình bày một cách đúng đắn.

Làm cơ sở cho nhiều kết luận khoa học được công bố là khái niệm về “có ý nghĩa thống kê,” thường được đánh giá bằng một chỉ số được gọi là trị số p. Trong khi trị số p có thể là một phương pháp thống kê hữu ích, nó thường được sử dụng sai và hiểu sai. Điều này đã dẫn đến một số tạp chí khoa học không tán thành việc sử dụng trị số p, và một vài nhà khoa học và nhà thống kê đề nghị việc từ bỏ, với vài lập luận rằng không có thay đổi cơ bản nào kể từ khi trị số p lần đầu tiên được giới thiệu.

Trong văn bản này, Hiệp hội thống kê Mỹ (American Statistical Association, ASA) tin rằng cộng đồng khoa học có thể được hưởng lợi từ một tuyên bố chính thức làm sáng tỏ những nguyên tắc cơ bản được đồng thuận rộng rãi trong việc sử dụng thích hợp và giải thích trị số p. Các vấn đề được đưa ra ở đây không chỉ ảnh hưởng đến nghiên cứu, mà còn là kinh phí nghiên cứu, thực hành viết lách, phát triển nghề nghiệp, giáo dục khoa học, chính sách công, báo chí, và pháp luật. Tuyên bố này không tìm cách giải quyết tất cả các vấn đề liên quan đến thực hành thống kê cũng như những tranh cãi nền tảng. Thay vào đó, tuyên bố nêu rõ về một vài lựa chọn nguyên tắc phi kỹ thuật mà có thể cải thiện việc thực hiện hoặc diễn giải khoa học định lượng, theo sự đồng thuận rộng rãi trong cộng đồng thống kê.

Trị số p (P-value) là gì?

Một cách không chính thức, trị số p là xác suất theo một mô hình thống kê xác định và là một dữ liệu thống kê tóm tắt (ví dụ, sự khác biệt có ý nghĩa của mẫu giữa hai nhóm được so sánh) sẽ bằng hoặc cực đoan (extreme) hơn so với giá trị quan sát của nó.

Các nguyên tắc

  1. Trị số p có thể chỉ ra sự không tương thích các dữ liệu với một mô hình thống kê xác định ra sao.

Trị số p cung cấp một cách tiếp cận tổng hợp sự không tương thích giữa một tập hợp các dữ liệu và một mô hình đề xuất cho dữ liệu. Hình thức phổ biến nhất là một mô hình, được xây dựng theo một tập hợp các giả định, cùng với cái gọi là “giả thuyết không” (null hypothesis). Thường thì “giả thuyết không” mặc nhiên công nhận sự vắng mặt của một ảnh hưởng, chẳng hạn như không có sự khác biệt giữa hai nhóm, hoặc sự vắng mặt của mối quan hệ giữa các yếu tố và một kết quả. Trị số p càng nhỏ, sự không tương thích thống kê của các dữ liệu với các giả thuyết càng lớn, nếu các giả định cơ bản được sử dụng để tính toán trị số p nắm chắc. Sự không tương thích này có thể được hiểu như là sự kiểm định hoặc cung cấp bằng chứng chống lại “giả thuyết không” hoặc các giả định cơ bản.

  1. Trị số p không đo lường xác suất mà từ đó giả thuyết nghiên cứu là đúng, hoặc xác suất mà các dữ liệu đã được tạo ra bởi một sự xuất ngẫu nhiên một cách riêng lẻ.

Các nhà nghiên cứu thường muốn đưa trị số p vào tuyên bố về tính đúng đắn của một giả thuyết không, hoặc về xác suất mà sự xuất hiện ngẫu nhiên tạo ra các dữ liệu quan sát được. Trị số p không phải như vậy. Đó là một tuyên bố về dữ liệu liên quan với một sự diễn giải giả thuyết xác định, và không phải là một tuyên bố về sự diễn giải chính nó [giả thuyết].

  1. Các kết luận khoa học và quyết sách kinh tế hoặc chính sách không nên chỉ dựa vào trị số p vượt qua một ngưỡng cụ thể.

Những thực hành giảm bớt phân tích dữ liệu hoặc suy luận khoa học với các quy tắc “sáng tỏ” (Bright-line Rules) một cách máy móc (chẳng hạn như “p < 0.05”) để biện minh cho các tuyên bố hoặc kết luận khoa học có thể dẫn đến niềm tin sai lầm và việc đưa ra quyết định vô giá trị. Một kết luận không ngay lập tức trở thành “đúng” trên một mặt của sự phân chia và “sai” về mặt khác. Các nhà nghiên cứu nên mang nhiều yếu tố bối cảnh (contextual factor) vào nghiên cứu để truy tìm những kết luận khoa học, bao gồm các thiết kế nghiên cứu, chất lượng của các thang đo, các bằng chứng bên ngoài cho các hiện tượng được nghiên cứu, và tính hợp lệ của các giả định làm cơ sở cho việc phân tích dữ liệu. Những xem xét thực tế thường đòi hỏi tính nhị phân, quyết định “yes-no”, nhưng điều này không có nghĩa là trị số p riêng lẻ có thể đảm bảo rằng một quyết định là đúng hay sai. Việc sử dụng rộng rãi “ý nghĩa thống kê” (thường được hiểu là “p ≤ 0,05”) như một chứng thực để làm tuyên bố của một phát hiện khoa học (hay sự đúng đắn được ngầm hiểu) dẫn đến biến dạng đáng kể tiến trình khoa học.

  1. Suy luận hợp lý đòi hỏi tường trình đầy đủ và minh bạch

Trị số p và phân tích có liên quan không nên được báo cáo có chọn lọc. Tiến hành nhiều phân tích các dữ liệu và báo cáo chỉ với trị số p duy nhất (thường là vượt qua một ngưỡng quan trọng) ám chỉ rằng trị số p được báo cáo về cơ bản không thể sáng tỏ. Những kết quả đầy hứa hẹn do “lỗi suy luận” (Cherry-picking), còn được gọi bằng thuật ngữ như vét dữ liệu (data dreging), đuổi bắt ý nghĩa (significance chasing), truy vấn ý nghĩa (significance questing), suy luận có chọn lọc (selective inference) và “p-hacking” [tất cả các thuật ngữ này ám chỉ việc tìm mọi cách để đạt được p < 0.05], dẫn đến dư thừa giả tạo các kết quả có ý nghĩa về mặt thống kê trong các tài liệu được công bố và nên tránh một cách mạnh mẽ. Một nhu cầu không chính thức tiến hành nhiều kiểm định thống kê cho vấn đề này phát sinh: Bất cứ khi nào một nhà nghiên cứu chọn những gì để trình bày dựa trên kết quả thống kê, giải thích giá trị của những kết quả là bị tổn hại nghiêm trọng nếu người đọc không được thông báo về sự lựa chọn và cơ sở của nó. Các nhà nghiên cứu nên tiết lộ số lượng giả thuyết khám phá trong quá trình nghiên cứu, tất cả các quyết định thu thập dữ liệu, tất cả các phân tích thống kê được thực hiện và tất cả các trị số p được tính toán. Kết luận khoa học có giá trị dựa trên các trị số p và thống kê liên quan không thể được rút ra mà không biết ít nhất bao nhiêu phân tích được tiến hành, và làm thế nào những phân tích (bao gồm cả trị số p) đã được lựa chọn để báo cáo.

  1. Trị số p, hay ý nghĩa thống kê, không đo lường kích thước của một ảnh hưởng hoặc tầm quan trọng của kết quả.

Ý nghĩa thống kê không tương đương với ý nghĩa khoa học, con người, hoặc kinh tế. trị số p nhỏ hơn không nhất thiết phải bao hàm sự hiện diện của các ảnh hưởng lớn hơn hoặc quan trọng hơn, và trị số p lớn hơn không ám chỉ thiếu tầm quan trọng hoặc thậm chí không có ảnh hưởng. Bất kỳ tác động, dù nhỏ thế nào, có thể tạo ra một trị số p nhỏ nếu kích thước mẫu hoặc thang đo chính xác là đủ cao, và các ảnh hưởng lớn có thể tạo ra trị số p không mấy ấn tượng nếu kích thước mẫu nhỏ hoặc các thang đo là không chính xác. Tương tự như vậy, những tác động ước lượng giống hệt nhau sẽ có trị số p khác nhau nếu độ chính xác của các ước lượng khác nhau.

  1. Tự thân, trị số p không cung cấp một phép đo bằng chứng tốt về một mô hình hay giả thuyết.

Các nhà nghiên cứu nên nhận thấy rằng trị số p không kèm bối cảnh hoặc các bằng chứng khác thì cung cấp thông tin hạn chế. Ví dụ, một trị số p gần 0,05 đơn giản chỉ cung cấp bằng chứng yếu ớt bác bỏ giả thuyết không. Tương tự như vậy, một trị số p tương đối lớn không bao hàm bằng chứng ủng hộ giả thuyết không; nhiều giả thuyết khác có thể tương đương hoặc phù hợp hơn với các dữ liệu quan sát. Với những lý do này, phân tích dữ liệu không nên kết thúc với việc tính toán trị số p khi cách tiếp cận khác là phù hợp và khả thi.

Các phương pháp tiếp cận khác (Other approaches)

Theo quan điểm về sự lạm dụng thường xuyên và quan niệm sai lầm về trị số p, một số nhà thống kê có khuynh hướng bổ sung hoặc thậm chí thay thế trị số p với các cách tiếp cận khác. Chúng bao gồm các phương pháp nhấn mạnh tính toán qua thử nghiệm, chẳng hạn như khoảng tin cậy (confidence interval & credibility interval đều là khoảng tin cậy nhưng thuộc 2 trường phái thống kê khác nhau) hoặc khoảng dự báo (prediction interval); phương pháp Bayesian; các phép đo thay thế của bằng chứng, chẳng hạn như tỷ số  khả dĩ (likelihood ratio) hoặc các yếu tố Bayes; và các phương pháp khác như mô hình ra quyết định lý thuyết (decision-theoretic modeling) và tỷ lệ phát hiện sai (false discovery rate). Tất cả những phép đo và cách tiếp cận này dựa trên nhiều giả định hơn, nhưng chúng có thể tiếp cận trực tiếp hơn trong việc xác định kích thước của một ảnh hưởng (và sự không chắc chắn liên quan của nó) cho dù giả thuyết là đúng.

Kết luận

Thực hành thống kê tốt, như là một phần thiết yếu của thực hành khoa học tốt, nhấn mạnh nguyên tắc của thiết kế nghiên cứu và tiến hành tốt, một loạt các tóm tắt các dữ liệu dạng số và đồ họa, sự hiểu biết về các hiện tượng được nghiên cứu, giải thích kết quả trong bối cảnh, tường trình đầy đủ, hợp logic và hiểu biết định lượng của những gì tóm tắt dữ liệu có ý nghĩa. Không nên có chỉ số duy nhất nào thay thế cho lý luận khoa học.

Ghi nhận: Ban Điều hành ASA cảm ơn những người sau đây vì việc chia sẻ kinh nghiệm và quan điểm của mình trong sự phát triển bản tuyên bố. Tuyên bố không nhất thiết phản ánh quan điểm của tất cả những người này, và trong thực tế có một số quan điểm là đối lập với tất cả hoặc một phần của tuyên bố. Tuy nhiên, chúng tôi tri ân sâu sắc đối với những đóng góp của họ. Naomi Altman, Jim Berger, Yoav Benjamini, Don Berry, Brad Carlin, John Carlin, George Cobb, Marie Davidian, Steve Fienberg, Andrew Gelman, Steve Goodman, Sander Greenland, Guido Imbens, John Ioannidis, Valen Johnson, Michael Lavine, Michael Lew, Rod Little, Deborah Mayo, Chuck McCulloch, Michele Millar, Sally Morton, Regina Nuzzo, Hilary Parker, Kenneth Rothman, Don Rubin, Stephen Senn, Uri Simonsohn, Dalene Stangl, Philip Stark, Steve Ziliak.

Chuyển Ngữ: Vương Tuấn

Nguồn: ASA


Xem thêm: 10 hiểu lầm về trị số P trong khoa học

 

————————-&&&————————–

 

Độ tin cậy và Độ chính xác trong Nghiên cứu Định tính & Nghiên cứu Định lượng

Tìm hiểu Độ tin cậy và Độ chính xác trong Nghiên cứu Định tính

(Tác giả: Nahid Golafshani – Người dịch: Nguyễn Hoàng Mỹ Phương – Nguồn: http://sotaynghiencuu.blogspot.com)

Độ tin cậy và độ chính xác được sử dụng phổ biến trong nghiên cứu định lượng và giờ đây chúng đang được cân nhắc lại để sử dụng trong mẫuhình (paradigm) nghiên cứu định tính. Vì độ tin cậy và độ chính xác bắt nguồn từ quan điểm thực chứng (positivist perspective), do đó, chúng nênđược định nghĩa lại để sử dụng trong cách tiếp cận tự nhiên (naturalistic approach). Cũng giống n độ tin cậy và độ chính xác dùng trong nghiên cứu định lượng nhằm cung cấp bàn đạp để kiểm tra những gì mà hai thuật ngữ này muốn nói trong mẫu hình nghiên cứu định tính, kiểm tra chéo (triangulation) dùng trong nghiên cứu định lượng nhằm kiểm tra độ tin cậy và độ chính xác cũng có thể làm sáng tỏ một số cách để kiểm trahoặc tối đa hóa độ tin cậy và độ chính xác của nghiên cứu định tính. Do đó, độ tin cậy, độ chính xác và kiểm tra chéo, nếu chúng là những khái niệm nghiên cứu phù hợp, đặc biệt là từ góc nhìn định tính, phải được định nghĩa lại để phản ánh các cách phát hiện ra sự thật.

Từ khóa: Độ tin cậy, Độ chính xác, Kiểm tra chéo, Ý niệm (Construct), Định tính, và Định lượng

Bài viết này bàn về việc sử dụng độ tin cậy và độ chính xác trong mẫuhình nghiên cứu định tính. Đầu tiên sẽ thảo luận ý ​​nghĩa của nghiên cứu định lượng và định tính. Thứ hai, thảo luận độ tin cậy và độ chính xác dùng trong nghiên cứu định lượng như là bàn đạp để kiểm tra những gì mà hai thuật ngữ nàymuốn nói và cách chúng được kiểm tra trong mẫu hình nghiên cứu định tính. Bài viết kết luận bằng việc dùng kiểm tra chéo trong hai mẫu hình (định lượng và định tính) cho thấy những thay đổi này có ảnh hưởng như thế nào đến sự hiểu biết của chúng ta về độ tin cậy, độ chính xác và kiểm tra chéo trong các nghiên cứu định tính.

Nghiên cứu Định lượng là gì?

            Nhà nghiên cứu sử dụng nghiên cứu thực chứng logic hoặc nghiên cứuđịnh lượng sẽ dùng các phương pháp thí nghiệm (experimental methods) vàphương pháp định lượng để kiểm tra những giả thuyết được tổng quát hóa(Hoepfl, 1997), và họ cũng nhấn mạnh việc đo lường và phân tích mối quan hệnhân quả giữa các biến (Denzin và Lincoln, 1998). Để minh họa ý nghĩa củanghiên cứu định lượng trong việc giải thích các vấn đề xã hội, Bogdan và Biklen(1998) lưu ý:
Biểu đồ và đồ thị minh họa các kết quả của nghiên cứu, và các nhà bình luận dùng các từ như “biến”, “tổng thể” và “kết quả” như một phần từ vựng hàng ngày của họ… ngay cả khi chúng ta không bao giờ biết tất cảcác thuật ngữ này có nghĩa là gì …[nhưng] chúng ta biết rằng đây là một phần của quá trình nghiên cứu. Công trình nghiên cứu, sau đó sẽ được công bố rộng rãi, là một từ đồng nghĩa với nghiên cứu định lượng (tr.4).

Nghiên cứu định lượng cho phép người nghiên cứu làm quen với vấn đề hoặc khái niệm được nghiên cứu, và có thể tạo ra các giả thuyết sẽ được kiểm tra. Trong mẫu hình này: (1) nhấn mạnh vào sự kiện (facts) và nguyên nhân củahành vi (Bogdan & Biklen, 1998), (2) thông tin dưới dạng các con số có thểđược định lượng và tính toán, (3) phương pháp toán học là cách thức để phân tích các dữ liệu số và (4) kết quả cuối cùng được trình bày dưới dạng các thuật ngữ thống kê (Charles, 1995).

Nói chung, nghiên cứu định lượng “… được hỗ trợ bởi mẫu hình thực chứng hay mẫu hình khoa học, đưa chúng ta đến suy nghĩ rằng thế giới được tạobởi các sự kiện có thể quan sát, đo lường được” (Glesne & Peshkin, 1992, tr.6)mặc dù giả định cho rằng “sự kiện xã hội (social facts) là thực tại khách quan”và “các biến có thể… được xác định và các mối quan hệ có thể đo lường được”(tr.7) là có vấn đề. Khái niệm “đo lường” có nghĩa là tìm hiểu, chẳng hạn, vấn đề giáo dục bằng cách người quan sát sẽ thực hiện quá trình được gọi là “đo lường”thế giới vật chất (Crocker & Algina, 1986). Stevens (1946) định nghĩa đo lườnglà việc gán con số cho các đối tượng hoặc sự kiện theo nguyên tắc nào đó. Từcác định nghĩa này, ta có thể thấy đo lường nhất thiết phải khách quan, có thểđịnh lượng và có liên quan đến thống kê. Nói một cách đơn giản, đo lường là đang nói về các con số, dữ liệu khách quan.

Nhà nghiên cứu định lượng cố gắng phân chia và phân định hiện tượngthành các phạm trù (categories) phổ biến hoặc có thể đo lường được mà các loại này có thể được áp dụng cho tất cả các đối tượng hoặc tình huống tương tự hay mở rộng (Winter, 2000). Trong nỗ lực của mình, phương pháp của người nghiên cứu liên quan đến việc “sử dụng các biện pháp chuẩn sao cho các quan điểm và kinh nghiệm khác nhau của con người có thể đặt vừa vào một số giới hạn cácphạm trù tương ứng đã được xác định trước và được gán các con số” (Patton, 2001, tr.14 ). Ví dụ, một nhà nghiên cứu định lượng có thể chuẩn bị danh sách các hành vi sẽ được kiểm tra hoặc đánh giá bởi người quan sát bằng cách dùng lịch trình đã định trước hoặc con số (thang đo) như là công cụ trong phương pháp nghiên cứu của mình. Do đó, người nghiên cứu định lượng cần xây dựngcông cụ được quản lý bằng cách thức chuẩn hóa theo các thủ tục đã định trước.Nhưng câu hỏi đặt ra là công cụ đo lường có đo được những gì cần phải đo hay không. Theo nghĩa rộng nhất, ta sẽ tập trung vào việc kiểm tra (test) (Crocker &Algina, 1986) hoặc độ chính xác của công cụ. Tầm quan trọng của việc kiểm tra này là để đảm bảo khả năng nhân rộng hoặc lặp lại của kết quả.

Độ tin cậy  Độ chính xác trong Nghiên cứu Định lượng

            Độ tin cậy và độ chính xác là công cụ nhận thức cơ bản theo trường phái thực chứng

(Watling, theo Winter, 200, tr.7)

Độ tin cậy

Joppe (2000) định nghĩa độ tin cậy như sau:

… Mức độ mà tại đó kết quả không thay đổi theo thời gian và đại diện chính xác cho tổng thể được nghiên cứu được gọi là độ tin cậy và nếu kết quả nghiên cứu có thể được sao chép theo phương pháp luận tương tự,khi đó, công cụ nghiên cứu được xem là đáng tin cậy (tr.1).

Thể hiện trong trích dẫn này là ý tưởng nhân rộng hoặc lặp lại kết quả hoặc quan sát.

Kirk và Miller (1986) xác định ba kiểu độ tin cậy trong nghiên cứu định lượng: (1) mức độ mà tại đó phép đo vẫn giữ nguyên khi được lặp đi lặp lại; (2) sự ổn định của phép đo theo thời gian; và (3) sự giống nhau của các phép đo trong một khoảng thời gian nhất định (tr.41-42).

Charles (1995) vẫn bám vào ý tưởng cho rằng sự nhất quán – mà tại đócác mục [kiểm tra] trong bảng câu hỏi được trả lời hoặc điểm riêng lẻ vẫn còn tương đối giống nhau – có thể được xác định thông qua phương pháp kiểm tra-táikiểm tra (test-retest method) tại hai thời điểm khác nhau. Trên thực tế, thuộc tính này của công cụ được gọi là tính ổn định. Nếu chúng ta đang đề cập phép đo ổn định thì cũng nên đề cập tương tự đối với kết quả. Mức độ ổn định cao cho thấy mức độ tin cậy cao, có nghĩa là kết quả có thể lặp lại được. Joppe, (2000) phát hiện có vấn đề xảy ra đối với phương pháp kiểm tra-tái kiểm tra có thể làm cho công cụ không đáng tin cậy ở mức độ nào đó. Bà giải thích rằng phương pháp kiểm tra-tái kiểm tra có thể tùy thuộc vào cảm nhận của người trả lời đối với vấn đề mang tính chủ quan, và do đó ảnh hưởng đến các câu trả lời nhất định. Chúng ta không thể chắc chắn rằng những ảnh hưởng bên ngoài là không đổi, chẳng hạnnhư sự thay đổi của thái độ. Điều này có thể dẫn đến sự khác biệt trong các câu trả lời. Tương tự như vậy, Crocker và Algina (1986) lưu ý rằng khi người trả lờitrả lời một loạt các mục kiểm tra, số điểm thu được chỉ đại diện cho một mẫugiới hạn các hành vi. Kết quả là, điểm số có thể thay đổi bởi đặc trưng nào đócủa người trả lời, có thể dẫn đến sai sót trong đo lường. Những lỗi kiểu này sẽ làm giảm tính chính xác và tính nhất quán của công cụ và điểm kiểm tra. Do đó, trách nhiệm của người nghiên cứu là đảm bảo tính nhất quán và chính xác caocủa các bài kiểm ra và điểm số. Vì vậy, Crocker và Algina (1986) cho rằng, “người soạn bài kiểm tra có trách nhiệm trong việc trình bày độ tin cậy của điểm từ các bài kiểm tra của họ” (tr.106).

Mặc dù người nghiên cứu có thể chứng minh khả năng lặp lại và tínhnhất quán nội tại của công cụ nghiên cứu, và do đó, là độ tin cậy, bản thân công cụ có thể không được chấp nhận.

Độ chính xác

Các tiêu chuẩn truyền thống áp dụng cho độ chính xác có nguồn gốc từtruyền thống thực chứng, và ở chừng mực nào đó, trường phái chứng thực đượcđịnh nghĩa bởi lý thuyết về độ chính xác. Trong thuật ngữ thực chứng, độ chính xác nằm giữa, và là kết quả và đỉnh cao của các khái niệm kinh nghiệm khác – có thể kể một vài khái niệm đó như luật phổ quát, bằng chứng, khách quan, sự thật, thực tế, diễn dịch, suy luận, sự kiện và dữ liệu toán học (Winter, 2000).

Joppe (2000) đưa ra lời giải thích về độ chính xác trong nghiên cứu định lượng:

Độ chính xác xác định xem thực sự nghiên cứu có đo lường được cái mà nó dự định đo lường hay không hoặc tính chính xác của kết quả nghiên cứu như thế nào. Nói cách khác, công cụ nghiên cứu có cho phép bạn nhắm vào tâm điểm của đối tượng nghiên cứu hay không? Các nhà nghiên cứu nói chung xác định độ chính xác bằng cách hỏi một loạt các câu hỏi, và thường sẽ tìm kiếm câu trả lời trong các nghiên cứu của người khác (tr.1).

Wainer và Braun (1998) mô tả độ chính xác trong nghiên cứu định lượngnhư là “độ chính xác về ý niệm” (“construct validity”). Construct là khái niệm, ý tưởng, câu hỏi hoặc giả thuyết ban đầu dùng để xác định dữ liệu nào sẽ được thu thập và thu thập như thế nào. Họ cũng khẳng định rằng các nhà nghiên cứu định lượng tích cực sẽ gây ra hoặc ảnh hưởng đến sự tác động lẫn nhau giữa ý niệmvà dữ liệu để xác nhận công trình điều tra của họ, thường là bằng cách áp dụng bài kiểm tra hoặc quá trình khác. Theo ý nghĩa này, sự tham gia của các nhà nghiên cứu trong quá trình nghiên cứu sẽ làm giảm đáng kể độ chính xác của bài kiểm tra.

Các định nghĩa về độ tin cậy và độ chính xác trong phạm vi nghiên cứu định lượng cho thấy hai điểm: Thứ nhất, liên quan đến độ tin cậy, kết quả có thể nhân rộng hay không. Thứ hai, liên quan đến độ chính xác, phương tiện đolường có chính xác hay không và chúng đang thực sự đo lường cái mà chúng dự định đo lường hay không. Tuy nhiên, các khái niệm về độ tin cậy và độ chính xác dưới con mắt của nhà nghiên cứu định tính thì lại khác – họ khăng khăng cho rằng các khái niệm được định nghĩa về mặt định lượng này là chưa đầy đủ. Nói cách khác, các khái niệm được định nghĩa về mặt định lượng này có thể không áp dụng cho mẫu hình nghiên cứu định tính. Câu hỏi về khả năng nhân rộng kết quả không liên quan đến họ (Glesne & Peshkin, 1992), nhưng độ chính xác (Winter, 2000), độ tin cậy và khả năng chuyển giao (transferability) (Hoepf, 1997) cung cấp cách thức đánh giá kết quả của nghiên cứu định tính. Trong bối cảnh này, hai cách tiếp cận hay quan điểm nghiên cứu này cơ bản là các mẫuhình khác nhau (Kuhn, 1970).

Nghiên cứu Định tính là gì?

            Nghiên cứu định tính sử dụng cách tiếp cận tự nhiên (naturalistic approach) nhằm tìm hiểu các hiện tượng trong bối cảnh cụ thể, chẳng hạn như “thế giới thực [nơi] mà người nghiên cứu không cố gắng thao túng hiện tượngmà họ quan tâm (phenomenon of interest)” (Patton, 2001, tr.39). Nghiên cứu định tính, theo nghĩa rộng, có nghĩa là “bất kỳ loại nghiên cứu nào đưa ra các phát hiện không phải bằng phương pháp thống kê hoặc các phương pháp định lượng khác” (Strauss và Corbin, 1990, tr.17), thay vào đó, loại nghiên cứu này đưa ra các phát hiện từ bối cảnh thế giới thực nơi mà các “hiện tượng [mà họ] quan tâm phát triển một cách tự nhiên” (Patton, 2001, tr.39). Không giống nhưcác nhà nghiên cứu định lượng xác định nguyên nhân, dự đoán, và tổng quát hóacác phát hiện này, thay vào đó, các nhà nghiên cứu định tính làm sáng tỏ, tìmhiểu, và ngoại suy từ các tình huống tương tự (Hoepfl, 1997).

Phân tích định tính dẫn đến một loại kiến thức khác so với phân tích định lượng, vì một bên thì lập luận từ góc độ bản chất triết học nền tảng của mỗi mẫuhình, tận hưởng các cuộc phỏng vấn chi tiết và bên còn lại thì tập trung vào khả năng tương thích rõ ràng của các phương pháp nghiên cứu, “tận hưởng phần thưởng từ cả con số lẫn từ ngữ” (Glesne & Peshkin, 1992, tr.8). Điều này có nghĩa là các phương pháp chẳng hạn như phỏng vấn và quan sát chiếm ưu thếtrong mẫu hình (diễn giải) tự nhiên và bổ sung vào mẫu hình thực chứng (positive paradigm), nơi mà cuộc khảo sát được dùng theo mục đích ngược lại.Winter (2000) cho rằng trong khi các nhà nghiên cứu định lượng cố gắng táchbản thân mình ra khỏi quá trình nghiên cứu càng nhiều càng tốt thì các nhà nghiên cứu định tính lại chấp nhận sự tham gia và vai trò của họ trong nghiên cứu. Patton (2001) hỗ trợ ý tưởng về sự tham gia và “chìm” (immersion) vào nghiên cứu của người nghiên cứu bằng cách cho rằng thế giới thực có thể thay đổi và do đó, nhà nghiên cứu định tính nên có mặt trong những thay đổi này để ghi lại sự kiện trước và sau khi xảy ra thay đổi. Tuy nhiên, cả nhà nghiên cứuđịnh tính lẫn định lượng cần phải kiểm tra và chứng minh rằng nghiên cứu của họ là đáng tin cậy. Trong khi độ tin cậy trong nghiên cứu định lượng phụ thuộc vào việc xây dựng công cụ, thì trong nghiên cứu định tính, “các nhà nghiên cứu chính là công cụ” (Patton, 2001, tr.14). Vì vậy, có vẻ như khi các nhà nghiên cứuđịnh lượng nói đến độ chính xác và độ tin cậy của nghiên cứu, họ thường đề cậpđến một nghiên cứu nào đó là đáng tin cậy; trong khi độ tin cậy trong nghiên cứu định tính lại phụ thuộc vào khả năng và nỗ lực của người nghiên cứu. Mặc dù độ tin cậy và độ chính xác được xem xét riêng lẻ trong nghiên cứu định lượng, những thuật ngữ này lại không được xem riêng biệt trong nghiên cứu định tính. Thay vào đó, thuật ngữ này bao hàm cả, chẳng hạn như độ tin cậy, khả năng chuyển giao, và tính đáng tin cậy.

Độ tin cậy  Độ chính xác trong Nghiên cứu Định tính

            Để hiểu ý nghĩa của độ tin cậy và độ chính xác, thiết nghĩ cần phải trình bày các định nghĩa khác nhau về độ tin cậy và độ chính xác do nhiều nhà nghiên cứu định tính với các quan điểm khác nhau đưa ra.

Độ tin cậy

Mặc dù thuật ngữ “Độ tin cậy” là khái niệm dùng để kiểm tra hoặc đánh giá nghiên cứu định lượng nhưng ý tưởng này cũng thường được dùng trong tất cả các loại nghiên cứu. Nếu chúng ta xem ý tưởng kiểm tra là cách lấy thông tin thì sự kiểm tra quan trọng nhất của bất kỳ nghiên cứu định tính nào chính là chất lượng của nó. Một nghiên cứu định tính tốt có thể giúp chúng ta “hiểu được tình huống mà nếu không [có nó] sẽ khó hiểu hoặc mơ hồ” (Eisner, 1991, tr.58). Điều này lại liên quan đến khái niệm thế nào là một nghiên cứu định tính tốt khi mà độ tin cậy là khái niệm dùng để đánh giá chất lượng trong nghiên cứu định lượng với “mục đích giải thích” trong khi khái niệm chất lượng trong nghiên cứu định tính lại có mục đích “tạo ra sự hiểu biết/thông hiểu” (Stenbacka, 2001, tr.551). Sự khác biệt trong mục đích đánh giá chất lượng nghiên cứu trong định lượng và nghiên cứu định lượng là một trong những lý do mà khái niệm độ tin cậy là không thích hợp trong nghiên cứu định tính. Theo Stenbacka, (2001) “khái niệm độ tin cậy thậm chí còn gây hiểu lầm trong nghiên cứu định tính. Nếu độ tin cậy được xem là một tiêu chuẩn của nghiên cứu định tính, thì e là khá nhiều nghiên cứu sẽ không tốt” (tr.552).

Mặt khác, Patton (2001) cho rằng độ chính xác và độ tin cậy là hai yếu tốmà bất kỳ nhà nghiên cứu định tính nào cũng nên quan tâm trong khi thiết kếnghiên cứu, phân tích kết quả và đánh giá chất lượng nghiên cứu. Điều nàytương đương với câu hỏi “Làm thế nào người nghiên cứu có thể thuyết phụcđược rằng các phát hiện nghiên cứu của cuộc điều tra là đáng chú ý đến?”(Lincoln và Guba, 1985, tr.290). Để trả lời cho câu hỏi này, Healy và Perry(2000) khẳng định rằng chất lượng của một nghiên cứu trong mỗi mẫu hình nên được đánh giá bởi chính các thuật ngữ trong mẫu hình đó. Ví dụ, trong khi thuật ngữ Độ tin cậy và Độ chính xác là tiêu chí cần thiết để đánh giá chất lượng trongmẫu hình định lượng, thì trong mẫu hình định tính, các thuật ngữ Tính tin cậy(Credibility), Tính trung lập (Neutrality) hoặc Tính xác thực (Confirmability), Tính nhất quán (Consistency) hoặc Tính đáng tin (Dependability) và Khả năng áp dụng (Applicability) hoặc Khả năng chuyển giao (Transferability) phải là tiêu chí cần thiết để đánh giá chất lượng (Lincoln và Guba, 1985). Cụ thể hơn, vớithuật ngữ độ tin cậy trong nghiên cứu định tính, Lincoln và Guba (1985, tr.300) sử dụng “tính đáng tin” (“dependability”), trong nghiên cứu định tính thì từ nàyrất tương đồng với khái niệm “độ tin cậy” (“reliability”) trong nghiên cứu định lượng. Họ cũng nhấn mạnh “kiểm toán quá trình” (“inquiry audit”) (tr.317) là một trong những biện pháp có thể nâng cao tính đáng tin của nghiên cứu định tính. Biện pháp này có thể được dùng để kiểm tra tính nhất quán cho cả quá trìnhlẫn sản phẩm của nghiên cứu (Hoepfl, 1997). Trong bối cảnh đó, Clont (1992) vàSeale (1999) tán thành khái niệm tính đáng tin với khái niệm tính nhất quán hoặc độ tin cậy trong nghiên cứu định tính. Tính nhất quán của dữ liệu sẽ đạt được khicác bước nghiên cứu được xác nhận thông qua việc kiểm tra các mục như dữ liệu thô, sản phẩm thu nhỏ dữ liệu, và quá trình ghi chép (Campbell, 1996).

Để đảm bảo độ tin cậy trong nghiên cứu định tính, kiểm tra độ tin cậy là rất quan trọng. Seale (1999), trong khi phát hiện các nghiên cứu có chất lượng tốt thông qua độ tin cậy và độ chính xác trong nghiên cứu định tính, khẳng định rằng “tính đáng tin cậy của báo cáo nghiên cứu nằm ở trung tâm của các vấn đềthường được thảo luận – đó là độ chính xác và độ tin cậy” (tr.266). Khi đánh giá(kiểm tra) công trình nghiên cứu định tính, Strauss và Corbin (1990) cho rằng“tiêu chuẩn thông thường của “khoa học tốt”… đòi hỏi phải định nghĩa lại để phù hợp với thực tế của nghiên cứu định tính” (tr.250).

Ngược lại, Stenbacka (2001) lập luận rằng trong khi vấn đề độ tin cậy liên quan đến các phép đo lường thì nó lại không liên quan trong nghiên cứu định tính. Bà cho biết thêm vấn đề của độ tin cậy đó là việc không phù hợp trong đánh giá chất lượng của nghiên cứu định tính. Do đó, nếu nó được sử dụng thì khi đó “e rằng hậu quả là khá nhiều nghiên cứu không tốt” (tr.552).

Mở rộng phạm vi khái niệm hóa độ tin cậy và khám phá sự phù hợp củađộ tin cậy và dộ chính xác trong nghiên cứu định tính, Lincoln và Guba (1985)cho rằng: “Do không thể có độ chính xác mà không có độ tinh cậy, một sự chứng minh của khái niệm trước [độ chính xác] là đủ để thiết lập khái niệm sau [độ tin cậy]” (tr.316). Patton (2001) với mối quan tâm đến khả năng và kỹ năng của người nghiên cứu trong nghiên cứu định tính cũng cho rằng độ tin cậy là hệ quả của độ chính xác trong một nghiên cứu.

Độ chính xác

             Khái niệm độ chính xác được mô tả bằng một loạt các thuật ngữ trong nghiên cứu định tính. Khái niệm này không phải là một khái niệm duy nhất, cố định hoặc phổ quát mà là “khái niệm tùy thuộc (contingent construct), khôngtách khỏi nền tảng các quy trình và mục đích của phương pháp luận và dự ánnghiên cứu cụ thể” (Winter, 2000, tr.1). Mặc dù một số nhà nghiên cứu định tính đã lập luận rằng khái niệm độ chính xác không áp dụng cho nghiên cứu định tính, nhưng đồng thời, họ cũng nhận ra sự cần thiết phải có kiểu kiểm tra hoặc đo lường chất lượng nào đó cho nghiên cứu của mình. Ví dụ, Creswell & Miller (2000) cho rằng độ chính xác chịu ảnh hưởng bởi nhận thức của người nghiên cứu về độ chính xác trong nghiên cứu và sự lựa chọn giả định mẫu hình. Kết quả là, nhiều nhà nghiên cứu đã phát triển khái niệm riêng của họ về độ chính xác và thường tạo ra hoặc sử dụng những thuật ngữ mà họ cho là thích hợp hơn, chẳng hạn như chất lượng (quality), tính chặt chẽ (rigor) và tính đáng tin cậy(trustworthiness) (Davies & Dodd, 2002; Lincoln và Guba, 1985; Mishler, 2000; Seale, 1999; Stenbacka, 2001).

Thảo luận về chất lượng trong nghiên cứu định tính bắt nguồn từ mối quan tâm về độ chính xác và độ tin cậy trong truyền thống định lượng “liên quan đến việc thay thế thuật ngữ mới cho các từ chẳng hạn như độ chính xác và độ tin cậy nhằm phản ánh các khái niệm diễn giải [định tính]” (Seale, 1999, tr.465).

Stenbacka (2001) đã không bỏ qua vấn đề của độ chính xác trong nghiên cứu định tính như bà đã làm đối với vấn đề của độ tin cậy trong nghiên cứu định tính. Thay vào đó, bà lập luận rằng khái niệm độ chính xác nên được định nghĩa lại cho nghiên cứu định tính. Stenbacka (2001) mô tả khái niệm độ tin cậy như là một trong những khái niệm về chất lượng trong nghiên cứu định tính “cần phải được giải quyết nhằm xem một cuộc điều tra (study) như là một phần của nghiên cứu thích hợp” (tr.551).

Trong khi tìm kiếm ý nghĩa của tính chặt chẽ trong nghiên cứu, Davies và Dodd (2002) nhận thấy rằng khái niệm tính chặt chẽ trong nghiên cứu có liên quan đến thảo luận về độ tin cậy và độ chính xác. Davies và Dodd (2002) lập luận rằng việc áp dụng khái niệm tính chặt chẽ trong nghiên cứu định tính nênkhác với so với các khái niệm đó trong nghiên cứu định lượng bằng cách “chấp nhận rằng có sự thiên vị về mặt lượng trong khái niệm tính chặt chẽ, bây giờ chúng ta hãy đặt lại khái niệm tính chặt chẽ bằng cách khám phá tính chủ quan,tính phản hồi, và sự tương tác xã hội của phỏng vấn” (tr.281).

Lincoln và Guba (1985) lập luận rằng việc duy trì tính đáng tin cậy củabáo cáo nghiên cứu phụ thuộc vào các vấn đề, về mặt định lượng, như độ chính xác và độ tin cậy. Ý tưởng khám phá sự thật thông qua độ tin cậy và độ chính xác được thay thế bằng ý tưởng tính đáng tin cậy (Mishler, 2000) – “có thể được bảo vệ” (“defensible”) (Johnson 1997, tr.282) và thiết lập sự tự tin trong các phát hiện (Lincoln và Guba, 1985).

Nếu các vấn đề của độ tin cậy, độ chính xác, tính đáng tin cậy, chất lượng và tính chặt chẽ là nhằm tạo nên sự khác biệt giữa nghiên cứu “tốt” và nghiên cứu “tồi” thì kiểm tra và tăng độ tin cậy, độ chính xác, tính đáng tin cậy, chất lượng và tính chặt chẽ là rất quan trọng đối với công trình nghiên cứu trong bất kỳ mẫu hình nào.

Kiểm tra Độ chính xác và Độ tin cậy

            Đến đây, đã trình bày xong khái niệm (đã được định nghĩa lại) về độ tin cậy và độ chính xác phù hợp với tính hữu dụng của chúng trong nghiên cứu định tính. Bây giờ, vẫn còn một câu hỏi đang chờ câu trả lời “Làm thế nào để kiểm tra hoặc tối đa hóa độ chính xác, và kết quả là độ tin cậy, của một nghiên cứu định tính?”

Nếu độ chính xác hoặc tính đáng tin cậy có thể được tối đa hóa hoặckiểm tra thì khi đó “kết quả đáng tin cậy và có thể được bảo vệ” nhiều hơn(Johnson, 1997, tr.283) có thể dẫn đến khả năng khái quát hóa – một trong nhữngkhái niệm được đề xuất bởi Stenbacka (2001) làm cấu trúc cho cả việc thực hiện và lưu trữ nghiên cứu định tính chất lượng cao. Vì vậy, chất lượng nghiên cứu có liên quan đến việc khái quát hóa kết quả và do đó liên quan đến việc kiểm tra và gia tăng độ chính xác hoặc tính đáng tin cậy của nghiên cứu.

Ngược lại, Maxwell (1992) quan sát thấy rằng mức độ mà kết quả (account) được khái quát hóa là yếu tố phân biệt rõ giữa phương pháp nghiên cứu định lượng và định tính. Mặc dù khả năng khái quát hóa các phát hiện cho các nhóm và hoàn cảnh lớn hơn là một trong những bài kiểm tra độ chính xác phổ biến nhất đối với nghiên cứu định lượng, nhưng Patton (2001) cho rằng khả năng khái quát hóa là một trong các tiêu chí chất lượng của các nghiên cứutrường hợp (case studies) tùy thuộc vào trường hợp được lựa chọn và nghiên cứu. Theo cách hiểu này, độ chính xác trong nghiên cứu định lượng là rất cụ thể đối với bài kiểm tra áp dụng độ chính xác – bài kiểm tra cũng là nơi mà các phương pháp kiểm tra chéo dùng trong nghiên cứu định tính. Kiểm tra chéo(triangulation) là chiến lược (kiểm tra) điển hình nhằm nâng cao độ chính xác vàđộ tin cậy của nghiên cứu hoặc đánh giá các phát hiện. Mathison (1988) trình bày chi tiết:

Kiểm tra chéo đang nổi lên thành vấn đề quan trọng liên quan đến phương pháp luận trong cách tiếp cận tự nhiên và định tính đối với việcđánh giá [nhằm] kiểm soát sự thiên lệch (bias) và thiết lập các mệnh đềhợp lý vì kỹ thuật khoa học truyền thống không phù hợp với nhận thức luận (epistemology) thay thế này (tr.13).

Patton (2001) ủng hộ việc dùng kiểm tra chéo bởi “kiểm tra chéo giúp nghiên cứu hiệu quả hơn bằng cách kết hợp nhiều phương pháp. Điều này có nghĩa là dùng một số kiểu phương pháp hoặc dữ liệu, bao gồm cả phương pháp định lượng lẫn định tính” (tr.247). Tuy nhiên, Barbour (1998) nghi ngờ ý ​​tưởng kết hợp các phương pháp này. Bà lập luận trong khi mẫu hình kết hợp là có thể nhưng phương pháp kết hợp trong một mẫu hình, chẳng hạn như nghiên cứu định tính, là có vấn đề vì mỗi phương pháp trong mẫu hình định tính có giả định riêng của nó “về khung lý thuyết mà chúng ta tập trung để đạt mục tiêu nghiên cứu” (tr.353). Mặc dù kiểm tra chéo được dùng trong mẫu hình định lượng để xác nhận và tổng quát hóa nghiên cứu, Barbour (1998) không bỏ qua khái niệm kiểm tra chéo trong mẫu hình định tính và bà cho rằng cần thiết phải định nghĩa kiểm tra chéo dưới góc độ nghiên cứu định tính trong từng mẫu hình. Ví dụ, kiểm tra chéo nhiều nguồn dữ liệu trong nghiên cứu định lượng, bất kỳ ngoại lệnào cũng có thể dẫn đến việc không khẳng định (disconfirmation) giả thuyếttrong khi các ngoại lệ trong nghiên cứu định tính được xử lý để điều chỉnh các lý thuyết và đạt kết quả.

Theo quan điểm này, Healy và Perry (2000) lý giải về việc đánh giá độ chính xác và độ tin cậy trong mẫu hình hiện thực (realism paradigm) mà mẫu hình này dựa trên các quan niệm về một thực tại duy nhất. Họ lập luận về sự tiến hành kiểm tra chéo nhiều nguồn dữ liệu và diễn giải của họ về các quan niệm đó trong mẫu hình hiện thực.

Một mẫu hình khác trong nghiên cứu định tính là thuyết kiến tạo(constructivism) vốn xem kiến thức được xây dựng dựa trên tương tác xã hội vàcó thể thay đổi tùy thuộc vào hoàn cảnh. Crotty (1998) định nghĩa thuyết kiến tạo từ góc nhìn xã hội “quan điểm cho rằng tất cả kiến thức, và do đó tất cả thực tại có ý nghĩa theo cách đó, dựa trên hoạt động của con người, được xây dựngtrong và ngoài mối tương tác giữa con người và thế giới của họ, và được phát triển và lan truyền trong bối cảnh xã hội cơ bản” (tr.42). Trong bất kỳ nghiên cứu định tính nào, mục đích đều là “tham gia vào nghiên cứu nhằm cố gắng tìm hiểu để có được sự hiểu biết sâu sắc hơn chứ không phải là kiểm tra các đặc tính hời hợt” (Johnson, 1995, tr.4) và thuyết kiến tạo có thể tạo điều kiện để đạt đượcmục tiêu đó. Khái niệm kiến tạo, nghĩa là thực tại đang thay đổi cho dù người quan sát có muốn hay không (HIPPS, 1993), là dấu hiệu của nhiều thực tại hoặc đa dạng kết cấu có thể có của thực tại. Thuyết kiến tạo đánh giá các thực tại mà mọi người có trong tâm trí của mình. Vì vậy, để có được nhiều và đa dạng cácthực tại chính xác và đáng tin cậy, đòi hỏi phải có nhiều phương pháp tìm kiếm hay thu thập dữ liệu. Nếu điều này dẫn đến áp dụng kiểm tra chéo trong mẫuhình kiến tạo, thì dùng kiểm tra chéo để kiểm tra người nghiên cứu, phương pháp và dữ liệu để ghi nhận kết cấu của thực tại là thích hợp (Johnson, 1997). Một quan điểm mở trong thuyết kiến tạo gắn với ý tưởng kiểm tra chéo dữ liệubằng cách cho phép người tham gia trong một nghiên cứu hỗ trợ các nhà nghiên cứu trong câu hỏi nghiên cứu cũng như trong việc thu thập dữ liệu. Áp dụngnhiều phương pháp, chẳng hạn như quan sát, phỏng vấn và ghi âm sẽ dẫn đến kết quả là kết cấu của thực tại sẽ chính xác, đáng tin cậy và đa dạng hơn. Để nâng cao sự phân tích và hiểu biết kết cấu của các thực tại khác, các nhà nghiên cứunên thực hiện kiểm tra chéo để có thể tham gia cùng với nhiều nhà điều tra hoặc tham khảo diễn giải dữ liệu của các nhà nghiên cứu đồng đẳng tại thời điểm hoặc địa điểm khác nhau. Tương tự, nhà nghiên cứu định tính có thể “sử dụng kiểm tra chéo để kiểm tra người thực hiện điều tra và xem xét các ý tưởng và lời giải thích được tạo ra bởi các nhà nghiên cứu bổ sung đang nghiên cứu người tham gia cuộc nghiên cứu” (Johnson, 1997, tr.284).

Kiểm tra chéo có thể bao gồm các phương pháp thu thập dữ liệu và phân tích dữ liệu, nhưng không đề xuất một phương pháp cố định nào áp dụng cho tất cả các nghiên cứu. Các phương pháp được lựa chọn trong kiểm tra chéo để kiểm tra độ chính xác và độ tin cậy của một nghiên cứu phụ thuộc vào tiêu chí của nghiên cứu.

Hiểu biết của Chúng ta

            Từ thảo luận nói trên, sự kết hợp giữa mẫu hình định lượng với nghiên cứu định tính thông qua độ chính xác và độ tin cậy đã thay đổi hiểu biết của chúng ta về ý nghĩa truyền thống của độ tin cậy và độ chính xác từ góc nhìn của nhà nghiên cứu định tính. Độ tin cậy và độ chính xác được định nghĩa là tính đáng tin cậy (trustworthiness), tính chặt chẽ (rigor) và chất lượng (quality) trongmẫu hình định tính. Cũng thông qua sự kết hợp này, cách thức để đạt được độ chính xác và độ tin cậy sẽ chịu ảnh hưởng bởi quan điểm của nhà nghiên cứuđịnh tính – đó là quan điểm mong muốn loại bỏ sự thiên lệch (bias) và tăng tính trung thực của người nghiên cứu đối với ý tưởng về một hiện tượng xã hội nào đó (Denzin, 1978), sự loại bỏ này sẽ thực hiện qua việc sử dụng kiểm tra chéo. Khi đó kiểm tra chéo được định nghĩa là “các thủ tục hợp lý giúp nhà nghiên cứutìm kiếm sự hội tụ giữa nhiều và đa dạng các nguồn thông tin để hình thành nênchủ đề hay các phạm trù (categories) trong nghiên cứu” (Creswell & Miller, 2000, tr.126).

Do đó, độ tin cậy, độ chính xác và kiểm tra chéo, nếu chúng là các khái niệm nghiên cứu phù hợp, đặc biệt là từ góc nhìn định tính, phải được định nghĩa lại như chúng ta đã thấy để phản ánh nhiều cách thức phát hiện ra sự thật.

References

Babour, R. S. (1998). Mixing qualitative methods: Quality assurance or qualitative quagmire?       Qualitative Health Research, 8(3), 352-361.

Bogdan, R. C. & Biklen, S. K. (1998). Qualitative research in education: An introduction to          theory and methods (3rd ed.). Needham Heights, MA: Allyn & Bacon.

Campbell, T. (1996). Technology, multimedia, and qualitative research in education. Journal of     Research on Computing in Education, 30(9), 122-133.

Charles, C. M. (1995). Introduction to educational research (2nd ed.). San Diego, Longman.

Clont, J. G. (1992). The concept of reliability as it pertains to data from qualitative studies.             Paper Presented at the annual meeting ofthe South West Educational Research Association. Houston, TX.

Creswell, J. W. & Miller, D. L. (2000). Determining validity in qualitative inquiry. Theory into      Practice, 39(3), 124-131.

Crocker, L., & Algina, J. (1986). Introduction to classical and modern test theory. Toronto: Holt,   RineHart, and Winston, Inc.

Davies, D., & Dodd, J. (2002). Qualitative research and the question of rigor. Qualitative Health research, 12(2), 279-289.

Denzin, N. K. (1978). The research act: A theoretical introduction to sociological methods. New   York: McGraw-Hill.

Denzin, N. K., & Lincoln, Y. S. Eds.). (1998). The landscape of qualitative research: Theories      and issues. Thousand Oaks: Sage Publications.

Denzin, N. K., & Lincoln, Y. S. (1998) (Eds). Collecting and interpreting qualitative materials.     Thousand Oaks: Sage Publication.

Eisner, E. W. (1991). The enlightened eye: Qualitative inquiry and the enhancement of       educational practice. New York, NY: Macmillan Publishing Company.

Glesne, C., & Peshkin, P. (1992). Becoming qualitative researches: An introduction. New York,    NY: Longman.

Healy, M., & Perry, C. (2000). Comprehensive criteria to judge validityand reliability of    qualitative research within the realism paradigm. Qualitative Market Research, 3(3), 118-          126.

Hoepfl, M. C. (1997). Choosing qualitative research: A primer for technology education    researchers. Journal of Technology Education, 9(1), 47-63. Retrieved February 25, 1998,    from http://scholar.lib.vt.edu/ejournals/JTE/v9n1/pdf/hoepfl.pdf

Hipps, J. A. (1993). Trustworthiness and authenticity: Alternate ways to judge authentic     assessments. Paper presented at the annual meeting of the American Educational          Research Association. Atlanta, GA.

Johnson, B. R. (1997). Examining the validity structure of qualitativeresearch. Education,             118(3), 282-292.

Johnson, S. D. (1995, Spring). Will our research hold upunder scrutiny? Journal of Industrial        Teacher Education, 32(3), 3-6.

Joppe, M. (2000).  The Research Process.  Retrieved February 25, 1998, from             http://www.ryerson.ca/~mjoppe/rp.htm

Kirk, J., & Miller, M. L. (1986). Reliability and validity in qualitative research. Beverly Hills:         Sage Publications.

Lincoln, Y. S., & Guba, E. G. (1985). Naturalistic inquiry. Beverly Hills, CA: Sage.

Mathison, S. (1988). Why triangulate? Educational Researcher, 17(2), 13-17.

Maxwell, J. A. (1992). Understanding and validity in qualitative research. Harvard Educational   Review, 62(3), 279-300

Patton, M. Q. (2002). Qualitative evaluation and research methods (3rd ed.). Thousand Oaks,       CA: Sage Publications, Inc.

Seale, C. (1999). Quality in qualitative research. Qualitative Inquiry, 5(4), 465-478.

Stenbacka, C. (2001). Qualitative research requires quality concepts of its own. Management        Decision,  39(7), 551-555

Strauss, A., & Corbin, J. (1990). Basics of qualitative research: Grounded theoryprocedures         and techniques. Newbury Park, CA: Sage Publications, Inc.

Wainer, H., & Braun, H. I. (1988). Test validity. Hilldale, NJ: Lawrence Earlbaum Associates.

Winter, G. (2000). A comparative discussion of the notion of validity in qualitative and    quantitative research. The Qualitative Report, 4(3&4). Retrieved February 25, 1998, from        http://www.nova.edu/ssss/QR/QR4-3/winter.html

Author’s Note

Nahid Golafshani is a doctoral student in the department of Curriculum, Teaching and Learning at the Ontario Institute for Studying Education\University of Toronto where she learns and gains experiences by working with the diverse group of students and faculties. Her area of specialization is Mathematics Education. Her researches include multicultural teaching and learning, teachers’ beliefs, and problem-based mathematics learning and learning. Ms. Golafshani may be contacted at Ontario Institute for Studying Education\University of Toronto Curriculum,Teaching and Learning, 252 Bloor Street West, Toronto, Ontario, Canada M5S 1V6; Telephone: 519-747-4559; Fax Telephone: (253) 322-8961; E-mail: ngolafshani@oise.utoronto.ca

Copyright 2003: Nahid Golafshani and Nova Southeastern University

Author’s Citation

Golafshani, N. (2003). Understanding reliability and validity in qualitative research. The   Qualitative Report, 8(4), 597-606. Retrieved [Insert date], from:           http://www.nova.edu/ssss/QR/QR8-4/golafshani.pdf

——————–&&&—————-