Bảy sai lầm chết người khi hiểu sai về thống kê và cách tránh chúng

Bảy sai lầm chết người khi hiểu sai về thống kê và cách tránh chúng

(Nguồn: http://vienthongke.vn)

Thống kê là một công cụ hữu ích để tìm hiểu về các mô hình trong thế giới xung quanh chúng ta. Nhưng sự hiểu biết bằng trực giác thường khiến chúng ta dễ dãi hơn khi giải thích những mô hình đó. Trong bài viết này, chúng tôi sẽ chỉ ra một số sai lầm phổ biến thường mắc phải và cách tránh chúng khi đề cập đến số liệu thống kê, xác suất và rủi ro.

1. Giả sử những khác biệt nhỏ là có ý nghĩa

Các biến động hàng ngày trên thị trường chứng khoán biểu thị cho cơ hội, may rủi hơn là một điều gì đó có ý nghĩa. Sự khác biệt trong các cuộc thăm dò ý kiến khi một bên (mã cổ phiếu) vượt lên một hoặc hai điểm thường chỉ là thông tin nhiễu trong thống kê.

Bạn có thể tránh đưa ra các kết luận sai lầm về nguyên nhân của các biến động, bằng cách yêu cầu được xem “phạm vi sai số” liên quan đến các số liệu.

Nếu những khác biệt nhỏ hơn phạm vi sai số, đó là sự khác biệt không có ý nghĩa, và sự biến thiên có thể chỉ là các biến động ngẫu nhiên.

2. Ý nghĩa thống kê tương đương với ý nghĩa thực tế

Chúng ta thường khái quát hóa về sự khác biệt giữa hai nhóm như thế nào, chẳng hạn như thể lực phụ nữ thường yếu hơn so với nam giới.

Những khác biệt này thường dựa trên những định kiến và kinh nghiệm dân gian, nhưng lại bỏ qua sự tương đồng của những người giữa hai nhóm, và những khác biệt của những người trong cùng một nhóm.

Nếu bạn chọn ngẫu nhiên hai người đàn ông, có thể có khá nhiều khác sự biệt giữa họ về mặt thể lực. Nếu bạn chọn một người đàn ông và một phụ nữ, có thể hai người được nuôi dưỡng tương tự nhau, hoặc có thể người đàn ông được nuôi dưỡng tốt hơn người phụ nữ.

Hình 1: Các biểu đồ sai số minh họa mức độ không chắc chắn trong một điểm. Khi phạm vi sai số trùng nhau, sự khác biệt có thể là do thông tin nhiễu trong thống kê.

Bạn có thể tránh được lỗi này bằng cách hỏi về “hệ số ảnh hưởng” của những sự khác biệt giữa các nhóm. Đây là công cụ đo lường sự khác nhau về mức độ trung bình giữa hai nhóm.

Nếu hệ số ảnh hưởng nhỏ, thì có thể đưa ra kết luận là hai nhóm khá tương đồng. Ngay cả khi hệ số ảnh hưởng lớn, vẫn có nhiều cá thể tương đồng giữa hai nhóm, không phải tất cả thành viên của nhóm này đều sẽ khác biệt với tất cả thành viên của nhóm khác.

3. Không chú ý đến các điểm cực trị

Mặt khác, hệ số ảnh hưởng có liên quan khi bạn tập trung vào “phân phối chuẩn” (còn được gọi là “đường cong hình chuông”). Đây là vùng mà hầu hết mọi giá trị đều ở gần điểm trung bình và chỉ có một nhóm nhỏ nằm ở trên hoặc dưới mức trung bình.

Khi điều này xảy ra, một thay đổi nhỏ trong hoạt động của nhóm tạo ra sự bất thường, không có ảnh hưởng đến nhóm người ở mức trung bình (xem hình 2) nhưng lại tác động đến các giá trị ở những điểm cực trị rất lớn.

Chúng ta có thể tránh lỗi này bằng cách nhìn lại việc chúng ta có xem xét các điểm cực trị hay không. Khi bạn chỉ quan tâm đến nhóm người ở mức trung bình, sự khác biệt nhóm nhỏ thường không thành vấn đề. Khi bạn quan tâm đến các điểm cực trị, sự khác biệt nhóm nhỏ có thể trở nên rất quan trọng.

Hình 2: Trong hai tổng thể phân phối chuẩn, sự khác biệt giữa chúng sẽ rõ ràng hơn ở những điểm cực trị so với điểm trung bình.

4. Tin vào sự trùng hợp ngẫu nhiên

Bạn có biết rằng có sự tương quan giữa số người bị chết đuối mỗi năm tại Hoa Kỳ do ngã vào bể bơi và số lượng phim mà Nicholas Cage xuất hiện?

Nếu bạn đủ kiến thức bạn có thể tìm ra sự thú vị của mô hình về mối tương quan này, thực ra chỉ đơn thuần là do sự trùng hợp ngẫu nhiên.

Điều này xảy ra khi hai hiện tượng diễn ra cùng thời điểm, hoặc trong cùng một mô hình tương đồng nhau, không có nghĩa là chúng có liên quan đến nhau.

Tránh lỗi này bằng cách tìm hiểu mức độ liên kết quan sát được giữa các vấn đề có đáng tin cậy hay không. Nó chỉ xảy ra một lần hay diễn ra nhiều lần? Các mối liên hệ có thể dự đoán được trong tương lai không? Nếu bạn nhận thấy nó chỉ xảy ra một lần duy nhất, thì đó là sự tình cờ ngẫu nhiên.

Hình 3: Có tồn tại mối liên hệ nhân quả?

5. Xem xét ngược lại các nguyên nhân

Khi hai sự việc tương quan với nhau – ví dụ, các vấn đề về tình trạng thất nghiệp và bệnh tâm thần – có thể khiến chúng ta liên tưởng đến lối suy nghĩ nhân quả “hiển nhiên” là – hậu quả của bệnh tâm thần chính là tình trạng thất nghiệp.

Nhưng đôi khi mối quan hệ nhân quả xảy ra theo một cách khác, chẳng hạn như tình trạng thất nghiệp mới dẫn đến các vấn đề về sức khoẻ tâm thần.

Bạn có thể tránh được lỗi này bằng cách nhớ suy nghĩ về hướng ngược lại trong mối quan hệ nhân quả, khi bạn thấy một mối liên hệ xảy ra. Liệu ảnh hưởng có đi theo hướng khác không? Hoặc chúng có tác động lẫn nhau, tạo ra một vòng lặp thông tin phản hồi?

6. Bỏ quên việc đánh giá các nguyên nhân bên ngoài

Mọi người thường bỏ qua không đánh giá “các yếu tố thứ ba” hoặc các nguyên nhân bên ngoài có thể xảy ra tạo ra mối liên hệ giữa hai vấn đề mặc dù thực chất cả hai đều là kết quả của yếu tố thứ ba.

Ví dụ, có thể tồn tại mối liên hệ giữa việc ăn ở nhà hàng và sức khỏe tim mạch tốt hơn. Điều đó sẽ khiến bạn tin rằng có một sự liên hệ giữa hai sự việc này.

Tuy nhiên, có thể nghĩ ngay rằng những người có khả năng ăn ở nhà hàng đều đặn là những người nằm trong nhóm có điều kiện kinh tế cao, và họ cũng có điều kiện để chăm sóc sức khoẻ tốt hơn, trong đó bao gồm cả việc chú ý đến sức khỏe tim mạch nhiều hơn.

Bạn có thể tránh được lỗi này bằng cách nhớ hãy suy nghĩ về tác động của các yếu tố thứ ba khi nhìn nhận về một mối tương quan nào đấy. Nếu bạn quan tâm đến một vấn đề như là một nguyên nhân có thể xảy ra, hãy tự hỏi mình “cái gì, trong hoàn cảnh nào, gây ra điều đó? Có phải yếu tố thứ ba có thể cùng gây ra cả hai kết quả quan sát được không?”.

7. Biểu đồ dễ gây ra sự nhầm lẫn

Rất nhiều mối nguy hại xảy ra trong việc chia giá trị/tỷ lệ và ghi nhãn ở trục tung đồ thị. Việc ghi nhãn chỉ ra phạm vi đầy đủ ý nghĩa của bất cứ điều gì bạn đang nghiên cứu.

Nhưng đôi khi người tạo ra đồ thị lựa chọn một phạm vi hẹp hơn, nhằm tạo sự khác biệt nhỏ hoặc làm rõ sự liên hệ hiệu quả hơn. Trên thang đo từ 0 đến 100, hai cột có thể có cùng chiều cao. Nhưng nếu bạn sử dụng đồ thị có nguồn dữ liệu tương tự nhưng vùng chỉ hiển thị từ 52.5 đến 56.5, chúng có thể trông hoàn toàn khác biệt.

Hình 4: Các đồ thị cho thấy sự khác nhau nhiều hay ít phụ thuộc vào việc chia tỷ lệ

Bạn có thể tránh được lỗi này bằng cách chú ý phần nhãn ghi dọc theo các trục của biểu đồ. Hãy hoài nghi về bất cứ đồ thị nào không ghi nhãn.

Nhung Phạm (dịch)

Nguồn: https://phys.org/news/2017-03-deadly-statistical-misinterpretation.html

———————-&&&———————-

Ứng dụng của 7 công cụ thống kê trong vấn đề sản xuất

Ứng dụng của 7 công cụ thống kê trong vấn đề sản xuất

(Nguồn: http://pms.edu.vn)

Một trong các nguyên tắc của quản lý hiện đại là các quyết định phải dựa trên dựa trên sự kiện, dữ liệu, không được quyết định dựa trên cảm tính. Muốn vậy cần phải thu thập, thống kê, phân tích các dữ liệu riêng lẻ thành những thông tin, sự kiện thể hiện bản chất của vấn đề, từ đó sẽ có cách giải quyết nó.
7 công cụ thống kê (seven tools) đã được người Nhật lựa chọn và ứng dụng rất thành công từ sau chiến tranh thế giới lần thứ II. Từ đó việc áp dụng chúng càng rộng rãi và phổ biến trên toàn thế giới từ cải tiến công nghệ, thay thế nguyên liệu đến kiểm soát chất lượng.

1

Tại các doanh nghiệp vừa và nhỏ ở Việt Nam, việc áp dụng các công cụ thống kê trong kiểm soát chất lượng rất hạn chế hoặc không biết áp dụng. Sử dụng một hoặc nhiều trong số 7 công cụ, mỗi doanh nghiệp có thể phân tích các yếu tố trong quá trình để xác định vấn đề. Giá trị của các công cụ thống kê ở chỗ, nó đem lại những công cụ đơn giản nhưng hữu hiệu. Chúng có thể được sử dụng một cách độc lập hoặc kết hợp để xác định chính xác những điểm bất thường, các điểm thiếu kiểm soát và giảm thiểu những tác động của chúng trong quá trình sản xuất, kinh doanh.

Tóm lại, việc sử dụng các công cụ thống kê trong kiểm soát chất lượng đảm bảo cho việc quản lý chất lượng có căn cứ thực tế và khoa học khi ra quyết định. Sử dụng các công cụ thống kế giúp giải thích được tình hình quản lý chất lượng một cách đúng đắn, phát hiện kịp thời các nguyên nhân gây lỗi để có biện pháp điều chỉnh thích hợp.

13(39)
Chính nhờ những hiệu quả của chúng nên việc sử dụng 7 công cụ thống kê trong kiểm soát chất lượng trở thành một nội dung không thể thiếu trong quản lý chất lượng của mỗi doanh nghiệp, 7 công cụ đề cập ở đây bao gồm:

  1. Phiếu kiểm tra (Check sheet): được sử dụng cho việc thu thập dữ liệu. Dữ liệu thu được từ phiếu kiểm tra là đầu vào cho các công cụ phân tích dữ liệu khác, do đó đây bước quan trọng quyết định hiệu quả sử dụng của các công cụ khác.
  2. Biểu đồ Pareto (Pareto chart): sử dụng các cột để minh họa các hiện tượng và nguyên nhân ảnh hưởng có tính đến tầm quan trọng của chúng đối với sản phẩm. Sử dụng biểu đồ này giúp cho quản lý biết được những nguyên nhân cần phải tập trung xử lý.
  3. Biểu đồ nhân quả (Cause-effect diagram): giúp liệt kê những nguyên nhân có thể có dẫn đến kết quả, từ đó giúp ra nguyên nhân của một vấn đề.
  4. Biểu đồ phân bố (Histogram): là một dạng của đồ thị cột trong đó các yếu tố biến động hay các dữ liệu đặc thù được chia thành các lớp hoặc thành các phần và được diễn tả như các cột với khoảng cách lớp được biểu thị qua đường đáy và tần suất biểu thị qua chiều cao. Biểu đồ dạng này được sử dụng để theo dõi sự phân bố thô của sản phẩm/quá trình, từ đó đánh giá được năng lực của quá trình đó, giúp phòng ngừa trước khi các vấn đề đó sảy ra.
  5. Biểu đồ kiểm soát (Control chart): là biểu đồ với các đường giới hạn đã được tính toán bằng phương pháp thống kê được sử dụng nhằm mục đích theo dõi sự biến động của các thông số về đặc tính chất lượng của sản phẩm, theo dõi những thay đổi của quy trình để kiểm soát tất cả các dấu hiệu bất thường xảy ra khi có dấu hiệu đi lên hoặc đi xuống của biểu đồ.
  6. Biểu đồ phân tán (Scatter diagram): Biểu đồ phân tán chỉ ra mối quan hệ giữa 2 biến trong phân tích bằng số, để giải quyết các vấn đề và xác định điều kiện tối ưu bằng cách phân tícḥ lượng mối quan hệ nhân quả giữa các biến số.
  7. Phương pháp phân vùng (Stratified diagram): Phân vùng thông thường để tìm ra nguyên nhân của khuyết tật.

Trong bối cảnh môi trường kinh tế cạnh tranh gay gắt hiện nay, bên cạnh việc đổi mới công nghệ, các doanh nghiệp, đặc biệt là các doanh nghiệp vừa và nhỏ cần chú trọng ứng dụng các công cụ quản lý để cải tiến, nâng cao năng suất chất lượng trong hoạt động sản xuất, kinh doanh. Vì đây là những công cụ hữu hiệu, đã được các doanh nghiệp của các nước phát triển như Nhật Bản Hàn Quốc, Mỹ … áp dụng và gặt hái được những thành công vượt trội về năng suất chất lượng.

——————-&&&——————-

Tuyên bố của ASA về ý nghĩa thống kê và trị số P

Tuyên bố của ASA về ý nghĩa thống kê và trị số P

(Nguồn: http://ibsgacademic.com)

Giới thiệu

Gia tăng định lượng trong nghiên cứu khoa học và phát triển các tập hợp dữ liệu lớn, phức tạp trong những năm gần đây đã mở rộng phạm vi ứng dụng của các phương pháp thống kê. Điều này đã tạo ra những hướng mới cho tiến bộ khoa học, nhưng nó cũng mang lại những lo ngại về kết luận rút ra từ dữ liệu nghiên cứu. Giá trị (validity) của kết luận khoa học, bao gồm cả khả năng tái lặp (reproducibility) của chúng, phụ thuộc nhiều hơn so với tự thân phương pháp thống kê. Các kỹ thuật thích hợp được lựa chọn, phân tích thực hiện đúng và giải thích chính xác của kết quả thống kê cũng đóng một vai trò quan trọng trong việc đảm bảo rằng kết luận là có cơ sở và sự không chắc chắn xung quanh chúng được trình bày một cách đúng đắn.

Làm cơ sở cho nhiều kết luận khoa học được công bố là khái niệm về “có ý nghĩa thống kê,” thường được đánh giá bằng một chỉ số được gọi là trị số p. Trong khi trị số p có thể là một phương pháp thống kê hữu ích, nó thường được sử dụng sai và hiểu sai. Điều này đã dẫn đến một số tạp chí khoa học không tán thành việc sử dụng trị số p, và một vài nhà khoa học và nhà thống kê đề nghị việc từ bỏ, với vài lập luận rằng không có thay đổi cơ bản nào kể từ khi trị số p lần đầu tiên được giới thiệu.

Trong văn bản này, Hiệp hội thống kê Mỹ (American Statistical Association, ASA) tin rằng cộng đồng khoa học có thể được hưởng lợi từ một tuyên bố chính thức làm sáng tỏ những nguyên tắc cơ bản được đồng thuận rộng rãi trong việc sử dụng thích hợp và giải thích trị số p. Các vấn đề được đưa ra ở đây không chỉ ảnh hưởng đến nghiên cứu, mà còn là kinh phí nghiên cứu, thực hành viết lách, phát triển nghề nghiệp, giáo dục khoa học, chính sách công, báo chí, và pháp luật. Tuyên bố này không tìm cách giải quyết tất cả các vấn đề liên quan đến thực hành thống kê cũng như những tranh cãi nền tảng. Thay vào đó, tuyên bố nêu rõ về một vài lựa chọn nguyên tắc phi kỹ thuật mà có thể cải thiện việc thực hiện hoặc diễn giải khoa học định lượng, theo sự đồng thuận rộng rãi trong cộng đồng thống kê.

Trị số p (P-value) là gì?

Một cách không chính thức, trị số p là xác suất theo một mô hình thống kê xác định và là một dữ liệu thống kê tóm tắt (ví dụ, sự khác biệt có ý nghĩa của mẫu giữa hai nhóm được so sánh) sẽ bằng hoặc cực đoan (extreme) hơn so với giá trị quan sát của nó.

Các nguyên tắc

  1. Trị số p có thể chỉ ra sự không tương thích các dữ liệu với một mô hình thống kê xác định ra sao.

Trị số p cung cấp một cách tiếp cận tổng hợp sự không tương thích giữa một tập hợp các dữ liệu và một mô hình đề xuất cho dữ liệu. Hình thức phổ biến nhất là một mô hình, được xây dựng theo một tập hợp các giả định, cùng với cái gọi là “giả thuyết không” (null hypothesis). Thường thì “giả thuyết không” mặc nhiên công nhận sự vắng mặt của một ảnh hưởng, chẳng hạn như không có sự khác biệt giữa hai nhóm, hoặc sự vắng mặt của mối quan hệ giữa các yếu tố và một kết quả. Trị số p càng nhỏ, sự không tương thích thống kê của các dữ liệu với các giả thuyết càng lớn, nếu các giả định cơ bản được sử dụng để tính toán trị số p nắm chắc. Sự không tương thích này có thể được hiểu như là sự kiểm định hoặc cung cấp bằng chứng chống lại “giả thuyết không” hoặc các giả định cơ bản.

  1. Trị số p không đo lường xác suất mà từ đó giả thuyết nghiên cứu là đúng, hoặc xác suất mà các dữ liệu đã được tạo ra bởi một sự xuất ngẫu nhiên một cách riêng lẻ.

Các nhà nghiên cứu thường muốn đưa trị số p vào tuyên bố về tính đúng đắn của một giả thuyết không, hoặc về xác suất mà sự xuất hiện ngẫu nhiên tạo ra các dữ liệu quan sát được. Trị số p không phải như vậy. Đó là một tuyên bố về dữ liệu liên quan với một sự diễn giải giả thuyết xác định, và không phải là một tuyên bố về sự diễn giải chính nó [giả thuyết].

  1. Các kết luận khoa học và quyết sách kinh tế hoặc chính sách không nên chỉ dựa vào trị số p vượt qua một ngưỡng cụ thể.

Những thực hành giảm bớt phân tích dữ liệu hoặc suy luận khoa học với các quy tắc “sáng tỏ” (Bright-line Rules) một cách máy móc (chẳng hạn như “p < 0.05”) để biện minh cho các tuyên bố hoặc kết luận khoa học có thể dẫn đến niềm tin sai lầm và việc đưa ra quyết định vô giá trị. Một kết luận không ngay lập tức trở thành “đúng” trên một mặt của sự phân chia và “sai” về mặt khác. Các nhà nghiên cứu nên mang nhiều yếu tố bối cảnh (contextual factor) vào nghiên cứu để truy tìm những kết luận khoa học, bao gồm các thiết kế nghiên cứu, chất lượng của các thang đo, các bằng chứng bên ngoài cho các hiện tượng được nghiên cứu, và tính hợp lệ của các giả định làm cơ sở cho việc phân tích dữ liệu. Những xem xét thực tế thường đòi hỏi tính nhị phân, quyết định “yes-no”, nhưng điều này không có nghĩa là trị số p riêng lẻ có thể đảm bảo rằng một quyết định là đúng hay sai. Việc sử dụng rộng rãi “ý nghĩa thống kê” (thường được hiểu là “p ≤ 0,05”) như một chứng thực để làm tuyên bố của một phát hiện khoa học (hay sự đúng đắn được ngầm hiểu) dẫn đến biến dạng đáng kể tiến trình khoa học.

  1. Suy luận hợp lý đòi hỏi tường trình đầy đủ và minh bạch

Trị số p và phân tích có liên quan không nên được báo cáo có chọn lọc. Tiến hành nhiều phân tích các dữ liệu và báo cáo chỉ với trị số p duy nhất (thường là vượt qua một ngưỡng quan trọng) ám chỉ rằng trị số p được báo cáo về cơ bản không thể sáng tỏ. Những kết quả đầy hứa hẹn do “lỗi suy luận” (Cherry-picking), còn được gọi bằng thuật ngữ như vét dữ liệu (data dreging), đuổi bắt ý nghĩa (significance chasing), truy vấn ý nghĩa (significance questing), suy luận có chọn lọc (selective inference) và “p-hacking” [tất cả các thuật ngữ này ám chỉ việc tìm mọi cách để đạt được p < 0.05], dẫn đến dư thừa giả tạo các kết quả có ý nghĩa về mặt thống kê trong các tài liệu được công bố và nên tránh một cách mạnh mẽ. Một nhu cầu không chính thức tiến hành nhiều kiểm định thống kê cho vấn đề này phát sinh: Bất cứ khi nào một nhà nghiên cứu chọn những gì để trình bày dựa trên kết quả thống kê, giải thích giá trị của những kết quả là bị tổn hại nghiêm trọng nếu người đọc không được thông báo về sự lựa chọn và cơ sở của nó. Các nhà nghiên cứu nên tiết lộ số lượng giả thuyết khám phá trong quá trình nghiên cứu, tất cả các quyết định thu thập dữ liệu, tất cả các phân tích thống kê được thực hiện và tất cả các trị số p được tính toán. Kết luận khoa học có giá trị dựa trên các trị số p và thống kê liên quan không thể được rút ra mà không biết ít nhất bao nhiêu phân tích được tiến hành, và làm thế nào những phân tích (bao gồm cả trị số p) đã được lựa chọn để báo cáo.

  1. Trị số p, hay ý nghĩa thống kê, không đo lường kích thước của một ảnh hưởng hoặc tầm quan trọng của kết quả.

Ý nghĩa thống kê không tương đương với ý nghĩa khoa học, con người, hoặc kinh tế. trị số p nhỏ hơn không nhất thiết phải bao hàm sự hiện diện của các ảnh hưởng lớn hơn hoặc quan trọng hơn, và trị số p lớn hơn không ám chỉ thiếu tầm quan trọng hoặc thậm chí không có ảnh hưởng. Bất kỳ tác động, dù nhỏ thế nào, có thể tạo ra một trị số p nhỏ nếu kích thước mẫu hoặc thang đo chính xác là đủ cao, và các ảnh hưởng lớn có thể tạo ra trị số p không mấy ấn tượng nếu kích thước mẫu nhỏ hoặc các thang đo là không chính xác. Tương tự như vậy, những tác động ước lượng giống hệt nhau sẽ có trị số p khác nhau nếu độ chính xác của các ước lượng khác nhau.

  1. Tự thân, trị số p không cung cấp một phép đo bằng chứng tốt về một mô hình hay giả thuyết.

Các nhà nghiên cứu nên nhận thấy rằng trị số p không kèm bối cảnh hoặc các bằng chứng khác thì cung cấp thông tin hạn chế. Ví dụ, một trị số p gần 0,05 đơn giản chỉ cung cấp bằng chứng yếu ớt bác bỏ giả thuyết không. Tương tự như vậy, một trị số p tương đối lớn không bao hàm bằng chứng ủng hộ giả thuyết không; nhiều giả thuyết khác có thể tương đương hoặc phù hợp hơn với các dữ liệu quan sát. Với những lý do này, phân tích dữ liệu không nên kết thúc với việc tính toán trị số p khi cách tiếp cận khác là phù hợp và khả thi.

Các phương pháp tiếp cận khác (Other approaches)

Theo quan điểm về sự lạm dụng thường xuyên và quan niệm sai lầm về trị số p, một số nhà thống kê có khuynh hướng bổ sung hoặc thậm chí thay thế trị số p với các cách tiếp cận khác. Chúng bao gồm các phương pháp nhấn mạnh tính toán qua thử nghiệm, chẳng hạn như khoảng tin cậy (confidence interval & credibility interval đều là khoảng tin cậy nhưng thuộc 2 trường phái thống kê khác nhau) hoặc khoảng dự báo (prediction interval); phương pháp Bayesian; các phép đo thay thế của bằng chứng, chẳng hạn như tỷ số  khả dĩ (likelihood ratio) hoặc các yếu tố Bayes; và các phương pháp khác như mô hình ra quyết định lý thuyết (decision-theoretic modeling) và tỷ lệ phát hiện sai (false discovery rate). Tất cả những phép đo và cách tiếp cận này dựa trên nhiều giả định hơn, nhưng chúng có thể tiếp cận trực tiếp hơn trong việc xác định kích thước của một ảnh hưởng (và sự không chắc chắn liên quan của nó) cho dù giả thuyết là đúng.

Kết luận

Thực hành thống kê tốt, như là một phần thiết yếu của thực hành khoa học tốt, nhấn mạnh nguyên tắc của thiết kế nghiên cứu và tiến hành tốt, một loạt các tóm tắt các dữ liệu dạng số và đồ họa, sự hiểu biết về các hiện tượng được nghiên cứu, giải thích kết quả trong bối cảnh, tường trình đầy đủ, hợp logic và hiểu biết định lượng của những gì tóm tắt dữ liệu có ý nghĩa. Không nên có chỉ số duy nhất nào thay thế cho lý luận khoa học.

Ghi nhận: Ban Điều hành ASA cảm ơn những người sau đây vì việc chia sẻ kinh nghiệm và quan điểm của mình trong sự phát triển bản tuyên bố. Tuyên bố không nhất thiết phản ánh quan điểm của tất cả những người này, và trong thực tế có một số quan điểm là đối lập với tất cả hoặc một phần của tuyên bố. Tuy nhiên, chúng tôi tri ân sâu sắc đối với những đóng góp của họ. Naomi Altman, Jim Berger, Yoav Benjamini, Don Berry, Brad Carlin, John Carlin, George Cobb, Marie Davidian, Steve Fienberg, Andrew Gelman, Steve Goodman, Sander Greenland, Guido Imbens, John Ioannidis, Valen Johnson, Michael Lavine, Michael Lew, Rod Little, Deborah Mayo, Chuck McCulloch, Michele Millar, Sally Morton, Regina Nuzzo, Hilary Parker, Kenneth Rothman, Don Rubin, Stephen Senn, Uri Simonsohn, Dalene Stangl, Philip Stark, Steve Ziliak.

Chuyển Ngữ: Vương Tuấn

Nguồn: ASA


Xem thêm: 10 hiểu lầm về trị số P trong khoa học

 

————————-&&&————————–

 

Độ tin cậy và Độ chính xác trong Nghiên cứu Định tính & Nghiên cứu Định lượng

Tìm hiểu Độ tin cậy và Độ chính xác trong Nghiên cứu Định tính

(Tác giả: Nahid Golafshani – Người dịch: Nguyễn Hoàng Mỹ Phương – Nguồn: http://sotaynghiencuu.blogspot.com)

Độ tin cậy và độ chính xác được sử dụng phổ biến trong nghiên cứu định lượng và giờ đây chúng đang được cân nhắc lại để sử dụng trong mẫuhình (paradigm) nghiên cứu định tính. Vì độ tin cậy và độ chính xác bắt nguồn từ quan điểm thực chứng (positivist perspective), do đó, chúng nênđược định nghĩa lại để sử dụng trong cách tiếp cận tự nhiên (naturalistic approach). Cũng giống n độ tin cậy và độ chính xác dùng trong nghiên cứu định lượng nhằm cung cấp bàn đạp để kiểm tra những gì mà hai thuật ngữ này muốn nói trong mẫu hình nghiên cứu định tính, kiểm tra chéo (triangulation) dùng trong nghiên cứu định lượng nhằm kiểm tra độ tin cậy và độ chính xác cũng có thể làm sáng tỏ một số cách để kiểm trahoặc tối đa hóa độ tin cậy và độ chính xác của nghiên cứu định tính. Do đó, độ tin cậy, độ chính xác và kiểm tra chéo, nếu chúng là những khái niệm nghiên cứu phù hợp, đặc biệt là từ góc nhìn định tính, phải được định nghĩa lại để phản ánh các cách phát hiện ra sự thật.

Từ khóa: Độ tin cậy, Độ chính xác, Kiểm tra chéo, Ý niệm (Construct), Định tính, và Định lượng

Bài viết này bàn về việc sử dụng độ tin cậy và độ chính xác trong mẫuhình nghiên cứu định tính. Đầu tiên sẽ thảo luận ý ​​nghĩa của nghiên cứu định lượng và định tính. Thứ hai, thảo luận độ tin cậy và độ chính xác dùng trong nghiên cứu định lượng như là bàn đạp để kiểm tra những gì mà hai thuật ngữ nàymuốn nói và cách chúng được kiểm tra trong mẫu hình nghiên cứu định tính. Bài viết kết luận bằng việc dùng kiểm tra chéo trong hai mẫu hình (định lượng và định tính) cho thấy những thay đổi này có ảnh hưởng như thế nào đến sự hiểu biết của chúng ta về độ tin cậy, độ chính xác và kiểm tra chéo trong các nghiên cứu định tính.

Nghiên cứu Định lượng là gì?

            Nhà nghiên cứu sử dụng nghiên cứu thực chứng logic hoặc nghiên cứuđịnh lượng sẽ dùng các phương pháp thí nghiệm (experimental methods) vàphương pháp định lượng để kiểm tra những giả thuyết được tổng quát hóa(Hoepfl, 1997), và họ cũng nhấn mạnh việc đo lường và phân tích mối quan hệnhân quả giữa các biến (Denzin và Lincoln, 1998). Để minh họa ý nghĩa củanghiên cứu định lượng trong việc giải thích các vấn đề xã hội, Bogdan và Biklen(1998) lưu ý:
Biểu đồ và đồ thị minh họa các kết quả của nghiên cứu, và các nhà bình luận dùng các từ như “biến”, “tổng thể” và “kết quả” như một phần từ vựng hàng ngày của họ… ngay cả khi chúng ta không bao giờ biết tất cảcác thuật ngữ này có nghĩa là gì …[nhưng] chúng ta biết rằng đây là một phần của quá trình nghiên cứu. Công trình nghiên cứu, sau đó sẽ được công bố rộng rãi, là một từ đồng nghĩa với nghiên cứu định lượng (tr.4).

Nghiên cứu định lượng cho phép người nghiên cứu làm quen với vấn đề hoặc khái niệm được nghiên cứu, và có thể tạo ra các giả thuyết sẽ được kiểm tra. Trong mẫu hình này: (1) nhấn mạnh vào sự kiện (facts) và nguyên nhân củahành vi (Bogdan & Biklen, 1998), (2) thông tin dưới dạng các con số có thểđược định lượng và tính toán, (3) phương pháp toán học là cách thức để phân tích các dữ liệu số và (4) kết quả cuối cùng được trình bày dưới dạng các thuật ngữ thống kê (Charles, 1995).

Nói chung, nghiên cứu định lượng “… được hỗ trợ bởi mẫu hình thực chứng hay mẫu hình khoa học, đưa chúng ta đến suy nghĩ rằng thế giới được tạobởi các sự kiện có thể quan sát, đo lường được” (Glesne & Peshkin, 1992, tr.6)mặc dù giả định cho rằng “sự kiện xã hội (social facts) là thực tại khách quan”và “các biến có thể… được xác định và các mối quan hệ có thể đo lường được”(tr.7) là có vấn đề. Khái niệm “đo lường” có nghĩa là tìm hiểu, chẳng hạn, vấn đề giáo dục bằng cách người quan sát sẽ thực hiện quá trình được gọi là “đo lường”thế giới vật chất (Crocker & Algina, 1986). Stevens (1946) định nghĩa đo lườnglà việc gán con số cho các đối tượng hoặc sự kiện theo nguyên tắc nào đó. Từcác định nghĩa này, ta có thể thấy đo lường nhất thiết phải khách quan, có thểđịnh lượng và có liên quan đến thống kê. Nói một cách đơn giản, đo lường là đang nói về các con số, dữ liệu khách quan.

Nhà nghiên cứu định lượng cố gắng phân chia và phân định hiện tượngthành các phạm trù (categories) phổ biến hoặc có thể đo lường được mà các loại này có thể được áp dụng cho tất cả các đối tượng hoặc tình huống tương tự hay mở rộng (Winter, 2000). Trong nỗ lực của mình, phương pháp của người nghiên cứu liên quan đến việc “sử dụng các biện pháp chuẩn sao cho các quan điểm và kinh nghiệm khác nhau của con người có thể đặt vừa vào một số giới hạn cácphạm trù tương ứng đã được xác định trước và được gán các con số” (Patton, 2001, tr.14 ). Ví dụ, một nhà nghiên cứu định lượng có thể chuẩn bị danh sách các hành vi sẽ được kiểm tra hoặc đánh giá bởi người quan sát bằng cách dùng lịch trình đã định trước hoặc con số (thang đo) như là công cụ trong phương pháp nghiên cứu của mình. Do đó, người nghiên cứu định lượng cần xây dựngcông cụ được quản lý bằng cách thức chuẩn hóa theo các thủ tục đã định trước.Nhưng câu hỏi đặt ra là công cụ đo lường có đo được những gì cần phải đo hay không. Theo nghĩa rộng nhất, ta sẽ tập trung vào việc kiểm tra (test) (Crocker &Algina, 1986) hoặc độ chính xác của công cụ. Tầm quan trọng của việc kiểm tra này là để đảm bảo khả năng nhân rộng hoặc lặp lại của kết quả.

Độ tin cậy  Độ chính xác trong Nghiên cứu Định lượng

            Độ tin cậy và độ chính xác là công cụ nhận thức cơ bản theo trường phái thực chứng

(Watling, theo Winter, 200, tr.7)

Độ tin cậy

Joppe (2000) định nghĩa độ tin cậy như sau:

… Mức độ mà tại đó kết quả không thay đổi theo thời gian và đại diện chính xác cho tổng thể được nghiên cứu được gọi là độ tin cậy và nếu kết quả nghiên cứu có thể được sao chép theo phương pháp luận tương tự,khi đó, công cụ nghiên cứu được xem là đáng tin cậy (tr.1).

Thể hiện trong trích dẫn này là ý tưởng nhân rộng hoặc lặp lại kết quả hoặc quan sát.

Kirk và Miller (1986) xác định ba kiểu độ tin cậy trong nghiên cứu định lượng: (1) mức độ mà tại đó phép đo vẫn giữ nguyên khi được lặp đi lặp lại; (2) sự ổn định của phép đo theo thời gian; và (3) sự giống nhau của các phép đo trong một khoảng thời gian nhất định (tr.41-42).

Charles (1995) vẫn bám vào ý tưởng cho rằng sự nhất quán – mà tại đócác mục [kiểm tra] trong bảng câu hỏi được trả lời hoặc điểm riêng lẻ vẫn còn tương đối giống nhau – có thể được xác định thông qua phương pháp kiểm tra-táikiểm tra (test-retest method) tại hai thời điểm khác nhau. Trên thực tế, thuộc tính này của công cụ được gọi là tính ổn định. Nếu chúng ta đang đề cập phép đo ổn định thì cũng nên đề cập tương tự đối với kết quả. Mức độ ổn định cao cho thấy mức độ tin cậy cao, có nghĩa là kết quả có thể lặp lại được. Joppe, (2000) phát hiện có vấn đề xảy ra đối với phương pháp kiểm tra-tái kiểm tra có thể làm cho công cụ không đáng tin cậy ở mức độ nào đó. Bà giải thích rằng phương pháp kiểm tra-tái kiểm tra có thể tùy thuộc vào cảm nhận của người trả lời đối với vấn đề mang tính chủ quan, và do đó ảnh hưởng đến các câu trả lời nhất định. Chúng ta không thể chắc chắn rằng những ảnh hưởng bên ngoài là không đổi, chẳng hạnnhư sự thay đổi của thái độ. Điều này có thể dẫn đến sự khác biệt trong các câu trả lời. Tương tự như vậy, Crocker và Algina (1986) lưu ý rằng khi người trả lờitrả lời một loạt các mục kiểm tra, số điểm thu được chỉ đại diện cho một mẫugiới hạn các hành vi. Kết quả là, điểm số có thể thay đổi bởi đặc trưng nào đócủa người trả lời, có thể dẫn đến sai sót trong đo lường. Những lỗi kiểu này sẽ làm giảm tính chính xác và tính nhất quán của công cụ và điểm kiểm tra. Do đó, trách nhiệm của người nghiên cứu là đảm bảo tính nhất quán và chính xác caocủa các bài kiểm ra và điểm số. Vì vậy, Crocker và Algina (1986) cho rằng, “người soạn bài kiểm tra có trách nhiệm trong việc trình bày độ tin cậy của điểm từ các bài kiểm tra của họ” (tr.106).

Mặc dù người nghiên cứu có thể chứng minh khả năng lặp lại và tínhnhất quán nội tại của công cụ nghiên cứu, và do đó, là độ tin cậy, bản thân công cụ có thể không được chấp nhận.

Độ chính xác

Các tiêu chuẩn truyền thống áp dụng cho độ chính xác có nguồn gốc từtruyền thống thực chứng, và ở chừng mực nào đó, trường phái chứng thực đượcđịnh nghĩa bởi lý thuyết về độ chính xác. Trong thuật ngữ thực chứng, độ chính xác nằm giữa, và là kết quả và đỉnh cao của các khái niệm kinh nghiệm khác – có thể kể một vài khái niệm đó như luật phổ quát, bằng chứng, khách quan, sự thật, thực tế, diễn dịch, suy luận, sự kiện và dữ liệu toán học (Winter, 2000).

Joppe (2000) đưa ra lời giải thích về độ chính xác trong nghiên cứu định lượng:

Độ chính xác xác định xem thực sự nghiên cứu có đo lường được cái mà nó dự định đo lường hay không hoặc tính chính xác của kết quả nghiên cứu như thế nào. Nói cách khác, công cụ nghiên cứu có cho phép bạn nhắm vào tâm điểm của đối tượng nghiên cứu hay không? Các nhà nghiên cứu nói chung xác định độ chính xác bằng cách hỏi một loạt các câu hỏi, và thường sẽ tìm kiếm câu trả lời trong các nghiên cứu của người khác (tr.1).

Wainer và Braun (1998) mô tả độ chính xác trong nghiên cứu định lượngnhư là “độ chính xác về ý niệm” (“construct validity”). Construct là khái niệm, ý tưởng, câu hỏi hoặc giả thuyết ban đầu dùng để xác định dữ liệu nào sẽ được thu thập và thu thập như thế nào. Họ cũng khẳng định rằng các nhà nghiên cứu định lượng tích cực sẽ gây ra hoặc ảnh hưởng đến sự tác động lẫn nhau giữa ý niệmvà dữ liệu để xác nhận công trình điều tra của họ, thường là bằng cách áp dụng bài kiểm tra hoặc quá trình khác. Theo ý nghĩa này, sự tham gia của các nhà nghiên cứu trong quá trình nghiên cứu sẽ làm giảm đáng kể độ chính xác của bài kiểm tra.

Các định nghĩa về độ tin cậy và độ chính xác trong phạm vi nghiên cứu định lượng cho thấy hai điểm: Thứ nhất, liên quan đến độ tin cậy, kết quả có thể nhân rộng hay không. Thứ hai, liên quan đến độ chính xác, phương tiện đolường có chính xác hay không và chúng đang thực sự đo lường cái mà chúng dự định đo lường hay không. Tuy nhiên, các khái niệm về độ tin cậy và độ chính xác dưới con mắt của nhà nghiên cứu định tính thì lại khác – họ khăng khăng cho rằng các khái niệm được định nghĩa về mặt định lượng này là chưa đầy đủ. Nói cách khác, các khái niệm được định nghĩa về mặt định lượng này có thể không áp dụng cho mẫu hình nghiên cứu định tính. Câu hỏi về khả năng nhân rộng kết quả không liên quan đến họ (Glesne & Peshkin, 1992), nhưng độ chính xác (Winter, 2000), độ tin cậy và khả năng chuyển giao (transferability) (Hoepf, 1997) cung cấp cách thức đánh giá kết quả của nghiên cứu định tính. Trong bối cảnh này, hai cách tiếp cận hay quan điểm nghiên cứu này cơ bản là các mẫuhình khác nhau (Kuhn, 1970).

Nghiên cứu Định tính là gì?

            Nghiên cứu định tính sử dụng cách tiếp cận tự nhiên (naturalistic approach) nhằm tìm hiểu các hiện tượng trong bối cảnh cụ thể, chẳng hạn như “thế giới thực [nơi] mà người nghiên cứu không cố gắng thao túng hiện tượngmà họ quan tâm (phenomenon of interest)” (Patton, 2001, tr.39). Nghiên cứu định tính, theo nghĩa rộng, có nghĩa là “bất kỳ loại nghiên cứu nào đưa ra các phát hiện không phải bằng phương pháp thống kê hoặc các phương pháp định lượng khác” (Strauss và Corbin, 1990, tr.17), thay vào đó, loại nghiên cứu này đưa ra các phát hiện từ bối cảnh thế giới thực nơi mà các “hiện tượng [mà họ] quan tâm phát triển một cách tự nhiên” (Patton, 2001, tr.39). Không giống nhưcác nhà nghiên cứu định lượng xác định nguyên nhân, dự đoán, và tổng quát hóacác phát hiện này, thay vào đó, các nhà nghiên cứu định tính làm sáng tỏ, tìmhiểu, và ngoại suy từ các tình huống tương tự (Hoepfl, 1997).

Phân tích định tính dẫn đến một loại kiến thức khác so với phân tích định lượng, vì một bên thì lập luận từ góc độ bản chất triết học nền tảng của mỗi mẫuhình, tận hưởng các cuộc phỏng vấn chi tiết và bên còn lại thì tập trung vào khả năng tương thích rõ ràng của các phương pháp nghiên cứu, “tận hưởng phần thưởng từ cả con số lẫn từ ngữ” (Glesne & Peshkin, 1992, tr.8). Điều này có nghĩa là các phương pháp chẳng hạn như phỏng vấn và quan sát chiếm ưu thếtrong mẫu hình (diễn giải) tự nhiên và bổ sung vào mẫu hình thực chứng (positive paradigm), nơi mà cuộc khảo sát được dùng theo mục đích ngược lại.Winter (2000) cho rằng trong khi các nhà nghiên cứu định lượng cố gắng táchbản thân mình ra khỏi quá trình nghiên cứu càng nhiều càng tốt thì các nhà nghiên cứu định tính lại chấp nhận sự tham gia và vai trò của họ trong nghiên cứu. Patton (2001) hỗ trợ ý tưởng về sự tham gia và “chìm” (immersion) vào nghiên cứu của người nghiên cứu bằng cách cho rằng thế giới thực có thể thay đổi và do đó, nhà nghiên cứu định tính nên có mặt trong những thay đổi này để ghi lại sự kiện trước và sau khi xảy ra thay đổi. Tuy nhiên, cả nhà nghiên cứuđịnh tính lẫn định lượng cần phải kiểm tra và chứng minh rằng nghiên cứu của họ là đáng tin cậy. Trong khi độ tin cậy trong nghiên cứu định lượng phụ thuộc vào việc xây dựng công cụ, thì trong nghiên cứu định tính, “các nhà nghiên cứu chính là công cụ” (Patton, 2001, tr.14). Vì vậy, có vẻ như khi các nhà nghiên cứuđịnh lượng nói đến độ chính xác và độ tin cậy của nghiên cứu, họ thường đề cậpđến một nghiên cứu nào đó là đáng tin cậy; trong khi độ tin cậy trong nghiên cứu định tính lại phụ thuộc vào khả năng và nỗ lực của người nghiên cứu. Mặc dù độ tin cậy và độ chính xác được xem xét riêng lẻ trong nghiên cứu định lượng, những thuật ngữ này lại không được xem riêng biệt trong nghiên cứu định tính. Thay vào đó, thuật ngữ này bao hàm cả, chẳng hạn như độ tin cậy, khả năng chuyển giao, và tính đáng tin cậy.

Độ tin cậy  Độ chính xác trong Nghiên cứu Định tính

            Để hiểu ý nghĩa của độ tin cậy và độ chính xác, thiết nghĩ cần phải trình bày các định nghĩa khác nhau về độ tin cậy và độ chính xác do nhiều nhà nghiên cứu định tính với các quan điểm khác nhau đưa ra.

Độ tin cậy

Mặc dù thuật ngữ “Độ tin cậy” là khái niệm dùng để kiểm tra hoặc đánh giá nghiên cứu định lượng nhưng ý tưởng này cũng thường được dùng trong tất cả các loại nghiên cứu. Nếu chúng ta xem ý tưởng kiểm tra là cách lấy thông tin thì sự kiểm tra quan trọng nhất của bất kỳ nghiên cứu định tính nào chính là chất lượng của nó. Một nghiên cứu định tính tốt có thể giúp chúng ta “hiểu được tình huống mà nếu không [có nó] sẽ khó hiểu hoặc mơ hồ” (Eisner, 1991, tr.58). Điều này lại liên quan đến khái niệm thế nào là một nghiên cứu định tính tốt khi mà độ tin cậy là khái niệm dùng để đánh giá chất lượng trong nghiên cứu định lượng với “mục đích giải thích” trong khi khái niệm chất lượng trong nghiên cứu định tính lại có mục đích “tạo ra sự hiểu biết/thông hiểu” (Stenbacka, 2001, tr.551). Sự khác biệt trong mục đích đánh giá chất lượng nghiên cứu trong định lượng và nghiên cứu định lượng là một trong những lý do mà khái niệm độ tin cậy là không thích hợp trong nghiên cứu định tính. Theo Stenbacka, (2001) “khái niệm độ tin cậy thậm chí còn gây hiểu lầm trong nghiên cứu định tính. Nếu độ tin cậy được xem là một tiêu chuẩn của nghiên cứu định tính, thì e là khá nhiều nghiên cứu sẽ không tốt” (tr.552).

Mặt khác, Patton (2001) cho rằng độ chính xác và độ tin cậy là hai yếu tốmà bất kỳ nhà nghiên cứu định tính nào cũng nên quan tâm trong khi thiết kếnghiên cứu, phân tích kết quả và đánh giá chất lượng nghiên cứu. Điều nàytương đương với câu hỏi “Làm thế nào người nghiên cứu có thể thuyết phụcđược rằng các phát hiện nghiên cứu của cuộc điều tra là đáng chú ý đến?”(Lincoln và Guba, 1985, tr.290). Để trả lời cho câu hỏi này, Healy và Perry(2000) khẳng định rằng chất lượng của một nghiên cứu trong mỗi mẫu hình nên được đánh giá bởi chính các thuật ngữ trong mẫu hình đó. Ví dụ, trong khi thuật ngữ Độ tin cậy và Độ chính xác là tiêu chí cần thiết để đánh giá chất lượng trongmẫu hình định lượng, thì trong mẫu hình định tính, các thuật ngữ Tính tin cậy(Credibility), Tính trung lập (Neutrality) hoặc Tính xác thực (Confirmability), Tính nhất quán (Consistency) hoặc Tính đáng tin (Dependability) và Khả năng áp dụng (Applicability) hoặc Khả năng chuyển giao (Transferability) phải là tiêu chí cần thiết để đánh giá chất lượng (Lincoln và Guba, 1985). Cụ thể hơn, vớithuật ngữ độ tin cậy trong nghiên cứu định tính, Lincoln và Guba (1985, tr.300) sử dụng “tính đáng tin” (“dependability”), trong nghiên cứu định tính thì từ nàyrất tương đồng với khái niệm “độ tin cậy” (“reliability”) trong nghiên cứu định lượng. Họ cũng nhấn mạnh “kiểm toán quá trình” (“inquiry audit”) (tr.317) là một trong những biện pháp có thể nâng cao tính đáng tin của nghiên cứu định tính. Biện pháp này có thể được dùng để kiểm tra tính nhất quán cho cả quá trìnhlẫn sản phẩm của nghiên cứu (Hoepfl, 1997). Trong bối cảnh đó, Clont (1992) vàSeale (1999) tán thành khái niệm tính đáng tin với khái niệm tính nhất quán hoặc độ tin cậy trong nghiên cứu định tính. Tính nhất quán của dữ liệu sẽ đạt được khicác bước nghiên cứu được xác nhận thông qua việc kiểm tra các mục như dữ liệu thô, sản phẩm thu nhỏ dữ liệu, và quá trình ghi chép (Campbell, 1996).

Để đảm bảo độ tin cậy trong nghiên cứu định tính, kiểm tra độ tin cậy là rất quan trọng. Seale (1999), trong khi phát hiện các nghiên cứu có chất lượng tốt thông qua độ tin cậy và độ chính xác trong nghiên cứu định tính, khẳng định rằng “tính đáng tin cậy của báo cáo nghiên cứu nằm ở trung tâm của các vấn đềthường được thảo luận – đó là độ chính xác và độ tin cậy” (tr.266). Khi đánh giá(kiểm tra) công trình nghiên cứu định tính, Strauss và Corbin (1990) cho rằng“tiêu chuẩn thông thường của “khoa học tốt”… đòi hỏi phải định nghĩa lại để phù hợp với thực tế của nghiên cứu định tính” (tr.250).

Ngược lại, Stenbacka (2001) lập luận rằng trong khi vấn đề độ tin cậy liên quan đến các phép đo lường thì nó lại không liên quan trong nghiên cứu định tính. Bà cho biết thêm vấn đề của độ tin cậy đó là việc không phù hợp trong đánh giá chất lượng của nghiên cứu định tính. Do đó, nếu nó được sử dụng thì khi đó “e rằng hậu quả là khá nhiều nghiên cứu không tốt” (tr.552).

Mở rộng phạm vi khái niệm hóa độ tin cậy và khám phá sự phù hợp củađộ tin cậy và dộ chính xác trong nghiên cứu định tính, Lincoln và Guba (1985)cho rằng: “Do không thể có độ chính xác mà không có độ tinh cậy, một sự chứng minh của khái niệm trước [độ chính xác] là đủ để thiết lập khái niệm sau [độ tin cậy]” (tr.316). Patton (2001) với mối quan tâm đến khả năng và kỹ năng của người nghiên cứu trong nghiên cứu định tính cũng cho rằng độ tin cậy là hệ quả của độ chính xác trong một nghiên cứu.

Độ chính xác

             Khái niệm độ chính xác được mô tả bằng một loạt các thuật ngữ trong nghiên cứu định tính. Khái niệm này không phải là một khái niệm duy nhất, cố định hoặc phổ quát mà là “khái niệm tùy thuộc (contingent construct), khôngtách khỏi nền tảng các quy trình và mục đích của phương pháp luận và dự ánnghiên cứu cụ thể” (Winter, 2000, tr.1). Mặc dù một số nhà nghiên cứu định tính đã lập luận rằng khái niệm độ chính xác không áp dụng cho nghiên cứu định tính, nhưng đồng thời, họ cũng nhận ra sự cần thiết phải có kiểu kiểm tra hoặc đo lường chất lượng nào đó cho nghiên cứu của mình. Ví dụ, Creswell & Miller (2000) cho rằng độ chính xác chịu ảnh hưởng bởi nhận thức của người nghiên cứu về độ chính xác trong nghiên cứu và sự lựa chọn giả định mẫu hình. Kết quả là, nhiều nhà nghiên cứu đã phát triển khái niệm riêng của họ về độ chính xác và thường tạo ra hoặc sử dụng những thuật ngữ mà họ cho là thích hợp hơn, chẳng hạn như chất lượng (quality), tính chặt chẽ (rigor) và tính đáng tin cậy(trustworthiness) (Davies & Dodd, 2002; Lincoln và Guba, 1985; Mishler, 2000; Seale, 1999; Stenbacka, 2001).

Thảo luận về chất lượng trong nghiên cứu định tính bắt nguồn từ mối quan tâm về độ chính xác và độ tin cậy trong truyền thống định lượng “liên quan đến việc thay thế thuật ngữ mới cho các từ chẳng hạn như độ chính xác và độ tin cậy nhằm phản ánh các khái niệm diễn giải [định tính]” (Seale, 1999, tr.465).

Stenbacka (2001) đã không bỏ qua vấn đề của độ chính xác trong nghiên cứu định tính như bà đã làm đối với vấn đề của độ tin cậy trong nghiên cứu định tính. Thay vào đó, bà lập luận rằng khái niệm độ chính xác nên được định nghĩa lại cho nghiên cứu định tính. Stenbacka (2001) mô tả khái niệm độ tin cậy như là một trong những khái niệm về chất lượng trong nghiên cứu định tính “cần phải được giải quyết nhằm xem một cuộc điều tra (study) như là một phần của nghiên cứu thích hợp” (tr.551).

Trong khi tìm kiếm ý nghĩa của tính chặt chẽ trong nghiên cứu, Davies và Dodd (2002) nhận thấy rằng khái niệm tính chặt chẽ trong nghiên cứu có liên quan đến thảo luận về độ tin cậy và độ chính xác. Davies và Dodd (2002) lập luận rằng việc áp dụng khái niệm tính chặt chẽ trong nghiên cứu định tính nênkhác với so với các khái niệm đó trong nghiên cứu định lượng bằng cách “chấp nhận rằng có sự thiên vị về mặt lượng trong khái niệm tính chặt chẽ, bây giờ chúng ta hãy đặt lại khái niệm tính chặt chẽ bằng cách khám phá tính chủ quan,tính phản hồi, và sự tương tác xã hội của phỏng vấn” (tr.281).

Lincoln và Guba (1985) lập luận rằng việc duy trì tính đáng tin cậy củabáo cáo nghiên cứu phụ thuộc vào các vấn đề, về mặt định lượng, như độ chính xác và độ tin cậy. Ý tưởng khám phá sự thật thông qua độ tin cậy và độ chính xác được thay thế bằng ý tưởng tính đáng tin cậy (Mishler, 2000) – “có thể được bảo vệ” (“defensible”) (Johnson 1997, tr.282) và thiết lập sự tự tin trong các phát hiện (Lincoln và Guba, 1985).

Nếu các vấn đề của độ tin cậy, độ chính xác, tính đáng tin cậy, chất lượng và tính chặt chẽ là nhằm tạo nên sự khác biệt giữa nghiên cứu “tốt” và nghiên cứu “tồi” thì kiểm tra và tăng độ tin cậy, độ chính xác, tính đáng tin cậy, chất lượng và tính chặt chẽ là rất quan trọng đối với công trình nghiên cứu trong bất kỳ mẫu hình nào.

Kiểm tra Độ chính xác và Độ tin cậy

            Đến đây, đã trình bày xong khái niệm (đã được định nghĩa lại) về độ tin cậy và độ chính xác phù hợp với tính hữu dụng của chúng trong nghiên cứu định tính. Bây giờ, vẫn còn một câu hỏi đang chờ câu trả lời “Làm thế nào để kiểm tra hoặc tối đa hóa độ chính xác, và kết quả là độ tin cậy, của một nghiên cứu định tính?”

Nếu độ chính xác hoặc tính đáng tin cậy có thể được tối đa hóa hoặckiểm tra thì khi đó “kết quả đáng tin cậy và có thể được bảo vệ” nhiều hơn(Johnson, 1997, tr.283) có thể dẫn đến khả năng khái quát hóa – một trong nhữngkhái niệm được đề xuất bởi Stenbacka (2001) làm cấu trúc cho cả việc thực hiện và lưu trữ nghiên cứu định tính chất lượng cao. Vì vậy, chất lượng nghiên cứu có liên quan đến việc khái quát hóa kết quả và do đó liên quan đến việc kiểm tra và gia tăng độ chính xác hoặc tính đáng tin cậy của nghiên cứu.

Ngược lại, Maxwell (1992) quan sát thấy rằng mức độ mà kết quả (account) được khái quát hóa là yếu tố phân biệt rõ giữa phương pháp nghiên cứu định lượng và định tính. Mặc dù khả năng khái quát hóa các phát hiện cho các nhóm và hoàn cảnh lớn hơn là một trong những bài kiểm tra độ chính xác phổ biến nhất đối với nghiên cứu định lượng, nhưng Patton (2001) cho rằng khả năng khái quát hóa là một trong các tiêu chí chất lượng của các nghiên cứutrường hợp (case studies) tùy thuộc vào trường hợp được lựa chọn và nghiên cứu. Theo cách hiểu này, độ chính xác trong nghiên cứu định lượng là rất cụ thể đối với bài kiểm tra áp dụng độ chính xác – bài kiểm tra cũng là nơi mà các phương pháp kiểm tra chéo dùng trong nghiên cứu định tính. Kiểm tra chéo(triangulation) là chiến lược (kiểm tra) điển hình nhằm nâng cao độ chính xác vàđộ tin cậy của nghiên cứu hoặc đánh giá các phát hiện. Mathison (1988) trình bày chi tiết:

Kiểm tra chéo đang nổi lên thành vấn đề quan trọng liên quan đến phương pháp luận trong cách tiếp cận tự nhiên và định tính đối với việcđánh giá [nhằm] kiểm soát sự thiên lệch (bias) và thiết lập các mệnh đềhợp lý vì kỹ thuật khoa học truyền thống không phù hợp với nhận thức luận (epistemology) thay thế này (tr.13).

Patton (2001) ủng hộ việc dùng kiểm tra chéo bởi “kiểm tra chéo giúp nghiên cứu hiệu quả hơn bằng cách kết hợp nhiều phương pháp. Điều này có nghĩa là dùng một số kiểu phương pháp hoặc dữ liệu, bao gồm cả phương pháp định lượng lẫn định tính” (tr.247). Tuy nhiên, Barbour (1998) nghi ngờ ý ​​tưởng kết hợp các phương pháp này. Bà lập luận trong khi mẫu hình kết hợp là có thể nhưng phương pháp kết hợp trong một mẫu hình, chẳng hạn như nghiên cứu định tính, là có vấn đề vì mỗi phương pháp trong mẫu hình định tính có giả định riêng của nó “về khung lý thuyết mà chúng ta tập trung để đạt mục tiêu nghiên cứu” (tr.353). Mặc dù kiểm tra chéo được dùng trong mẫu hình định lượng để xác nhận và tổng quát hóa nghiên cứu, Barbour (1998) không bỏ qua khái niệm kiểm tra chéo trong mẫu hình định tính và bà cho rằng cần thiết phải định nghĩa kiểm tra chéo dưới góc độ nghiên cứu định tính trong từng mẫu hình. Ví dụ, kiểm tra chéo nhiều nguồn dữ liệu trong nghiên cứu định lượng, bất kỳ ngoại lệnào cũng có thể dẫn đến việc không khẳng định (disconfirmation) giả thuyếttrong khi các ngoại lệ trong nghiên cứu định tính được xử lý để điều chỉnh các lý thuyết và đạt kết quả.

Theo quan điểm này, Healy và Perry (2000) lý giải về việc đánh giá độ chính xác và độ tin cậy trong mẫu hình hiện thực (realism paradigm) mà mẫu hình này dựa trên các quan niệm về một thực tại duy nhất. Họ lập luận về sự tiến hành kiểm tra chéo nhiều nguồn dữ liệu và diễn giải của họ về các quan niệm đó trong mẫu hình hiện thực.

Một mẫu hình khác trong nghiên cứu định tính là thuyết kiến tạo(constructivism) vốn xem kiến thức được xây dựng dựa trên tương tác xã hội vàcó thể thay đổi tùy thuộc vào hoàn cảnh. Crotty (1998) định nghĩa thuyết kiến tạo từ góc nhìn xã hội “quan điểm cho rằng tất cả kiến thức, và do đó tất cả thực tại có ý nghĩa theo cách đó, dựa trên hoạt động của con người, được xây dựngtrong và ngoài mối tương tác giữa con người và thế giới của họ, và được phát triển và lan truyền trong bối cảnh xã hội cơ bản” (tr.42). Trong bất kỳ nghiên cứu định tính nào, mục đích đều là “tham gia vào nghiên cứu nhằm cố gắng tìm hiểu để có được sự hiểu biết sâu sắc hơn chứ không phải là kiểm tra các đặc tính hời hợt” (Johnson, 1995, tr.4) và thuyết kiến tạo có thể tạo điều kiện để đạt đượcmục tiêu đó. Khái niệm kiến tạo, nghĩa là thực tại đang thay đổi cho dù người quan sát có muốn hay không (HIPPS, 1993), là dấu hiệu của nhiều thực tại hoặc đa dạng kết cấu có thể có của thực tại. Thuyết kiến tạo đánh giá các thực tại mà mọi người có trong tâm trí của mình. Vì vậy, để có được nhiều và đa dạng cácthực tại chính xác và đáng tin cậy, đòi hỏi phải có nhiều phương pháp tìm kiếm hay thu thập dữ liệu. Nếu điều này dẫn đến áp dụng kiểm tra chéo trong mẫuhình kiến tạo, thì dùng kiểm tra chéo để kiểm tra người nghiên cứu, phương pháp và dữ liệu để ghi nhận kết cấu của thực tại là thích hợp (Johnson, 1997). Một quan điểm mở trong thuyết kiến tạo gắn với ý tưởng kiểm tra chéo dữ liệubằng cách cho phép người tham gia trong một nghiên cứu hỗ trợ các nhà nghiên cứu trong câu hỏi nghiên cứu cũng như trong việc thu thập dữ liệu. Áp dụngnhiều phương pháp, chẳng hạn như quan sát, phỏng vấn và ghi âm sẽ dẫn đến kết quả là kết cấu của thực tại sẽ chính xác, đáng tin cậy và đa dạng hơn. Để nâng cao sự phân tích và hiểu biết kết cấu của các thực tại khác, các nhà nghiên cứunên thực hiện kiểm tra chéo để có thể tham gia cùng với nhiều nhà điều tra hoặc tham khảo diễn giải dữ liệu của các nhà nghiên cứu đồng đẳng tại thời điểm hoặc địa điểm khác nhau. Tương tự, nhà nghiên cứu định tính có thể “sử dụng kiểm tra chéo để kiểm tra người thực hiện điều tra và xem xét các ý tưởng và lời giải thích được tạo ra bởi các nhà nghiên cứu bổ sung đang nghiên cứu người tham gia cuộc nghiên cứu” (Johnson, 1997, tr.284).

Kiểm tra chéo có thể bao gồm các phương pháp thu thập dữ liệu và phân tích dữ liệu, nhưng không đề xuất một phương pháp cố định nào áp dụng cho tất cả các nghiên cứu. Các phương pháp được lựa chọn trong kiểm tra chéo để kiểm tra độ chính xác và độ tin cậy của một nghiên cứu phụ thuộc vào tiêu chí của nghiên cứu.

Hiểu biết của Chúng ta

            Từ thảo luận nói trên, sự kết hợp giữa mẫu hình định lượng với nghiên cứu định tính thông qua độ chính xác và độ tin cậy đã thay đổi hiểu biết của chúng ta về ý nghĩa truyền thống của độ tin cậy và độ chính xác từ góc nhìn của nhà nghiên cứu định tính. Độ tin cậy và độ chính xác được định nghĩa là tính đáng tin cậy (trustworthiness), tính chặt chẽ (rigor) và chất lượng (quality) trongmẫu hình định tính. Cũng thông qua sự kết hợp này, cách thức để đạt được độ chính xác và độ tin cậy sẽ chịu ảnh hưởng bởi quan điểm của nhà nghiên cứuđịnh tính – đó là quan điểm mong muốn loại bỏ sự thiên lệch (bias) và tăng tính trung thực của người nghiên cứu đối với ý tưởng về một hiện tượng xã hội nào đó (Denzin, 1978), sự loại bỏ này sẽ thực hiện qua việc sử dụng kiểm tra chéo. Khi đó kiểm tra chéo được định nghĩa là “các thủ tục hợp lý giúp nhà nghiên cứutìm kiếm sự hội tụ giữa nhiều và đa dạng các nguồn thông tin để hình thành nênchủ đề hay các phạm trù (categories) trong nghiên cứu” (Creswell & Miller, 2000, tr.126).

Do đó, độ tin cậy, độ chính xác và kiểm tra chéo, nếu chúng là các khái niệm nghiên cứu phù hợp, đặc biệt là từ góc nhìn định tính, phải được định nghĩa lại như chúng ta đã thấy để phản ánh nhiều cách thức phát hiện ra sự thật.

References

Babour, R. S. (1998). Mixing qualitative methods: Quality assurance or qualitative quagmire?       Qualitative Health Research, 8(3), 352-361.

Bogdan, R. C. & Biklen, S. K. (1998). Qualitative research in education: An introduction to          theory and methods (3rd ed.). Needham Heights, MA: Allyn & Bacon.

Campbell, T. (1996). Technology, multimedia, and qualitative research in education. Journal of     Research on Computing in Education, 30(9), 122-133.

Charles, C. M. (1995). Introduction to educational research (2nd ed.). San Diego, Longman.

Clont, J. G. (1992). The concept of reliability as it pertains to data from qualitative studies.             Paper Presented at the annual meeting ofthe South West Educational Research Association. Houston, TX.

Creswell, J. W. & Miller, D. L. (2000). Determining validity in qualitative inquiry. Theory into      Practice, 39(3), 124-131.

Crocker, L., & Algina, J. (1986). Introduction to classical and modern test theory. Toronto: Holt,   RineHart, and Winston, Inc.

Davies, D., & Dodd, J. (2002). Qualitative research and the question of rigor. Qualitative Health research, 12(2), 279-289.

Denzin, N. K. (1978). The research act: A theoretical introduction to sociological methods. New   York: McGraw-Hill.

Denzin, N. K., & Lincoln, Y. S. Eds.). (1998). The landscape of qualitative research: Theories      and issues. Thousand Oaks: Sage Publications.

Denzin, N. K., & Lincoln, Y. S. (1998) (Eds). Collecting and interpreting qualitative materials.     Thousand Oaks: Sage Publication.

Eisner, E. W. (1991). The enlightened eye: Qualitative inquiry and the enhancement of       educational practice. New York, NY: Macmillan Publishing Company.

Glesne, C., & Peshkin, P. (1992). Becoming qualitative researches: An introduction. New York,    NY: Longman.

Healy, M., & Perry, C. (2000). Comprehensive criteria to judge validityand reliability of    qualitative research within the realism paradigm. Qualitative Market Research, 3(3), 118-          126.

Hoepfl, M. C. (1997). Choosing qualitative research: A primer for technology education    researchers. Journal of Technology Education, 9(1), 47-63. Retrieved February 25, 1998,    from http://scholar.lib.vt.edu/ejournals/JTE/v9n1/pdf/hoepfl.pdf

Hipps, J. A. (1993). Trustworthiness and authenticity: Alternate ways to judge authentic     assessments. Paper presented at the annual meeting of the American Educational          Research Association. Atlanta, GA.

Johnson, B. R. (1997). Examining the validity structure of qualitativeresearch. Education,             118(3), 282-292.

Johnson, S. D. (1995, Spring). Will our research hold upunder scrutiny? Journal of Industrial        Teacher Education, 32(3), 3-6.

Joppe, M. (2000).  The Research Process.  Retrieved February 25, 1998, from             http://www.ryerson.ca/~mjoppe/rp.htm

Kirk, J., & Miller, M. L. (1986). Reliability and validity in qualitative research. Beverly Hills:         Sage Publications.

Lincoln, Y. S., & Guba, E. G. (1985). Naturalistic inquiry. Beverly Hills, CA: Sage.

Mathison, S. (1988). Why triangulate? Educational Researcher, 17(2), 13-17.

Maxwell, J. A. (1992). Understanding and validity in qualitative research. Harvard Educational   Review, 62(3), 279-300

Patton, M. Q. (2002). Qualitative evaluation and research methods (3rd ed.). Thousand Oaks,       CA: Sage Publications, Inc.

Seale, C. (1999). Quality in qualitative research. Qualitative Inquiry, 5(4), 465-478.

Stenbacka, C. (2001). Qualitative research requires quality concepts of its own. Management        Decision,  39(7), 551-555

Strauss, A., & Corbin, J. (1990). Basics of qualitative research: Grounded theoryprocedures         and techniques. Newbury Park, CA: Sage Publications, Inc.

Wainer, H., & Braun, H. I. (1988). Test validity. Hilldale, NJ: Lawrence Earlbaum Associates.

Winter, G. (2000). A comparative discussion of the notion of validity in qualitative and    quantitative research. The Qualitative Report, 4(3&4). Retrieved February 25, 1998, from        http://www.nova.edu/ssss/QR/QR4-3/winter.html

Author’s Note

Nahid Golafshani is a doctoral student in the department of Curriculum, Teaching and Learning at the Ontario Institute for Studying Education\University of Toronto where she learns and gains experiences by working with the diverse group of students and faculties. Her area of specialization is Mathematics Education. Her researches include multicultural teaching and learning, teachers’ beliefs, and problem-based mathematics learning and learning. Ms. Golafshani may be contacted at Ontario Institute for Studying Education\University of Toronto Curriculum,Teaching and Learning, 252 Bloor Street West, Toronto, Ontario, Canada M5S 1V6; Telephone: 519-747-4559; Fax Telephone: (253) 322-8961; E-mail: ngolafshani@oise.utoronto.ca

Copyright 2003: Nahid Golafshani and Nova Southeastern University

Author’s Citation

Golafshani, N. (2003). Understanding reliability and validity in qualitative research. The   Qualitative Report, 8(4), 597-606. Retrieved [Insert date], from:           http://www.nova.edu/ssss/QR/QR8-4/golafshani.pdf

——————–&&&—————-

Phân phối Tweedie (Tweedie distribution)

Phân phối Tweedie (Tweedie distribution)

(Nguồn: https://en.wikipedia.org)

Phân phối Tweedie là gì?

Trong xác suất và thống kê, họ phân bố Tweedie là họ các phân bố xác suất bao gồm: các phân bố chuẩn và gamma liên tục, phân bố Poisson rời rạc; và phân bố Poisson-gamma hỗn hợp. Đối với bất kỳ biến ngẫu nhiên Y nào tuân thủ phân bố Tweedie, phương sai var (Y) liên hệ với kỳ vọng E (Y) theo luật mũ:

{\text{var}}\,(Y)=a[{\text{E}}\,(Y)]^{p},

trong đó a và p là hằng số dương.

Các phân phối Tweedie được đặt tên bởi Bent Jørgensen theo tên của Maurice Tweedie – một nhà vật lý trị liệu và y học tại Đại học Liverpool, Vương quốc Anh – người đã đưa ra nghiên cứu kỹ lưỡng đầu tiên về các phân bố này vào năm 1984.

Một số họ phân phối Tweedie:

Với 0 < p < 1 không tồn tại phân phối Tweedie.

Tài liệu hướng dẫn thực hành phân phối Tweedie trên R:

Ghi chú. Các họ phân phối xác suất: Circular ; compound Poisson ; elliptical ; exponential ; natural exponential ; location–scale ; maximum entropy ; mixture ; Pearson ; Tweedie ; wrapped

———————–&&&———————

Mô hình Cox (Cox proportional hazards model)

Mô hình Cox (Cox proportional hazards model)

(Tác giả: Nguyễn Văn Tuấn – Nguồn: http://tuanvannguyen.blogspot.com)

Có thể nói công trình làm nên tên tuổi của Gs David Cox là bài báo “Regression models and life-tables” công bố trên tập san Journal of the Royal Statistical Society năm 1972. Trong bài báo đó, ông mô tả một phương pháp phân tích các dữ liệu sống còn theo mô thức hồi qui. Mô hình này sau này được biết đến dưới thuật ngữ “Cox’s proportional hazards model” (nhớ rằng hazards có “s” nhé).

Chúng ta đã biết rằng có 2 mô hình hồi qui phổ biến dựa vào biến outcome. Để tìm hiểu mối liên quan giữa một biến outcome liên tục và những yếu tố khác, chúng ta dùng mô hình hồi qui tuyến tính (linear regression). Ví dụ như mô hình mối liên quan sự ảnh hưởng của gen đến biến insulin, vì insulin là biến outcome thuộc loại liên tục, nên chúng ta dùng mô hình hồi qui tuyến tính. Nếu biến outcome là biến nhị phân (chỉ có hai giá trị 0/1, yes/no, sống/chết …) thì chúng ta dùng mô hình hồi qui logistic.

Nhưng nếu biến outcome là biến nhị phân, mà nó lại phụ thuộc vào thời gian theo dõi. Ví dụ như bệnh nhân được điều trị, có người sống suốt thời gian theo dõi, có người chết sau điều trị vài tháng, có người sống đến 2 năm, lại có người chúng ta không biết còn sống hay chết vì không theo dõi được. Trong những trường hợp này, chúng ta dùng mô hình hồi quy Cox (còn gọi là mô hình hazards), như ông mô tả trong bài báo công bố vào năm 1972. Gọi L(t) là rủi ro (hazard) của một cá nhân tại thời điểm t, mô hình hồi qui Cox phát biểu rằng L(t) được xác định bởi tích số của rủi ro trung bình (L0) và ảnh hưởng của các yếu tố nguy cơ (X1, X2, …, Xk):

L(t) = L0*exp(b1X1 + b2X2 + … + bkXk)

Trong đó, b1, b2, …, bk là hệ số cần phải ước tính từ dữ liệu thực tế. Ví dụ như tôi muốn biết rủi ro bị ung thư trong vòng 5 năm, L(5), của một cá nhân bằng rủi ro trung bình trong quần thể, L0, và ảnh hưởng của các yếu tố như độ tuổi, giới tính, lối sống, gen, v.v.

Mô hình này phổ biến trong hầu hết các ngành khoa học, từ y khoa đến kĩ thuật và xã hội học. Nhiều nhà khoa học xã hội còn áp dụng mô hình để nghiên cứu thời gian từ lúc hôn nhân đến li dị! Bài báo của Gs Cox cho đến nay (sau 45 năm) đã có hơn 45,000 trích dẫn! Bài báo này được đánh giá là một trong 100 công trình nổi tiếng toàn cầu từ trước đến nay (Con số trích dẫn của toàn bộ nền toán học Việt Nam trong 10 năm cũng không bằng phân nửa con số trích dẫn này của 1 bài báo).

Bây giờ, khi chúng ta đã biết và hiểu mô hình này, thì thấy nó không có gì quá phức tạp, nhưng phát kiến đó tốn Gs Cox rất nhiều thời gian. Ông cho biết rằng trước đó ông đã quan tâm đến vấn đề reliability trong kĩ thuật trong thời gian làm việc cho hãng máy bay và hiệp hội vải len, nhưng chưa nghĩ ra cách phân tích. Ông cho biết ông dành đến 4 năm cho công trình này. Có đêm ông thức giấc và nghĩ đến nó, nhưng rồi lại … ngủ.

Được hỏi tại sao bài báo trở nên phổ biến, ông cho rằng một phần là phương pháp elegant và dễ hiểu, nhưng phần quan trọng khác là có nhiều người viết chương trình máy tính để triển khai mô hình trong thực tế. Thế là nhiều người có thể ứng dụng và trích dẫn bài báo. Đây cũng là một bài học cho nhà khoa học, vì muốn phương pháp của mình được nhiều người sử dụng (và gây ảnh hưởng) thì ngoài lí thuyết còn phải viết chương trình máy tính.

Trong một bài nói chuyện về tiến bộ trong y học trong thế kỉ 20, một giáo sư Mĩ lừng danh là Ioanndidis nói rằng “mô hình Cox” là một trong những tiến bộ quan trọng nhất. Mà, đúng như thế. Làm sao chúng ta có thể xác định hiệu quả của thuốc điều trị, của thuật can thiệp; làm sao chúng ta có cách chọn phương pháp điều trị tối ưu và cứu sống bệnh nhân. Ứng dụng mô hình Cox đã giúp y khoa trả lời những câu hỏi đó. Qua mô hình Cox, ông đã gián tiếp cứu vô số bệnh nhân trên toàn thế giới. Qua mô hình đó, ông cũng đã làm thay đổi cách phân tích của các nhà khoa học, kinh tế học, xã hội học, công nghệ, v.v. và giúp họ có những khám phá có ích cho đời. Nhìn như thế, chúng thấy mức độ ảnh hưởng của David Cox quả là to lớn, và khó có thể đo lường bằng chỉ tần số trích dẫn.  Do đó, không ngạc nhiên khi 3 năm trước, Tạp chí Nature xếp công trình “Cox’s model” là một trong 100 công trình có ảnh hưởng lớn nhất trong lịch sử khoa học (“top 100 most-cited papers of all time for all fields”) (1).

======

(1) http://www.nature.com/news/the-top-100-papers-1.16224

Trong số 100 bài báo có ảnh hưởng lớn nhất trong lịch sử khoa học, có đến 12 bài thuộc khoa học thống kê. Một số công trình này tuy có ảnh hưởng lớn đến khoa học, nhưng chưa hẳn là những công trình hàng đầu trong thống kê học. Danh sách 12 bài đó là như sau:

1. Kaplan, E. L. & Meier, P. Nonparametric estimation from incomplete observations. Journal of the American Statistical Association. 53, 457–481 (1958).

2. Cox, D. R. Regression models and life-tables. J. R. Stat. Soc., B 34, 187–220 (1972).

3. Bland, J. M. & Altman, D. G. Statistical methods for assessing agreement between two methods of clinical measurement. Lancet 327, 307–310 (1986).

4. Dempster, A. P., Laird, N. M. & Rubin, D. B. Maximum likelihood from incomplete data via EM algorithm. J. R. Stat. Soc., B 39, 1–38 (1977).

5. Benjamini, Y. & Hochberg, Y. Controlling the false discovery rate: a practical and powerful approach to multiple testing. J. R. Stat. Soc. B 57, 289–300 (1995).

6. Duncan, D. B. Multiple range and multiple F tests. Biometrics 11, 1–42 (1955).

7. Landis, J. R. & Koch, G. G. The measurement of observer agreement for categorical data. Biometrics 33, 159–174 (1977).

8. Akaike, H. A new look at statistical-model identification. IEEE Trans. Automat. Contr. 19, 716–723 (1974).

9. Marquardt, D. W. An algorithm for least-squares estimation of nonlinear parameters. J. Soc. Ind. Appl. Math. 11, 431–441 (1963).

10. Felsenstein, J. Confidence limits on phylogenies: an approach using the bootstrap. Evolution 39, 783–791 (1985).

11. Baron, R. M. & Kenny, D. A. The moderator–mediator variable distinction in social psychological-research — conceptual, strategic, and statistical considerations. J. Pers. Soc. Psychol. 51, 1173–1182 (1986).

12. Ronquist, F. & Huelsenbeck, J. P. MrBayes 3: Bayesian phylogenetic inference under mixed models. Bioinformatics 19, 1572–1574 (2003).


Xem thêm:

—————-&&&—————-

“Over-fitting” và ý nghĩa thực tế trong đời sống

“Over-fitting” và ý nghĩa thực tế trong đời sống

(Tác giả: Nguyễn Văn Tuấn – Nguồn: http://tuanvannguyen.blogspot.com)

Không nói ra thì ai cũng biết chuyện hôn nhân là chuyện hệ trọng. Vì tính hệ trọng của nó nên đòi hỏi người ta phải suy nghĩ cẩn thận. Nhưng một vấn đề  trong thống kê học vàmachine learning có tên là “over-fitting” (1) khuyên bạn không nên suy nghĩ nhiều quá. Trong cuốn sách “Algorithms to live by” tác giả bàn về ý nghĩa của over-fitting trong việc chọn người bạn đời, thói thần tượng hoá, kĩ nghệ luyện gà đá, tiến hoá và thực phẩm, và ở đây tôi tóm lược vài ý chính như là một giải trí cuối năm cho các bạn.

“Đại số đạo đức”

Nhà tiến hoá học Charles Darwin là một người rất cẩn thận. Trước khi đi đến quyết định thành hôn, ông ngồi xuống suy tính và cân nhắc lợi và hại của hôn nhân, và những suy nghĩ này được viết xuống trong cuốn nhật kí năm 1838. Ông liệt kê những lợi ích của hôn nhân như có người đồng hành trong đời, có người chit-chat như nghe nhạc, và có người chăm sóc khi về già. Nhưng ông cũng nghĩ đến những điều bất lợi của hôn nhân như mất thì giờ ghê gớm, mất tự do đi đây đó mà ông muốn, thêm lo lắng bởi con cái, và có ít tiền hơn để … mua sách (Hình 1). Tất cả chỉ giới hạn trong 1 trang giấy.

Hình 1: Nhật kí của Charles Darwin cân nhắc lợi và hại của hôn nhân

Cuối cùng, ông quyết định thành hôn, và ông viết xuống kết luận này bằng kí hiệu QED mà có lẽ nhiều người trong chúng ta đều biết. Ông thành hôn với người em họ là Emma Wedgwood vào ngày 29/1/1839. Hai người có đến 10 người con. Có thể nói là một cuộc hôn nhân thành công.

Những suy nghĩ và cân nhắc của Darwin có thể xem là một sự tính toán. Benjamin Franklin gọi những “tính toán” định tính là “Moral Algebra” — đại số đạo đức. Nhiều người trong chúng ta có lẽ nghĩ rằng những quyết định quan trọng trong đời cần phải dựa vào đại số đạo đức càng nhiều càng tốt. Thoạt đầu mới nghe qua thì cũng có lí, vì đúng là suy nghĩ càng nhiều, chúng ta càng có nhiều lựa chọn và từ đó đi đến quyết định tối ưu. Nhưng trong thực tế thì không hẳn như thế: suy nghĩ nhiều chưa chắc đã tốt.

Over-fitting là gì?

Để hiểu vấn đề này, chúng ta có thể xem việc cân nhắc của Darwin như là một cách mô hình dữ liệu. Mô hình dữ liệu có nghĩa là tìm phương trình để mô tả các mối tương quan dựa trên dữ liệu thực tế, mà tiếng Anh gọi là “model fitting”. Có nhiều mô hình có thể sử dụng để mô tả một mối liên quan. Vấn đề là làm sao tìm mô hình tốt nhất. Nếu mối liên quan cần 2 tham số, mà mô hình dùng 1 tham số thì được gọi là under-fitting; nhưng nếu mô hình dùng đến 5 tham số thì sẽ xảy ra tình trạng over-fitting. Tương tự, suy nghĩ nhiều quá sẽ dẫn đến over-fitting, hay nói theo ngôn ngữ dân gian là “tẩu hoả nhập ma.”

Có thể minh hoạ cho vấn đề over-fitting qua một ví dụ về mối tương quan giữa mức độ hài lòng trong cuộc sống và thời gian 10 năm sau thành hôn. Các nhà nghiên cứu tâm lí học thực hiện một nghiên cứu trên một số cặp vợ chồng và hỏi họ về sự hài lòng trong đời sống sau khi thành hôn (1), và biểu đồ dưới đây (Hình 2) trình bày mối tương quan đó. Nhưng có thể thấy, nhìn chung thì mức độ hài lòng suy giảm theo thời gian, nhưng mối liên quan với thời gian không hẳn tuân theo phương trình đường thẳng. Trong 3 năm đầu, mức độ suy giảm khá nhanh, nhưng sau đó tăng trong năm thứ 4 và 5; sau 5 năm thành hôn thì mức độ hài lòng lại suy giảm nữa.

Hình 2: mối liên quan giữa mức độ hài lòng trong cuộc sống và thời gian sau thành hôn

Vấn đề của chúng ta là tìm một phương trình (hay mô hình) tốt nhất để mô tả mối liên quan đó. Gọi mức độ hài lòng là y, và thời gian sau thành hôn là t, mô hình đơn giản nhất là hồi qui tuyến tính đơn giản (tức chỉ có 1 tham số) dưới dạng y = a + b*t (trong đó a là điểm khởi đầu, và b là tham số liên quan đến t). Mô hình này mô tả khá tốt mối liên quan (xem Hình 3, đường đứt đoạn). Mô hình này giải thích được 90% sự khác biệt của dữ liệu.

Hình 3: mối liên quan giữa mức độ hài lòng trong cuộc sống và thời gian sau thành hôn được mô tả qua 3 mô hình: tuyến tính (one-factor model); đa thức bậc 2 (two-factor model); và mô hình đa thức bậc 9.

Nhưng vì trong thực tế mức độ hài lòng tăng vào năm thứ 4-5 và giảm sau đó, nên có lẽ mô hình tốt hơn là mô hình đa thức bậc hai, hay nói trắng ra là phương trình bậc hai: y = a + b*t + c*t^2 (trong đó t^2 là t bình phương và c là tham số mới liên quan đến t^2). Mô hình 2 tham số này (đường đứt đoạn dài) quả thật tốt hơn mô hình tuyến tính 1 tham số. Nhưng mô hình 2 tham số này giải thích được 93% phương sai của y, tức là vẫn còn 7% chưa giải thích được.

Nhưng chúng ta thử “thừa thắng xông lên” tìm mô hình giải thích 100% phương sai của y xem sao. Với máy tính và chương trình R, chỉ cần 2 phút là chúng ta đã có mô hình 9 tham số có thể giải thích gần 100% phương sai của y. Mô hình này thật là tốt, tốt nhất so với hai mô hình đơn giản kia.

Nhưng chúng ta đừng quên rằng một mục đích khác của mô hình hoá dữ liệu là tiên lượng — tiên lượng tương lai. Tương lai là cái mà chúng ta chưa quan sát được. Câu hỏi là 3 mô hình trên (1 tham số, 2 tham số, và 9 tham số) thì mô hình nào dự báo tốt nhất cho năm 11, 12, v.v.  Không ngạc nhiên khi mô hình 1 tham số tiên lượng mức độ hài lòng tiếp tục giảm trong năm 11, còn mô hình 2 tham số cũng tiên lượng giảm nhưng giảm một chút thôi.  Nhưng điều kì lạ là mô hình 9 tham số tiên lượng rằng năm thứ 11 sau thành hôn thì mức độ hài lòng giảm như là xe hơi lao dốc xuống núi! Đành rằng mức độ hài lòng có thể suy giảm, nhưng không thể nào giảm đột ngột như mô hình 9 tham số dự báo như thế. Có cái gì nghịch lí ở đây: mô hình giải thích nhiều dữ liệu nhất lại là mô hình tiên lượng tồi nhất!

Thật ra, “hiện tượng” mà mô hình giải thích mối tương quan tốt nhất nhưng tiên lượng tồi nhất không phải là mới, vì nó đã được các nhà khoa học thống kê học phát hiện từ xưa (thời Mosteller) và đặt tên là over-fitting. Đối nghịch với over-fitting là under-fitting. Mô hình hồi qui tuyến tính 1 tham số được xem là under-fitting. Mô hình 9 tham số được gọi là over-fitting. Có lẽ mô hình đa thức bậc 2 là tối ưu nhất. Tôi nói “có lẽ” là vì chúng ta chưa làm xét nghiệm để xác định mô hình nào là tối ưu; chúng ta mới dùng cảm quan và trực giác mà thôi.

“Mặc áo” cho dữ liệu

Như vậy, over-fitting xảy ra khi mô hình có nhiều tham số hơn cần thiết. Tình trạng này cũng giống y chang việc chọn quần áo. Nếu quần áo quá chật hay quá rộng đều tạo ấn tượng không tốt, mà còn bất tiện. Nhưng chọn quần áo vừa thân hình một cá nhân, ngoài sở thích cá nhân, còn là một nghệ thuật. Do đó, việc mô hình dữ liệu khoa học cũng có thể ví von như là mặc áo cho dữ liệu.

Với cách ví von đó, tôi nghĩ có thể xem nhà thống kê học như là người thợ may. Người thợ may, trước khi tiến hành cắt vải, phải đo lường cẩn thận (hay nói theo ngôn ngữ nhà nghề là lấy ni, tấc) để có thể cắt vải đúng kích thước. Nhà thống kê học cũng như thế: trước khi chọn mô hình cho dữ liệu, họ phải xem xét phân bố của dữ liệu, đơn vị đo lường, chuẩn hoá dữ liệu (standardization), và đánh giá các mối liên quan, trước khi chọn mô hình thích hợp. Các thông số của bộ quần áo chính là tham số của mô hình thống kê. Cái software để ước tính tham số chính là cái máy may.

Nhưng người thợ may có kinh nghiệm còn phải xem xét đến khía cạnh thẩm mĩ, họ phải nhìn người khách hàng, cân nhắc giữa sắc diện và cấu trúc thân thể, để đi đến màu sắc của vải, chọn chất liệu, để sau cùng có một bộ đồ không chỉ vừa vặn mà còn thanh nhã. Tương tự, nhà thống kê học có kinh nghiệm còn phải quan tâm đến cách trình bày dữ liệu một cách đẹp đẽ và trang nhã qua thiết kế biểu đồ. Biểu đồ phải có phẩm chất tốt, có màu sắc và font chữ ai cũng đọc được (chứ không phải loại biểu đồ Excel). Nhà thống kê học còn phải quan tâm đến ý nghĩa của kết quả phân tích (chứ không chỉ cho ra những kết quả vô nghĩa). Cái khác biệt giữa một nhà khoa học và một kĩ thuật viên là ở chỗ này: nhà khoa học phải hiểu biết ý nghĩa của kết quả phân tích, còn kĩ thuật viên thì chỉ quan tâm đến sự chính xác và mẹo tính toán nhanh hơn. (Ở đây, không nói ai quan trọng hơn ai, vì cả hai đều quan trọng).

Ý nghĩa cuộc sống của over-fitting

Tình trạng này cũng giống như suy nghĩ nhiều quá có thể giúp chúng ta giải thích được những gì mình quan sát trong quá khứ (và hiện tại), nhưng nó không hẳn giúp ích chúng ta trong quyết định cho tương lai mà có thể làm cho tình hình rối lên. Nhưng under-fitting thì lại bỏ sót và tiên lượng kém chính xác. Thành ra, nghệ thuật của mô hình hoá các mối liên quan là tìm một mô hình không có quá nhiều tham số mà cũng không có quá ít tham số. Nghệ thuật này cũng là nghệ thuật sống: tìm cách sống trung dung.

Đọc đến đây có lẽ các bạn “có tuổi” cỡ thế hệ thôi nghĩ ngay đến thuyết “Trung dung” của Tử Tư. Trong sách “Trung dung”, Tử Tư khuyên người quân tử nên giữ cách sống trung hòa, không thái quá. Do đó, tôi nghĩ mô hình tốt nhất trong khoa học cũng giống như mẫu người “quân tử” của Tử Tư vậy. Người quân tử hành xử giữ thế trung bình giữa hai thái cực, thì mô hình tốt cũng chính là mô hình nằm giữa hai thái cực qua đơn giản và quá phức tạp.

Over-fitting có ý nghĩa trong vấn đề sùng bái thần tượng mà tiếng Anh họ gọi là idolatry. Vào thời xa xưa, người ta sùng bái thần thánh và nặn tượng cho họ. Dù chỉ là đất sét thôi, nhưng dân chúng ai cũng vái lạy vì người ta nghĩ các tượng đất sét này là biểu tượng của thần linh. Trong các thể chế toàn trị như Cuba và Romania, chúng ta hay thấy nạn sùng bái thần tượng, mà theo đó người dân được dạy và buộc phải xem họ như là thần thánh, là cha mẹ dân tộc.  Sùng bái thần tượng giúp cho người ta cảm thấy thoải mái vì có cảm hứng và có người để cầu cạnh (và cầu nguyện) nhưng nó làm người ta quên đi hiện tình. Sự sùng bái thần tượng là một hình thức của over-fitting trong đời sống tâm linh. Over-fitting cũng giống như là một hình thức thần tượng hoá dữ liệu (dân trong nghề gọi là “data idolatry”), và đó cũng là hệ quả của việc tập trung thái quá vào những gì chúng ta có thể đo lường được, nhưng thiếu tập trung vào vấn đề.

Tình trạng over-fitting còn có thể giải thích tại sao những thực phẩm ngon miệng [nói chung] lại có hại cho sức khoẻ. Những chất dinh dưỡng cơ bản như đường, muối, mỡ đều rất cần thiết cho sự tiến hoá của nhân loại qua hàng triệu năm, nhưng ngày nay lại có tác hại đến sức khoẻ con người. Ăn nhiều muối có thể làm tăng huyết áp, và dẫn đến mấy bệnh tim mạch nguy hiểm. Ăn nhiều mỡ và đường thì khói nói ai cũng biết là có hại cho sức khoẻ. Ngày xưa, khi thực phẩm khan hiếm, thì những chất dinh dưỡng đó là những “luxury” của cuộc sống, và chúng là biểu tượng của cách ăn uống lành mạnh. Nhưng khi công nghệ chế biến hoàn thiện thì các chất dinh dưỡng đó trở nên thừa thải và con người tiêu thụ như không có ngày mai — một hiện tượng tiêu thụ thái quá. Thế là từ những “good guys”, các chất dinh dưỡng đó và nhiều thực phẩm khác được xem là “bad guys” trong cuộc sống hiện đại.

Over-fitting cũng có thể giải thích tại sao VN đứng hạng cao trong PISA hay các kì thi Olympic, mà hệ thống giáo dục bị chính người trong nước đánh giá thấp. Ở Việt Nam không chỉ có kĩ nghệ dạy và học thêm (ngoài giờ), mà còn có hẳn những chương trình luyện thi để chiếm các giải thưởng quốc tế.  Đó là những chương trình dạy và học tủ để chuẩn bị cho những kì thi có cấu trúc cố định. Chiến lược tập trung vào một nhóm nhỏ và một số môn học giúp cho Việt Nam có nhiều giải thưởng quốc tế, nhưng đứng trên bình diện quần thể thì đa số học sinh không hưởng lợi gì đáng kể từ những kĩ nghệ đó. Chiến lược luyện gà chọi cũng giống như tập trung tìm một mô hình nhằm giải thích các mối liên quan phức tạp trong một môi trường có kiểm soát, nhưng khi ứng dụng mô hình cho tương lai hay cho một quần thể lớn thì mô hình đó hoàn toàn thất bại. Đó chính là sự thất bại của  ứng dụng một mô hình over-fitting cho một quần thể độc lập. Tình trạng over-fitting cũng giải thích tại sao việc nhồi nhét kiến thức cho học sinh, sinh viên không hẳn là tốt cho tương lai của họ, và giải thích tại sao sinh viên VN có thể học tốt ở bậc thấp, nhưng càng lên cao thì sinh viên VN càng kém.

Các bạn có thể nghĩ thêm về ý nghĩa của over-fitting trong các khía cạnh đời sống chính trị – xã hội khác, kể cả trong quyết định hôn nhân. Hôn nhân, nói cho cùng là một thí nghiệm tình cảm xã hội. Cái khó của thí nghiệm này là có quá nhiều thông tin mà chúng ta chưa có phương tiện để đo chính xác, và có khá nhiều nhiễu. (Chẳng hạn như làm sao chúng ta đo lường chính xác được sự hài lòng của “đối tượng”. Trong cuộc cạnh tranh tình cảm thì có khá nhiều yếu tố nhiễu làm chúng ta mất tập trung.) Trong điều kiện nhiễu thông tin và thiếu chính xác, mô hình rất dễ trở nên over-fitting.  Nói cách khác, chúng ta không nên suy nghĩ nhiều quá trước quyết định hôn nhân.

Nếu không suy nghĩ nhiều quá thì suy nghĩ ít? Không phải. Một cách khắc phục tình trạng over-fitting là suy nghĩ có kiểm soát, có định hướng. Nói theo ngôn ngữ thống kê học là mô hình cần phải có yếu tố để kiểm soát các tham số, không có chúng quá lạc quan, và mô hình đó có tên chung là ” regularized model” (2). Nhưng có lẽ giải pháp thực tế hơn là suy nghĩ theo mô thức có tên phức tạp là “heuristics”, có thể hiểu là “xấp xỉ”. Nhà tâm lí học Daniel Kahneman gọi đó là “suy nghĩ nhanh” mà tôi có lần điểm sách “Thinking, fast and slow”. Trong tình huống phức tạp, đa yếu tố, phương pháp suy nghĩ nhanh, ngạc nhiên thay, có hiệu quả diệu kì. Lí thuyết này (heuristics) đã từng đem lại giải Nobel cho nhà kinh tế Harry Markowitz năm 1990. Markowitz cho biết khi đối đầu với tình huống quá phức tạp, ông tìm cách suy nghĩ xấp xỉ heuristics.

Quay lại vấn đề quyết định hôn nhân, bài học từ “over-fitting” là đừng suy nghĩ nhiều quá, mà suy nghĩ trung dung thôi. Suy nghĩ trung dung là dùng ít thông tin hơn nhưng và thông tin có chất lượng cao (gọi là substantial data) nhưng vẫn đạt được độ chính xác tốt.  Trường hợp của Darwin mà tôi đề cập trong phần đầu minh chứng cho điều này. Cái yếu tố quan trọng nhất trong phân tích của Darwin là ông thấy trước một viễn ảnh chỉ làm việc, làm việc, và làm việc mà không có con cái hay “người đồng hành” chia ngọt xẻ bùi, còn yếu tố có ít tiền hơn để mua sách chỉ là yếu tố nhiễu mà thôi.

Ngoài ra, việc giới hạn những cân nhắc trong 1 trang giấy có nghĩa là Darwin cũng áp dụng nguyên tắc kiểm soát (mà ông có thể không biết) trước khi đi đến quyết định sau cùng, và quyết định đó hoá ra rất tốt. Xin nhắc lại bài học quan trọng là: khi đứng trước một tình huống phức tạp với nhiều thông tin, đặc biệt là thông tin nhiễu, suy nghĩ ít theo hướng tiết kiệm là phương án tốt nhất.

====

(1) Vấn đề over-fitting sẽ được bàn trong workshop sắp tới về machine learning ở ĐH TĐT. Chúng ta sẽ bàn về ý nghĩa của over-fitting trong các mô hình phổ biến trong khoa học với vài ví dụ thú vị.

(2) Nhưng đây là chủ đề khác mà chúng tôi sẽ bàn trong khoá học Machine Learning vào tháng 1 tới đây.

————&&———–