Mô hình Cox (Cox proportional hazards model)

Mô hình Cox (Cox proportional hazards model)

(Tác giả: Nguyễn Văn Tuấn – Nguồn: http://tuanvannguyen.blogspot.com)

Có thể nói công trình làm nên tên tuổi của Gs David Cox là bài báo “Regression models and life-tables” công bố trên tập san Journal of the Royal Statistical Society năm 1972. Trong bài báo đó, ông mô tả một phương pháp phân tích các dữ liệu sống còn theo mô thức hồi qui. Mô hình này sau này được biết đến dưới thuật ngữ “Cox’s proportional hazards model” (nhớ rằng hazards có “s” nhé).

Chúng ta đã biết rằng có 2 mô hình hồi qui phổ biến dựa vào biến outcome. Để tìm hiểu mối liên quan giữa một biến outcome liên tục và những yếu tố khác, chúng ta dùng mô hình hồi qui tuyến tính (linear regression). Ví dụ như mô hình mối liên quan sự ảnh hưởng của gen đến biến insulin, vì insulin là biến outcome thuộc loại liên tục, nên chúng ta dùng mô hình hồi qui tuyến tính. Nếu biến outcome là biến nhị phân (chỉ có hai giá trị 0/1, yes/no, sống/chết …) thì chúng ta dùng mô hình hồi qui logistic.

Nhưng nếu biến outcome là biến nhị phân, mà nó lại phụ thuộc vào thời gian theo dõi. Ví dụ như bệnh nhân được điều trị, có người sống suốt thời gian theo dõi, có người chết sau điều trị vài tháng, có người sống đến 2 năm, lại có người chúng ta không biết còn sống hay chết vì không theo dõi được. Trong những trường hợp này, chúng ta dùng mô hình hồi quy Cox (còn gọi là mô hình hazards), như ông mô tả trong bài báo công bố vào năm 1972. Gọi L(t) là rủi ro (hazard) của một cá nhân tại thời điểm t, mô hình hồi qui Cox phát biểu rằng L(t) được xác định bởi tích số của rủi ro trung bình (L0) và ảnh hưởng của các yếu tố nguy cơ (X1, X2, …, Xk):

L(t) = L0*exp(b1X1 + b2X2 + … + bkXk)

Trong đó, b1, b2, …, bk là hệ số cần phải ước tính từ dữ liệu thực tế. Ví dụ như tôi muốn biết rủi ro bị ung thư trong vòng 5 năm, L(5), của một cá nhân bằng rủi ro trung bình trong quần thể, L0, và ảnh hưởng của các yếu tố như độ tuổi, giới tính, lối sống, gen, v.v.

Mô hình này phổ biến trong hầu hết các ngành khoa học, từ y khoa đến kĩ thuật và xã hội học. Nhiều nhà khoa học xã hội còn áp dụng mô hình để nghiên cứu thời gian từ lúc hôn nhân đến li dị! Bài báo của Gs Cox cho đến nay (sau 45 năm) đã có hơn 45,000 trích dẫn! Bài báo này được đánh giá là một trong 100 công trình nổi tiếng toàn cầu từ trước đến nay (Con số trích dẫn của toàn bộ nền toán học Việt Nam trong 10 năm cũng không bằng phân nửa con số trích dẫn này của 1 bài báo).

Bây giờ, khi chúng ta đã biết và hiểu mô hình này, thì thấy nó không có gì quá phức tạp, nhưng phát kiến đó tốn Gs Cox rất nhiều thời gian. Ông cho biết rằng trước đó ông đã quan tâm đến vấn đề reliability trong kĩ thuật trong thời gian làm việc cho hãng máy bay và hiệp hội vải len, nhưng chưa nghĩ ra cách phân tích. Ông cho biết ông dành đến 4 năm cho công trình này. Có đêm ông thức giấc và nghĩ đến nó, nhưng rồi lại … ngủ.

Được hỏi tại sao bài báo trở nên phổ biến, ông cho rằng một phần là phương pháp elegant và dễ hiểu, nhưng phần quan trọng khác là có nhiều người viết chương trình máy tính để triển khai mô hình trong thực tế. Thế là nhiều người có thể ứng dụng và trích dẫn bài báo. Đây cũng là một bài học cho nhà khoa học, vì muốn phương pháp của mình được nhiều người sử dụng (và gây ảnh hưởng) thì ngoài lí thuyết còn phải viết chương trình máy tính.

Trong một bài nói chuyện về tiến bộ trong y học trong thế kỉ 20, một giáo sư Mĩ lừng danh là Ioanndidis nói rằng “mô hình Cox” là một trong những tiến bộ quan trọng nhất. Mà, đúng như thế. Làm sao chúng ta có thể xác định hiệu quả của thuốc điều trị, của thuật can thiệp; làm sao chúng ta có cách chọn phương pháp điều trị tối ưu và cứu sống bệnh nhân. Ứng dụng mô hình Cox đã giúp y khoa trả lời những câu hỏi đó. Qua mô hình Cox, ông đã gián tiếp cứu vô số bệnh nhân trên toàn thế giới. Qua mô hình đó, ông cũng đã làm thay đổi cách phân tích của các nhà khoa học, kinh tế học, xã hội học, công nghệ, v.v. và giúp họ có những khám phá có ích cho đời. Nhìn như thế, chúng thấy mức độ ảnh hưởng của David Cox quả là to lớn, và khó có thể đo lường bằng chỉ tần số trích dẫn.  Do đó, không ngạc nhiên khi 3 năm trước, Tạp chí Nature xếp công trình “Cox’s model” là một trong 100 công trình có ảnh hưởng lớn nhất trong lịch sử khoa học (“top 100 most-cited papers of all time for all fields”) (1).

======

(1) http://www.nature.com/news/the-top-100-papers-1.16224

Trong số 100 bài báo có ảnh hưởng lớn nhất trong lịch sử khoa học, có đến 12 bài thuộc khoa học thống kê. Một số công trình này tuy có ảnh hưởng lớn đến khoa học, nhưng chưa hẳn là những công trình hàng đầu trong thống kê học. Danh sách 12 bài đó là như sau:

1. Kaplan, E. L. & Meier, P. Nonparametric estimation from incomplete observations. Journal of the American Statistical Association. 53, 457–481 (1958).

2. Cox, D. R. Regression models and life-tables. J. R. Stat. Soc., B 34, 187–220 (1972).

3. Bland, J. M. & Altman, D. G. Statistical methods for assessing agreement between two methods of clinical measurement. Lancet 327, 307–310 (1986).

4. Dempster, A. P., Laird, N. M. & Rubin, D. B. Maximum likelihood from incomplete data via EM algorithm. J. R. Stat. Soc., B 39, 1–38 (1977).

5. Benjamini, Y. & Hochberg, Y. Controlling the false discovery rate: a practical and powerful approach to multiple testing. J. R. Stat. Soc. B 57, 289–300 (1995).

6. Duncan, D. B. Multiple range and multiple F tests. Biometrics 11, 1–42 (1955).

7. Landis, J. R. & Koch, G. G. The measurement of observer agreement for categorical data. Biometrics 33, 159–174 (1977).

8. Akaike, H. A new look at statistical-model identification. IEEE Trans. Automat. Contr. 19, 716–723 (1974).

9. Marquardt, D. W. An algorithm for least-squares estimation of nonlinear parameters. J. Soc. Ind. Appl. Math. 11, 431–441 (1963).

10. Felsenstein, J. Confidence limits on phylogenies: an approach using the bootstrap. Evolution 39, 783–791 (1985).

11. Baron, R. M. & Kenny, D. A. The moderator–mediator variable distinction in social psychological-research — conceptual, strategic, and statistical considerations. J. Pers. Soc. Psychol. 51, 1173–1182 (1986).

12. Ronquist, F. & Huelsenbeck, J. P. MrBayes 3: Bayesian phylogenetic inference under mixed models. Bioinformatics 19, 1572–1574 (2003).


Xem thêm:

—————-&&&—————-

Một bình luận

  1. Bài viết hay!

Bình luận về bài viết này