Mô hình ARDL

Mô hình ARDL

(Nguồn: http://nghiencuudinhluong.com/)

Mô hình ARDL là gì? ARDL (AutoRegressive Distributed Lag) là sự kết hợp giữa mô hình VAR (tự hồi quy vector) và mô hình hồi quy bình phương nhỏ nhất (OLS) (Nguyễn Văn Duy, Đào Trung Kiên, Bùi Quang Tuyến, 2014). ARDL được xem là mô hình thành công, linh hoạt và dễ sử dụng cho việc phân tích các chuỗi thời gian đa biến (Aydin, 2000). Mô hình ARDL cho phép xác định tác động của các biến động lập tới biến phụ thuộc (Chen, 2007; Pasaran., Shin., Y., 1997). Mô hình ARDL có thể được biểu diễn như sau:

DYt= m +α1*DYt−1+α2*DYt−2 +…+αn*DYt−1 + β0*DXt+β1*DXt−1+…+ βn*DXt−n β2n*Xt−1ut

Trong đó: DYvà DXt là các biến dừng, và ut là phần nhiễu trắng

DYt−n và DXt−n  là các biến dừng ở các độ trễ.

Xt−1  là các biến độc lập chưa lấy sai phân ở độ trễ 1- tác động dài hạn nếu có

Để đảm bảo tin cậy khi  sử dụng mô hình ARDL các biến chuỗi thời gian có tính dừng, độ trễ xác định tối ưu, mô hình không thừa biến, không có hiện tượng tự tương quan, không có hiện tượng phương sai sai số thay đổi và dạng hàm phù hợp (Gurajati, 2003; Nguyễn Quang Dong & Nguyễn Thị Minh, 2012).

Chuỗi thời gian có tính dừng là chuỗi có trung bình, phương sai, hiệp phương sai không đổi tại mọi thời điểm (Gurajati, 2003). Để kiểm định tính dừng của chuỗi thời gian cho thể sử dụng nhiều kiểm định khác nhau như kiểm định Dickey – Fuller (DF), kiểm định Phillip – Person (PP), kiểm định Dickey – Fuller mở rộng (ADF). Trong phầm mềm Eviews thường dùng kiểm định nghiệm đơn vị (Unit Root Test) để kiểm định tính dừng của chuỗi thời gian dựa trên kiểm định ADF mở rộng (Nguyễn Quang Dong & Nguyễn Thị Minh, 2012).

trễ tối ưu là độ trễ tại đó các biến được mô hình hóa qua biến trễ và các biến khác cùng cùng một độ trễ cho kết quả tốt nhất. Việc xác định độ trễ tối ưu dựa trên các chỉ số lựa chọn (Ozcicek & McMillin, 1996), các chỉ số này được hỗ trợ trong phần mềm Eviews.

Mô hình thừa biến là mô hình đưa các biến độc lập không phù hợp hoặc không cần thiết vào mô hình. Kiểm định thừa biến sẽ cho biết cần loại những biến không cần thiết khỏi mô hình để không làm ảnh hưởng đến kết quả phân tích (Nguyễn Văn DuyĐào Trung KiênBùi Quang Tuyến, 2014).

Chú ý: Trong tài liệu này chỉ đánh giá tác động trong ngắn hạn. Tác động dài hạn cần kiểm tra bằng Johansen test và thực hiện đưa thêm biến chưa lấy sai phân vào trong mô hình

Dân Marketing tập chơi data-driven như thế nào?

Dân Marketing tập chơi data-driven như thế nào?

(Nguồn: https://www.brandsvietnam.com/)

Mọi người thường nói rất nhiều về big data, data-driven, ra quyết định dựa trên số liệu… Bạn cảm thấy đó dường như là cuộc chơi của các doanh nghiệp lớn, có luồng dữ liệu lớn, và có các chuyên gia thống kê chuyên nghiệp. Nhưng liệu, doanh nghiệp vừa và nhỏ của bạn có thể bắt đầu tham gia cuộc chơi data này ngay?

Bài viết là quan điểm của tác giả Khánh Nguyễn.

Client gần đây của tôi là một khu du lịch A, nằm ở tỉnh B. Trong buổi trao đổi, họ khá hài lòng với thông điệp truyền thông cho năm sắp tới, các kênh triển khai và ngân sách mà chúng tôi đề xuất. Tôi chắc mẩm đây sẽ là một buổi họp ngắn gọn và thành công. Nhưng đột nhiên, vị giám đốc của client quay sang phía tôi và hỏi:

“Chúng tôi rất hài lòng, nhưng chỉ có một băn khoăn duy nhất. Thông qua in-depth interview và social media listening, chúng tôi có lắng nghe được khách hàng phàn nàn rằng mức giá vé vào khu du lịch của chúng tôi quá cao. Theo các anh, nếu giảm mức giá từ 350.000VNĐ xuống còn 300.000VNĐ, thì phản ứng của khách hàng sẽ ra sao? Nói cách khác, liệu số du khách sẽ tăng lên bao nhiêu?”

Câu hỏi khiến Account Director của tôi khựng lại một chút. Sau một hồi ngẫm nghĩ, anh trả lời vị khách hàng rằng:

“Tôi nghĩ sẽ là khoảng 20%.”

“Tại sao cậu nghĩ vậy?” – vị khách hàng tò mò hỏi lại.

“Đây là dự đoán của cá nhân tôi. Tôi từng có 10 năm kinh nghiệm với các client ngành du lịch trong vùng này.”

Quả thật, câu trả lời với 10 năm kinh nghiệm của mình, Account Director của chúng tôi đã khiến client tạm hài lòng (hoặc có thể chưa hài lòng nhưng tạm chấp nhận). Tuy nhiên điều này khiến tôi hơi băn khoăn đôi chút, liệu có cách nào có thể khiến client hoàn toàn hài lòng với câu trả lời không? Có lẽ chỉ có một cách duy nhất: chứng minh bằng số liệu – vì Data không nói dối.Trong trường hợp này để dự đoán phản ứng của khách hàng với các mức giá, tôi sẽ sử dụng một phép toán rất nổi tiếng: Hàm hồi quy tuyến tính.

Chúng tôi bắt tay vào phỏng vấn giám đốc kinh doanh của client, CEO, CFO, rất nhiều khách hàng, để đưa ra các yếu tố ảnh hưởng đến lượng du khách. Thậm chí là khi di chuyển taxi tôi cũng tranh thủ đặt câu hỏi với người lái xe về du lịch địa phương. Kết quả, tôi có được hàm hồi quy:

Lượng khách hàng trong tháng = B1.Giá vé + B2.Tổng lượng mưa trong tháng + B3.Lượng khách quốc tế đến tỉnh B + B4.Lượng khách nội địa đến tỉnh + B5.Lượng khách đến khu du lịch bên cạnh + Ɛi

(Trong hàm hồi quy trên, Giá véTổng lượng mưaLượng khách quốc tếLượng khách nội địaLượng khách của khu du lịch bên cạnh là các yếu tố ảnh hưởng đến tổng lượng khách trong tháng)

Như vậy, nhiệm vụ của tôi sẽ là lấp đầy dữ liệu vào bảng dưới đây bằng dữ liệu trong quá khứ (hiện tại là tháng 10, nên tôi sẽ tìm dữ liệu của 9 tháng trước đó). Sau đó là sử dụng hồi quy trên excel, để tìm ra các ẩn số B1, B2, B3, B4, B5, từ đó dự đoán lượng khách các tháng trong tương lai.

Đây quả là một nhiệm vụ khó khăn. Lượng mưa là dữ liệu dễ nhất, tôi sử dụng dữ liệu trên accuweather.com và trang web của cục khí tượng thủy văn http://www.nchmf.gov.vn.

Giá và lượng khách của 9 tháng trước là dữ liệu client có sẵn, nhưng quả là phải rất nỗ lực, cộng với nhiều công sức giải thích, họ mới chấp nhận cho chúng tôi truy cập dữ liệu này.

Còn dữ liệu khách du lịch quốc tế (inbound) và nội địa (domestic)? Số liệu này nằm ở đâu đó ở Sở kế hoạch đầu tư và Sở Văn hóa Thể thao du lịch Tỉnh. Bằng rất nhiều cuộc gọi “nhờ vả”, cuối cùng tôi cũng có được bảng báo cáo… bằng Word dài gần 200 trang, tuy nhiên dữ liệu khá tốt.

Và phần khoai nhất, dữ liệu lượng khách của “hàng xóm”. Tôi vẫn xin được số liệu, với bài học rút ra là: Hãy sống tốt với hàng xóm, vì sẽ có lúc bạn cần nhờ họ giúp đỡ.

Phần hồi quy còn lại khá đơn giản trên excel, với số lượng mẫu N=9 (tương đương với 9 tháng). Kết quả thực sự bất ngờ, độ chính xác của hàm hồi quy là 94,38%. (Nhân tiện, nếu cần được hướng dẫn chi tiết thao tác sử dụng hàm hồi quy trên excel, bạn có thể click vào đây).

Với các kết quả B1, B2, B3, B4, B5, tôi dễ dàng dự đoán được lượng khách trong tháng 10. Khá hồi hộp, tôi nhấc máy lên và thông báo kết quả dự đoán của tháng 10. Và vị khách hàng đã thật sự bất ngờ và phấn khích: “OMG, cậu làm thế nào để biết được con số đó? Tình hình thực tế của chúng tôi đang tiến gần đến con số đó”.

Đó là một dự án thành công tương đối mỹ mãn. Sau dự án này, tôi có rút ra được một vài kinh nghiệm khi tập chơi data:

1. Chơi data là bạn đang đi trước đối thủ

Trước khi bắt tay vào xây dựng dashboard dự báo, tôi có gọi 2 cuộc điện thoại. Một cuộc cho đồng nghiệp cũ tại một công ty đa quốc gia của Nhật (bạn biết đấy, người Nhật suy nghĩ cực kỳ logic), và một cho người bạn tại một công ty FMCG lớn của Việt Nam. Tôi hỏi họ: tại công ty của anh, người ta có dùng… kinh tế lượng để dự đoán phản ứng của khách hàng tại mỗi mức giá không. Thật ngạc nhiên, họ đều trả lời là không.

Đó là một tin xấu, tôi không hề có người đi trước để hướng dẫn. Nhưng đó cũng là tin tốt: Ngay cả các công ty lớn, đủ lớn để phát sinh luồng dữ liệu chất lượng, họ cũng gặp khó khăn khi xử lý data để ra quyết định. Tức là các đối thủ trực tiếp của tôi cũng gặp khó khăn như thế. Càng hoàn thiện các dashboard với nhiều luồng dữ liệu, chúng tôi càng có nhiều cơ sở cho quyết định của mình.

2. Data không hề khó như bạn nghĩ

Rõ ràng động lực đầu tiên để gia nhập ngành Marketing đều là vì sự sáng tạo và hấp dẫn của nó, chứ không phải là khía cạnh khô khan của những con số. Nếu ở phía client, bạn chắc chắn sẽ làm việc với con số nhiều hơn, nhưng nếu là dân creative, mọi chuyện sẽ có vẻ khó khăn, đặc biệt khi nhìn bảng data raw của client dài gần… 300 cột và 50 dòng.

Nhưng hoá ra mọi chuyện không hề phức tạp như tôi tưởng. Tôi chỉ mất một ngày để đọc hiểu và xử lý chúng, sau đó là bắt tay vào phân tích.

Nếu bạn sử dụng data theo cách nửa vời, không đi đến tận cùng để biết con số đó nói gì mà kết luận vội vã, mọi chuyện có thể còn nguy hiểm hơn cả ra quyết định dựa trên cảm tính.

3. Dù không hề khó, nhưng chơi data đòi hỏi nhiều nỗ lực

Nỗ lực đầu tiên là bạn phải giải thích với khách hàng, đồng nghiệp về tầm quan trọng của chúng, từ đó bạn được trao quyền truy cập dữ liệu. Ngay cả tại các công ty có kiểu truyền thông nội bộ “open” như các công ty Nhật, tôi vẫn gặp một vài khó khăn khi truy cập các dữ liệu hơi nhạy cảm.

Điểm tiếp theo là bạn không được phép dễ dãi với những con số mình có được. Như ví dụ ở trên, chúng tôi có thể dễ dãi sử dụng dữ liệu tổng khách du lịch đến tỉnh B, thay vì phải vất vả tách ra thành khách nội địa và khách quốc tế. Sở dĩ như vậy, vì trong các buổi phỏng vấn CMO, CEO của client, và các buổi in-depth interview, chúng tôi khẳng định được rằng “khẩu vị” của du khách quốc tế rất khác so với du khách nội địa.

Nếu bạn sử dụng data theo cách nửa vời, không đi đến tận cùng để biết con số đó nói gì mà kết luận vội vã, mọi chuyện có thể còn nguy hiểm hơn cả ra quyết định dựa trên cảm tính.

Dĩ nhiên khi mới bắt đầu “lái” doanh nghiệp của mình theo hướng “data-driven”, sẽ có rất nhiều trở ngại. Tuy nhiên, thành quả cũng rất ngọt ngào. Bạn sẽ có nhiều dữ kiện hơn, ra quyết định về Marketing “chắc tay” hơn, và có khả năng tận dụng cơ hội trước đối thủ kinh doanh.

* Bài viết dựa trên câu chuyện có thật. Các tên gọi và tình tiết được thay đổi để đảm bảo bí mật danh tính của người trong cuộc.

———————&&&———————

Chọn biến số: một sai lầm phổ biến trong phân tích dữ liệu

Chọn biến số: một sai lầm phổ biến trong phân tích dữ liệu

(Tác giả: Nguyễn Văn Tuấn – Nguồn: https://www.facebook.com)

Một trong những sai lầm trong phân tích dữ liệu là cách chọn các biến số (variables) liên quan để xây dựng mô hình tiên lượng. Hôm qua, nhân dịp xem các kết quả nghiên cứu và nói chuyện với các em sinh viên tác giả nghiên cứu, tôi phát hiện gần như tất cả đều phạm phải sai lầm này! Trong cái note này tôi cố gắng giải thích tại sao sai lầm, và giới thiệu vài phương pháp mới tốt hơn.

1. Vấn đề

Với một nghiên cứu mà biến outcome (tạm gọi là Y) là biến nhị phân, và nếu nghiên cứu có hàng ngàn biến số X (X1, X2, X3, …., X1000) có thể dùng để tiên lượng Y), câu hỏi đặt ra là biến X nào quan trọng? Câu hỏi đơn giản, nhưng đã làm đau đầu những bộ óc siêu việt trong hơn nửa thế kỉ qua! Cho đến nay, vấn đề vẫn chưa phải là giải quyết xong, nhưng có thể nói rõ rằng các phương pháp ‘truyền thống’ mà người ta đã và đang sử dụng là không thoả đáng (nếu không muốn nói là sai), còn một số phương pháp mới tốt hơn thì ít người biết đến. Cái note này muốn giới thiệu các phương pháp mới đó.

Chọn biến liên quan (bên Machine Learning gọi là ‘Feature Selection’, còn bên thống kê học trước đó gọi là ‘Model Selection’) là một vấn đề vô cùng quan trọng trong khoa học. Chúng ta khám phá trong y học nhờ vào phương pháp này. Trong số hàng triệu marker xét nghiệm, làm sao biết marker nào có liên quan đến bệnh? Chúng ta xây dựng mô hình để tiên lượng và điều trị bệnh nhân cũng nhờ vào phương pháp này. Chọn mô hình rất quan trọng vậy.

Triết lí của việc chọn mô hình ‘tối ưu’ là … hà tiện (parsimony). Giải thích như sau sẽ dễ hiểu: nếu có hai cuốn sách trên thị trường hướng dẫn hành nghề sửa xe có cùng nội dung và dung lượng thông tin, một cuốn có giá bán 5 đồng, cuốn kia là 7 đồng. Dĩ nhiên, chúng ta sẽ chọn mua cuốn 5 đồng. Nói cách khác, chúng ta chọn sách rẻ tiền nhưng có dung lượng thông tin đầy đủ hay không kém cuốn sách mắc hơn. Tương tự, trong bối cảnh chọn mô hình, chúng ta muốn chọn mô hình nào cung cấp nhiều thông tin nhứt nhưng có ít tham số nhứt (hay ít biến số nhứt). Đó là triết lí và cũng là mục tiêu của việc chọn mô hình. Đó cũng là một thách thức.

2. Phương pháp ‘truyền thống’

Trong quá khứ (tức hơn 30 năm trước), phương pháp chọn mô hình xoay quanh 3 cách làm như sau:

Cách đơn giản nhứt là phân tích từng biến một. Theo cách làm này, nếu tôi có 1000 biến X (có thể là gen, markers, hay signals), tôi sẽ thực hiện 1000 phân tích mối liên giữa mỗi X với Y. Tôi sẽ có 1000 trị số P cho 1000 biến X liên quan đến Y. Dựa vào kết quả đó, tôi sẽ chọn ra những biến nào có trị số P < 0.05, và tôi dùng các biến được chọn lọc để xây dựng mô hình tiên lượng Y.

Cách thứ hai là dùng thuật toán “stepwise”. Thật ra, có 3 thuật toán trong nhóm này: forward, backward, và stepwise. Một cách ngắn gọn, phương pháp forward bắt đầu với mô hình chỉ có một biến X1, sau đó thêm vào những biến mới có ý nghĩa thống kê (tức P < alpha; alpha có thể là 0.1 hay 0.2). Phương pháp backward thì ngược lại: bắt đầu với mô hình với 1000 biến số, và dần dần loại bỏ các biến không có ý nghĩa thống kê (tức P > alpha). Còn phương pháp stepwise thì phối hợp cả forward và backward để đi tìm “mồ hình tối ưu.”

Cách thứ ba là hơi mất thì giờ, hay được gọi bằng tiếng Anh là “all possible regressions”. Như cách gọi, phương pháp này chủ yếu là phân tích tất cả các mô hình khả dĩ, rồi từ đó tìm mô hình nào có giá trị tiên lượng cao nhứt. Để hiểu sự nhiêu khê, tôi lấy vài ví dụ đơn giản nhứt. Nếu nghiên cứu có hai biến X1 và X2, thì sẽ có 3 mô hình khả dĩ (mô hình với X1, mô hình với X2, và mô hình với X1+X2); nếu nghiên cứu có 3 biến thì sẽ có 3 mô hình với 1 biến tiên lượng (X1, X2, X3), 3 mô hình với 2 biến tiên lượng (X1+X2, X1+X3, X2+X3 (X1+X2+X3), v.v. Các bạn đã hình dung ra sự nhiêu khê và phức tạp. Nếu nghiên cứu có 1000 biến X thì số mô hình khả dĩ ít nhứt là 2^1000 trừ 1 (vài chục tỉ mô hình). Ý tưởng là phân tích tất cả 2^1000 – 1 mô hình, và tìm mô hình nào có chỉ số ‘fitness’ (ví dụ như R^2) cao nhứt.

Tại sao sai?

Nhưng rất tiếc là cả 3 cách phân tích phổ biến đó hoặc là sai, hoặc là kém hiệu quả. Cách phân tích thứ nhứt sai, vì không xem xét đến mối tương quan giữa các biến số X trong mô hình. Chẳng hạn như X1 có thể có liên quan đến Y, X2 cũng có liên quan đến Y, nhưng nếu X1 và X2 có liên quan chặt chẽ với như thì mô hình với 2 biến số X1 + X2 sẽ trở nên khó diễn giải và không hợp lí. Cái “phương pháp đơn biến” nó sai ngay từ logic, nhưng rất phổ biến trong khoa học. Nên tránh phương pháp này!

Phương pháp stepwise cũng rất ư là phổ biến và có sẵn trong các software như SPSS. Nhưng sau này, rất nhiều nghiên cứu lí thuyết và thực nghiệm chỉ ra rằng phương pháp stepwise rất dễ cho ra kết quả “dương tính giả”, có nghĩa là nó có thể nhận dạng các biến X dù các biến đó không có liên quan đến Y! Nếu các bạn thử mô phỏng 1000 biến X, và 1000 biến này hoàn toàn không có dính dáng gì đến Y, và nếu các bạn dùng phương pháp stepwise thì nó sẽ cho ra vài biến X có ý nghĩa thống kê! Không nên dùng phương pháp stepwise trong nghiên cứu khoa học.

Phương pháp “all possible regressions” cũng có nhiều vấn đề. Không chỉ là vấn đề thời gian dành cho phân tích, mà còn là vấn đề quan trọng hơn: multiple tests of hypothesis — tức kiểm định nhiều giả thuyết. Khi kiểm định nhiều giả thuyết thì sẽ cho ra vài kết quả dương tính giả. Ngoài ra, phương pháp này chỉ cho ra một mô hình duy nhất (sau cùng), nhưng trong thực tế thì có rất nhiều mô hình có thể có giá trị fitness tương đương nhau, nhưng nó không nhận ra. Ngày nay, không một ai am hiểu về thống kê học sử dụng phương pháp “all possible regressions” để tìm mô hình tối ưu.

3. Phương pháp ‘mới’

Vậy thì phương pháp nào là tốt nhất trong việc chọn biến tiên lượng? Trong thời gian chừng 30 năm qua, khoa học thống kê đã có nhiều tiến bộ và cho ra đời một số phương pháp được đánh giá à tốt hơn 3 phương pháp truyền thống kia. Trong số các phương pháp này có Bayesian Model Averaging (BMA), LASSO, và Random Forest mà giới Machine Learning rất thích.

Cái note này không có mục tiêu giải thích các phương pháp đó, mà chỉ đơn giản cung cấp từ khoá để các bạn có thể tìm hiểu thêm. Một cách ngắn gọn, phương pháp BMA dựa vào xác suất hậu định (posterior probability) của mỗi mô hình. Xác suất hậu định tuỳ thuộc vào xác suất tiền định (prior probability) và dữ liệu thực tế (likelihood). Bắt đầu, chúng ta phải đề ra xác suất hậu định của các mô hình bằng một luật phân bố xác suất (thường là uniform, với giả định là các mô hình có xác suất như nhau). Bước kế tiếp, BMA phân tích mỗi mô hình và tính toán chỉ số thông tin Bayesian Information Criterion (BIC). Sau cùng là tính xác suất hậu định.

Mô hình nào có xác suất hậu định cao nhứt sẽ được chọn là mô hình ‘tối ưu’. BMA không dùng và không lệ thuộc vào trị số P, và đó là một lợi thế. Thí nghiệm thực tế và mô phỏng cho thấy phương pháp BMA quả thật có khả năng nhận dạng chính xác các biến số liên quan. Trong các nghiên cứu lâm sàng, dịch tễ học vừa (tức vài trăm biến X và vài trăm đến vài ngàn đối tượng nghiên cứu), BMA là một phương pháp rất được ưa chuộng.

LASSO (least absolute shrinkage and selection operator) là một phương pháp tương đối mới do Rob Tibshirani đề xướng vào giữa thập niên 1990s (nhưng thật ra vào thập niên 1980s đã có người sử dụng trong vật lí). Ý tưởng của LASSO là ‘kiểm soát’ các ước số của mô hình bằng cách thêm một “giá trị phạt” vào công thức ước tính tham số. LASSO “phạt” những mô hình nào quá phức tạp, tức có nhiều biến số hơn cần thiết.

Do đó, ước số được ước tính bằng LASSO có xu hướng thấp hơn so với phương pháp bình phương tối thiểu (least squares method). Phương pháp LASSO thường chọn mô hình với ít biến số (vì bảo thủ hơn) và xử lí rất tốt trong trường hợp các biến X liên quan nhau (đa cộng tuyến). Phương pháp LASSO rất nhất quán với triết lí hà tiện của việc chọn mô hình. Trong nghiên cứu di truyền và ‘big data’, LASSO là một phương pháp được ưa chuộng.

Kinh nghiệm từ các nghiên cứu mà tôi thực hiện, tôi thấy BMA và LASSO là rất tốt. Đối với dữ liệu qui mô trung bình (dưới 10,000 biến số) thì BMA cho ra kết quả khá chính xác, nhưng với dữ liệu lớn (chừng 1 triệu biến số) thì LASSO có lẽ là lựa chọn tốt nhứt.

4. Chọn mô hình tối ưu: khoa học và nghệ thuật

Xây dựng mô hình tiên lượng là một khoa học nhưng cũng là một nghệ thuật. Khoa học tính ở điểm có những chỉ số khách quan và hiệu quả để so sánh và đánh giá mô hình. Như đề cập lúc ban đầu, chúng ta chọn làm những kẻ hà tiện: muốn có thông tin nhiều nhứt nhưng trả giá rẻ nhứt. Chúng ta cần phải có những thước đo khoa học để đánh giá dung lượng thông tin mà mô hình cung cấp. Trong thống kê học, có hàng loạt thước đo dung lượng thông tin của mô hình như chỉ số R^2, phương sai (MSE), độ lệch chuẩn (RMSE), AUROC, DCA, v.v. Việc chọn những thước đo này là vấn đề khoa học.

Ngoài các chỉ số trên, còn có chỉ số thông tin AIC, BIC. Chỉ số AIC và BIC càng thấp càng tốt, vì nó thể hiện đúng tiêu chí ‘hà tiện’ trong việc chọn mô hình. Hai chỉ số này được dùng trong phương pháp BMA và LASSO.

Còn khía cạnh nghệ thuật là dùng kiến thức chuyên ngành để chọn mô hình sao cho đơn giản, có thể dùng được trong thực tế mà không vi phạm các nguyên tắc khoa học. Nếu hai mô hình cung cấp thông tin không khác nhau mấy, nhưng một mô hình dễ sử dụng và một mô hình phức tạp, thì đương nhiên chúng ta chọn mô hình dễ sử dụng. Chẳng hạn như bác sĩ cấp cứu rất bận rộn, họ không có thì giờ phải gõ cả 20 biến số để tiên lượng bệnh nhân sống chết ra sao; họ chỉ cần những thông tin ngắn, gọn, sẵn có để làm tiên lượng ngay. Để biết thông tin nào cần hay không cần thì đó là vấn đề kiến thức chuyên ngành. Khoa học có thể cho ra các thước đo chính xác, nhưng nếu không có kiến thức chuyên ngành thì các thước đo và mô hình có thể vô dụng.

Tóm lại, xây dựng mô hình tiên lượng đòi hỏi phải chọn biến số liên quan. Dứt khoát tránh chọn biến liên quan bằng 3 phương pháp truyền thống như mô tả trên; nên áp dụng các phương pháp mới hơn như BMA và LASSO. Để kết thúc cái note này, tôi xin trích câu nói nổi tiếng của George Box (là con rể của Ronald Fisher) “All models are wrong, but some are useful” (tất cả các mô hình đều sai, nhưng trong số đó có một số mô hình có ích).

Tại sao ông Box nói tất cả các mô hình đều sai? Các bạn thử suy nghĩ xem. Hi vọng rằng cái note này giúp các bạn giải trí cuối tuần.

===

Xin nói thêm là tôi có 2 bài giới thiệu phương pháp BMA (qua R) như sau:

Bài 39: BMA cho mô hình hồi qui tuyến tính.
https://www.youtube.com/watch?v=eVp0oyKxtrI

Bài 46: BMA cho mô hình hồi qui logistic.
https://www.youtube.com/watch?v=bAUrZqhCNww

———————&&&———————-

Mô hình Bayesian VAR

Mô hình Bayesian VAR

(Tác giả: Minh Anh – Nguồn: kinhteking.wordpress.com)

Đây là một bài giới thiệu rất rất rất ngắn về mô hình BVAR, xem như là khai vị và “kích não” cho bạn nào thích tò mò. Đây là con đường “lắm gai” đấy, nhưng có thể sẽ là “heroin” gây nghiện với một số đồng chí 🙂

Mô hình VAR là một mô hình phổ biến trong phân tích chuỗi thời gian. Các chủ đề liên quan đến đến mô hình VAR gồm có: mô hình giản lược (reduced form VAR), xác định mô hình cấu trúc (structural VAR) từ mô hình giản lược, hàm phản ứng, phân tích phương sai…
Ví dụ một mô hình VAR với p=4 độ trễ VAR(4) với 3 biến nội sinh Y_{1}, Y_{2}, Y_{3} có dạng như sau:

Y_{t}=c+ B_{1}Y_{t-1}+ B_{2}Y_{t-2}+ B_{3}Y_{t-3} +B_{4}Y_{t-4} +v_{t}
trong đó Y_{t}=(Y_{1t},Y_{2t},Y_{3t})'

Thông thường, việc ước lượng mô hình VAR đòi hỏi phải ước lượng khá nhiều tham số. Ví dụ như một mô hình VAR 3 biến – lạm phát, sản lượng, và lãi suất – và bốn mức trễ (lag=4) như thường được sử dụng với số liệu theo quý. Mô hình này gồm có 42 tham số cần phải ước lượng: 1*3 hằng số (intercepts), 12*3 tham số của biến trễ, và 3 tham số của phương sai. Nếu có 80 số liệu theo quý (20 năm), thì việc ước lượng mô hình VAR như vậy thường có tính chính xác không cao (vì mức độ tự do- degrees of freedom- bị hạn chế), và hệ quả là các các dự báo thường đó độ lệch chuẩn lớn (biên dự báo rộng).

Do vậy, các nhà kinh tế lượng Bayesian đã đề xuất việc kết hợp thông tin tiền định –prior information (dựa vào các lý thuyết kinh tế hay các kết quả nghiên cứu từ các quốc gia khác) vào việc ước lượng các mô hình VAR. Cách tiếp cận lồng ghép này còn được gọi là BVAR. Nếu hiểu nôm na là thế này: cái “anh” dữ liệu không đủ thông tin để đạt được các ước lượng ý nghĩa thì mình kết hợp thêm cái thông tin có được từ “chị” lý thuyết (hay là chị thực nghiệm, chị kinh nghiệm, gì gì đấy) vào, để có thể có được những ước lượng ý nghĩa, và qua đó nâng cao khả năng dự báo các biến vĩ mô.

Để sử dụng BVAR, nhà nghiên cứu đưa các thông tin tiền định liên quan đến các tham số của mô hình (hằng số, tham số của biến trễ, hay phương sai của biến nhiễu). Một vài dạng thông tin tiền định phổ biến như:

1)Thông tin tiền định Minnesota (vì nguồn gốc của thông tin này là từ Fed Minnesota): dựa trên giả thuyết rằng các biến nội sinh trong mô hình VAR có dạng bước tự do (random walk process) hoặc theo dạng AR (1).

2)Thông tin tiền định Normal Inverse Wishart prior: có 2 dạng

* Thông tin tiền đinh ghép đôi tự nhiên (natural conjugate prior) -các thông số của mô hình VAR có phân phối tiền nghiệm là phân phối chuẩn, và ma trận hiện phương sai (variance-covariance matrix) có phân phối Inverse Wishart.

* Thông tin tiền định independent Normal inverse Wishart prior: Ví dụ như khi muốn xem xét tham số trễ của một biến nội sinh khác với tham số trễ của các biến khác (ví dụ như giới hạn liên quan đến giả định tính trung tính của tiền: money neutrality)

3)Thông tin tiền định trạng thái cân bằng (Steady State priors) và một số thông tin tiền định khác

Trên đây chỉ là một vài giới thiệu để “khêu gợi”” trí tò mò của các bạn. Để học BVAR các bạn có thể tham khảo các tài liệu sau:

1)Tài liệu khóa học (slides và MATLAB codes) về kinh tế lượng của GS. Gary Koop.
Link: https://sites.google.com/site/garykoop/teaching/sgpe-bayesian-econometrics

2)BEAR Toolbox 3.0 (sử dụng với MATLAB): được phát triển bởi Alistair Dieppe, Romain Legrand, và Björn van Roye – nhóm nghiên cứu Ngân hàng Trung Ương châu Âu

3)MSBVAR(Sử dụng với R): của hai nhà nghiên cứu Patrick Brandt và W. Ryan Davis


Xem thêm: Kiểm soát thông tin tiền định trong mô hình BVAR

Bạn đọc Yi có hỏi rằng: “”Hiện trong function “szbvar” và “msbvar” của R package này em thấy tác giả đã mặc định thông số lambda để fit model, rồi từ đó chạy ra dự báo. Em có thắc mắc nhỏ là có function nào chọn ra được các thông số này để tối thiểu hóa được sai số dự báo không ạ”

Đây là một câu hỏi hay và quan trọng ở khía cạnh ứng dụng. Mục đích của lambda chính là kiểm soát vai trò của thông tin tiền định.

+ Nếu thông tin tiền định quá chặt (tight prior) – nghĩa là phụ thuộc nhiều vào thông tin tiền định, thì kết quả hậu nghiệm sẽ không khác mấy so với thông tin tiền định. Đây chính là điểm thường bị chỉ trích của tiếp cận Bayesian, vì người nghiên cứu có thể sử dụng thông tin tiền định để “lái” kết quả. Do vậy, trong trường hợp này, thông tin từ data không có nhiều ảnh hưởng đến kết quả.
+ Ngược lại, nếu thông tin tiền định quá lỏng, thì nó sẽ không có ích và kết quả sẽ chủ yếu phụ thuộc vào data.

Do vậy, giá trị của lambda nên nằm giữa hai thái cực này. Việc xác định những giá trị này là một câu hỏi không phải dễ trả lời. Một vài nghiên cứu hướng dẫn về việc xây dựng thông tin tiền nghiệm trong một số trường hợp. Ví dụ như , nghiên cứu của De Mol và công sự (2008, JoE) “Forecasting using a large number of predictors: Is Bayesian shrinkage a valid alternative to principal components?“ (Link WP: https://www.ecb.europa.eu/pub/pdf/scpwps/ecbwp700.pdf?ffd9f4561990919f315127a2eee70375).

Tuy nhiên, phần lớn các nghiên cứu dựa trên đề xuất của Canova (Chương 10, 2007) “Methods for Applied Macroeconomic Research“ với Minnesota prior. Giáo sư Fabio chia sẻ chương này ở trên website cá nhân: http://apps.eui.eu/Personal/Canova/Articles/ch10.pdf (Đoạn cuối Trang 358) (Chú ý là ký hiệu GS Fabio dùng là phi). Các giá trị này có thể sử dụng như benchmark hoặc là điểm bắt đầu cho những nghiên cứu sâu hơn.

Như đã đề cập trong bài trước về việc sử dụng BVAR, nếu bạn nào đã quen dùng R, thì có thể sử dụng MSBVAR package (Liên quan đến câu hỏi trên: Giá trị của thông số lambda trong MSBVAR được quyết định bởi người sử dụng). Tuy nhiên, với các bạn mới bắt đầu, thì có lẽ sử dụng toolbox BEAR (MATLAB) sẽ dễ dàng hơn (xem hướng dẫn sử dụng ở đây).

———————–&&&———————–

Mô hình GAS

Mô hình GAS (Generalized Autoregressive Score)

(Nguồn: http://www.gasmodel.com)

Mô hình Điểm tự hồi quy tổng quát hóa [Generalized Autoregressive Score (GAS)] – còn có tên gọi khác là mô hình Điểm có điều kiện động [Dynamic Conditional Score (DCS)] hay Score Driven (SD) model, hoặc Dynamic Score (DySco) model – ra đời năm 2008. Mô hình này cung cấp một khung tổng quát để mô hình hóa các đại lượng biến thiên theo thời gian qua mô hình tham số [trường hợp riêng của mô hình GAS là mô hình Beta-t-(E)GARCH].  Các đặc điểm chính:

  • Dễ ước lượng & suy diễn: likelihood có dạng đóng (closed form)
  • Tổng quát hóa: tất cả các trường hợp có tham số thay đổi theo thời gian.

Nordpool Electricity Prices

GAS estimated volatility paths for Nordpool electricity prices based on the Student’s t distribution and the Gaussian distribution. The Gaussian GAS volatility model coincides with the familiar GARCH model

Mô hình này được áp dụng thành công trong nhiều lĩnh vực như mô hình hóa rủi ro tín dụng & phá sản, mô hình hóa sự tương quan và độ biến động của cổ phiếu, mô hình hóa các cấu trúc phụ thuộc biến đổi theo thời gian, mô hình hóa CDS spread; các vấn đề liên quan tới sự ổn định tài chính & rủi ro hệ thống, mô hình hóa dữ liệu tần suất cao, …

Tài liệu:


Xem thêm: https://insightr.wordpress.com/2017/06/07/non-gaussian-time-series-lets-handle-it-with-score-driven-models/

—————-&&&—————-

Chocolate và giải Nobel

Chocolate

(Tác giả: Lê Hồng Giang – Nguồn: kinhtetaichinh.blogspot.com)

Trong dịp Easter vừa rồi Felix Salmon tweet đồ thị sau về mối quan hệ giữa số lượng tiêu thụ chocolate bình quân đầu người của một quốc gia với số giải Nobel (trong 10 triệu dân) mà quốc gia đó đạt được:



Thoạt nhìn tôi nghĩ đây là một đồ thị marketing của các hãng sản xuất chocolate đang tồn hàng Easter, nhưng hóa ra theo Business Insider đây là kết quả của một bài nghiên cứu nghiêm túc đăng trên tạp chí New England Journal of Medicine, có lẽ là một trong những tạp chí hàng đầu về y khoa trên thế giới. Business Insider còn tìm được link của bản pdf miễn phí của bài nghiên cứu này và tôi không thể không đọc thử xem tác giả đã làm thế nào.

Hóa ra bài nghiên cứu vô cùng đơn giản. Tác giả download số liệuNobel laureates per capita từ Wikipedia (bao gồm cả giải Nobel hòa bình) và số liệu chocolate consumption per capita từ website của một số công ty sản xuất chocolate rồi chạy linear regression. Kết quả là correlation của hai biến số này rất cao (có thể thấy qua đồ thị trên) và highly significant. Tác giả cho rằng (dù rào trước đón sau rất nhiều) ăn nhiều chocolate sẽ làm tăng cognitive function vì chocolate có chứa nhiều chất flavonoids, do vậy làm tăng khả năng được giải Nobel.

Bất kỳ ai đã từng học qua một khóa econometrics sẽ thấy nghiên cứu này có nhiều vấn đề. Thứ nhất như chính tác giả đã thừa nhận correlation không phải causation, nhiều khả năng số giải Nobel và lượng chocolate consumption đều cùng do một yếu tố thứ ba quyết định, dễ thấy nhất là kinh tế (vd GDP per capita). Những yếu tố khác có thể ảnh hưởng lên số Nobel prize đáng ra tác giả phải control có thể là tỷ lệ đầu tư cho giáo dục, nghiên cứu, số lượng sinh viên đại học trên 1000 dân, số lượng bài báo khoa học hoặc patent, số lượng tiêu thụ các thực phẩm khác có hàm lượng flavonoids cao…

Thứ hai số lượng giải Nobel và chocolate consumption chắc chắn thay đổi theo thời gian. Ví dụ cụ thể là Thụy điển vài thập kỷ gần đây được rất ít giải Nobel so với khi giải này mới được thành lập. Bởi vậy sử dụng số liệu giải Nobel trong toàn bộ lịch sử (stock variable) so sánh với số lượng consumption của một năm (flow variable) đòi hỏi phải có một assumption là stock variable phân bổ đều theo thời gian còn flow variable không thay đổi, khó có thể đúng trên thực tế. Một người có cognitive function tốt (nên có khả năng được giải Nobel cao hơn) phải ăn nhiều chocolate lúc nhỏ, khi đi học, lúc làm nghiên cứu hay khi nào?

Thứ ba nếu ăn chocolate làm tăng cognitive ability thì một số kiểm chứng đơn giản hơn có thể thực hiện như chạy regression giữa lượng chocolate consumption với kết quả PISA, sẽ chính xác hơn so với số giải Nobel. Ngoài ra thay vì nghiên cứu “macro” như vậy tác giả có thể tiến hành nghiên cứu “micro”, nghĩa là so sánh số lượng tiêu thụ chocolate của từng cá nhân được giải Nobel (hoặc những người có thành tực khoa học cao như các giáo sư đại học) so với mức tiêu thụ trung bình. Tất nhiên làm nghiên cứu micro như vậy sẽ tốn kém và mất thời gian hơn so với việc download data từ Internet và chạy linear regression, nhưng một bài báo trên NEJE phải như vậy mới xứng đáng chứ. Hay tạp chí này không thực sự tốt như tôi tưởng?

————————————————————

Chocolate, xương, và giải Nobel

(Tác giả: Nguyễn Văn Tuấn – Nguồn: tuanvannguyen.blogspot.com)

Chocolate. Đại đa số dân thành thị và một số dân nông thôn đều biết, và thích chocolate. Nhưng cũng như bất cứ thực phẩm nào, chocolate cũng có lợi và có hại nếu ăn quá nhiều. Nhiều nghiên cứu y khoa cho thấy chocolate có lợi cho tim mạch, nhưng hình như không có lợi cho xương. Mấy tuần trước đây có một nghiên cứu làm ngỡ ngàng mọi người: chocolate có liên quan đến giải Nobel!


Khoảng 4 năm trước, đồng nghiệp Western Australia của tôi công bố một nghiên cứu cho thấy phụ nữ cao tuổi ăn nhiều chocolate có mật độ xương thấp [1]. Họ tính toán rằng những người ăn chocolate mỗi tuần ít nhất 1 lần có mật độ xương thấp hơn (khoảng 3%) so với những người ăn chocolate dưới 1 lần / tuần. Mật độ xương thấp hơn cũng có nghĩa là có nguy cơ gãy xương cao hơn. Chính vì thế mà nghiên cứu này làm dư luận xôn xao. Vừa xôn xao quan tâm, nhưng cũng vừa cười. Mật độ xương thấp hơn có 3% thì chẳng có ý nghĩa lâm sàng gì. Tôi nghĩ nếu tôi là người ăn chocolate mỗi tuần 1 lần thì tôi thấy vẫn chưa có lí do gì ngưng ăn loại kẹo đầy quyến rũ này.

Nhưng có lẽ ngạc nhiên hơn là mối liên hệ giữa chocolate và giải Nobel! Khó tin, nhưng có thật. Đó là công trình phân tích của bác sĩ Messerli (Đại học Columbia) đăng trên New England Journal of Medicine, một tập san được xem là kinh thánh y khoa [2]Trong bài này, ông thu thập dữ liệu về lượng chocolate tiêu thụ trong những quốc gia có người đoạt giải Nobel, và số giải Nobel cho từng quốc gia. Vì có sự khác biệt về dân số nên ông phải điều chỉnh cho dân số. Cách điều chỉnh của rất đơn giản:

  • ông tính toán lượng tiêu thụ chocolate trên mỗi người dân mỗi năm (tính bằng kg), gọi chỉ số này là X;
  • sau đó, ông tính số giải Nobel trên 10 triệu dân, gọi chỉ số này là Y;
  • sau cùng, ông tính hệ số tương quan (coefficient of correlation) giữa X và Y.

Biểu đồ sau đây cho thấy một xu hướng chung là những nước nào ăn nhiều (hay chính xác hơn là tiêu thụ nhiều) chocolate là những nước có nhiều giải Nobel. Chẳng hạn như Thuỵ Sĩ, nước tiêu thụ nhiều chocolate (khoảng 13 kg/người/năm) là nước có nhiều giải Nobel trên đầu người. China là nước ít tiêu thụ chocolate cũng là nước có ít giải Nobel nhất (thật ra, China chỉ có 1 giải duy nhất năm nay về văn học, nhưng cũng là giải thưởng mang tính chính trị, không thuyết phục). Hệ số tương quan giữa lượng tiêu thụ chocolate và số giải Nobel là 0.79, với trị số P < 0.0001, tức …. rất có ý nghĩa thống kê!

https://i0.wp.com/wmbriggs.com/blog/wp-content/uploads/2012/10/chocolate.nejm_.jpg

Biếu đồ mô tả mối liên quan giữa lượng chocolate tiêu thụ trên đầu người (trục hoành) và số giải Nobel tính trên 10 triệu dân (trục tung). Hệ số tương quan là 0.79.

Tại sao nước ăn nhiều chocolate lại là những nước đoạt nhiều giải Nobel? Bác sĩ Messerli lí giải rằng chocolate (hay những thực phẩm trong nhóm flavanol, có trong coca, trà, rượu đỏ, v.v.) có hiệu quả giảm huyết áp, tăng cường trí lực. Những chứng cứ trên được rút ra từ những nghiên cứu trên chuột. Tác giả đặt giả thuyết rằng ăn chocolate chẳng những tăng cường trí lực cho một cá nhân, mà còn cho cả cộng đồng. Do đó, kết quả phân tích này có vẻ phù hợp với giả thuyết của tác giả.

Thoạt đầu, đọc qua bài này tôi nghĩ tác giả muốn đùa. Đùa một cách … khoa học. Nhưng hình như không phải vậy, vì tác giả tỏ ra rất nghiêm túc trong diễn giải kết quả phân tích. Một giải thích khả dĩ khác có thể là liên quan nghịch đảo (reverse association). Hiện tượng liên quan nghịch đảo có nghĩa là người có trí lực tốt biết được hiệu quả tốt của kẹo chocolate nên họ ăn nhiều chocolate (chứ không phải ăn nhiều chocolate dẫn đến trí lực cao). Cũng có thể mối liên hệ giữa chocolate và giải Nobel là do trình độ phát triển kĩ nghệ và kinh tế, vì những nước phát triển ở phương Tây thường tiêu thụ nhiều chocolate hơn các nước nghèo hơn ở châu Á. Nhưng giả thuyết về trình độ phát triển kĩ nghệ không giải thích tại sao các nước như Mĩ cũng phát triển cao, nhưng giải Nobel trên đầu dân thì thấp hơn các nước như Thuỵ Sĩ, Đan Mạch, Na Uy, Anh, Đức, Thuỵ Điển.

Dù tác giả không đùa, nhưng tôi nghĩ tác giả muốn giễu cợt tập san New England Journal of Medicine. Nếu xem phân tích của tác giả là một “nghiên cứu” thì theo y học thực chứng, nghiên cứu này có giá trị rất thấp. Thấp là vì mối liên hệ giữa chocolate và giải Nobel thuộc loại ecologic association, với đơn vị phân tích là bình quân của một quốc gia, chứ không phải cá nhân. Chỉ khi nào tác giả “chứng minh” được những cá nhân đoạt giải Nobel ăn nhiều chocolate hơn những cá nhân không có giải Nobel thì kết quả mới có giá trị cao hơn.

Khi tính hệ số tương quan từ số quân bình thì lúc nào cũng có kết quả cao (như trường hợp này là 0.79), bởi vì cách tính này không xem xét đến những dao động trong mỗi quốc gia (within-country variation). Cái “nguỵ biện” hay fallacy của tác giả là ở chỗ này. Vì đơn vị là quốc gia, chứ không phải cá nhân, nên rất khó diễn giải kết quả này. Nếu theo cách suy luận của tác giả, tôi nghĩ cũng có thể nói rằng có mối liên quan giữa màu tóc và giải Nobel, giữa ăn thịt đỏ và giải Nobel (vì những nước giàu thường ăn thịt đỏ hơn là ăn rau quả như Á châu). Tác giả xem xét tất cả các yếu tố để giải thích cho mối liên quan, nhưng ông quên một lí do khác: ecologic fallacy! Có lẽ ecologic fallacy có thể dịch là ngụy biện quần thể.

Nếu có một bài mua vui cũng được một vài trống canh thì đây [2] chính là bài đó. Không ngờ kinh thánh y khoa mà cũng có cách mua vui hay như thế.

Tham khảo:

1. Hodgson JM, et al. Chocolate consumption and bone density in older women. Am J Clin Nutr 2008; 87:175-80.
2. Messerli FH. Chocolate consumption, cognitive function, and Nobel laureates. N Engl J Med 2012. Doi: 10.1056/NEJMMon1211064.

——————–&&——————–

Data interpolation

Data interpolation

(Tác giả: Lê Hồng Giang – Nguồn: kinhtetaichinh.blogspot.com)

[Trích]

Nội suy số liệu là gì? VD: chuyển đổi số liệu GDP quí (hoặc một chuỗi macro nào đó) thành số theo tháng. Hầu hết các bạn có nhu cầu này đều muốn ước lượng (estimate) một mô hình kinh tế lượng (chuỗi thời gian) nào đó nhưng chuỗi GDP quí quá ngắn nên muốn sử dụng chuỗi theo tháng để tăng số  quan sát. Đa số các chuyên gia kinh tế lượng sẽ cho rằng không nên làm như vậy ngay cả khi có số liệu GDP tháng. Có rất nhiều lý do để không nên chuyển từ mô hình quí sang tháng nhưng hai lý do chính là noise vs signal và structural rigidity.

—————&&————

Lập mô hình phương trình cấu trúc SEM

Lập mô hình phương trình cấu trúc SEM

(Tác giả: Nguyễn Quỳnh Anh – Nguồn: mba-15.com)

Phần này tóm tắt ngắn gọn và không thiên về đặc tính kỹ thuật của các vấn đề căn bản có liên quan trong SEM, bao gồm các vấn đề ước lượng, thích hợp mô hình, và các giả thiết thống kê.


SEM (Structural Equation Modeling) là một kỹ thuật mô hình thống kê rất tổng quát, được sử dụng rộng rãi trong khoa học nghiên cứu hành vi. Nó có thể được xem là sự kết hợp của phân tích nhân tố và hồi quy hay phân tích đường dẫn. Sự quan tâm trong SEM thường là vào các kiến trúc lý thuyết, được trình bày bởi các nhân tố ngầm. Các quan hệ giữa các kiến trúc lý thuyết được trình bày bởi các hệ số hồi quy hay hệ số đường dẫn giữa các nhân tố. SEM ám chỉ 1 cấu trúc của các hiệp tương quan (covariances) giữa các biến được quan sát, các quan hệ này cho ra một tên khác là mô hình hóa cấu trúc hiệp tương quan (covariance structure modeling). Tuy nhiên, mô hình có thể được mở rộng thêm bao gồm trung bình của các biến quan sát được hoặc các nhân tố trong mô hình, làm cho tên mô hình hóa cấu trúc hiệp tương quan ít chính xác. Nhiều nhà nghiên cứu chỉ đơn giản nghĩ mô hình loại này là “các mô hình Lisrel,” điều này cũng ít chính xác. LISREL là chữ viết tắt của Linear Structural RELations (các quan hệ cấu trúc tuyến tính), và tên này được Jưreskog sử dụng cho một trong những chương trình SEM đầu tiên thông dụng nhất. Các mô hình phương trình cấu trúc ngày nay không nhất thiết phải tuyến tính, và khả năng mở rộng của SEM xa hơn phương trình Lisrel ban đầu. Ví dụ, Browne (1993) thảo luận khả năng làm thích hợp các đường cong phi tuyến.
SEM cung cấp một khung thuận tiện và rất tổng quát cho các phân tích thống kê bao gồm các thủ tục đa biến truyền thống, ví dụ các trường hợp đặc biệt là phân tích nhân tố, phân tích hồi quy, phân tích phân biệt, và tương quan canonical. SEM thường được minh họa bằng biểu đồ đường dẫn. Phương trình thống kê này thường được trình bày trong một hệ phương trình ma trận. Trong đầu thập niên 70, khi kỹ thuật này được giới thiệu lần đầu trong nghiên cứu xã hội và nghiên cứu hành vi, phần mềm thường yêu cầu cài đặt chỉ rõ mô hình theo điều kiện của những ma trận này. Do đó, các nhà nghiên cứu đã phải lọc việc trình bày ma trận từ biểu đồ đường dẫn, và cung cấp phần mềm với 1 chuỗi ma trận cho các tập hợp tham số khác nhau, như là hệ số nhân tố và các hệ số hồi quy. Các phần mềm được phát triển gần đây cho phép các nhà nghiên cứu chỉ định trực tiếp mô hình như là 1 biểu đồ đường dẫn. Việc này hiệu quả với các vấn đề đơn giản, nhưng có thể gây mệt mỏi đối với các mô hình có tính phức tạp hơn. Vì lý do này, phần mềm SEM hiện tại cũng vẫn hỗ trợ các đặc tính kỹ thuật của mô hình loại câu lệnh-hay ma trận.
Path analysis (phân tích đường xu hướng) là kỹ thuật thống kê dùng để kiểm tra quan hệ nhân quả giữa hai hay nhiều biến. Dựa trên hệ thống phương trình tuyến tính.
Path analysis là thành phần phụ của SEM, một thủ tục đa biến mà theo định nghĩa của Ullman (1996), “cho phép kiểm tra một tập quan hệ giữa một hay nhiều biến độc lập, hoặc là liên tục hoặc là rời rạc, và một hay nhiều biến phụ thuộc, hoặc là liên tục hoặc là rời rạc.” SEM liên quan đến các biến đo lường được (measured variable) và các biến ngầm (latent variable). Một measured variable là một biến có thể được quan sát trực tiếp và được đo lường. Biến đo lường được cũng được biết đến như biến quan sát được (observed variable), biến chỉ báo hay biến biểu thị (indicator or manifest variables). Một latent variable là một biến không thể được quan sát trực tiếp và phải được suy ra từ measured variable. Latent variables được ám chỉ bởi hiệp tương quan (covariances) giữa hai hay nhiều measured variables. Chúng cũng được biết đến như là các nhân tố (nghĩa là, phân tích nhân tố), các biến kiến trúc hay các biến không quan sát được (constructs or unobserved variables). SEM là sự kết hợp giữa hồi quy đa biến và phân tích nhân tố. Path analysis chỉ liên quan đến các biến đo lường (measured variables).

CÁC THÀNH PHẦN CỦA SEM
Có hai thành phần: mô hình đo lường (measurement model) và mô hình cấu trúc (structural model).
+ Measurement model: liên quan đến quan hệ giữa measured variables và latent variables.
+ Structural model: chỉ liên quan đến các quan hệ giữa các latent variables mà thôi.
Ký hiệu trong SEM:
–       Các biến đo lường được: hình chữ nhật hay vuông
–       Các biến ngầm: elíp hay hình tròn
–      Các khoản sai số: (“nhiễu” của các biến ngầm) được đưa vào biểu đồ SEM, đại diện bởi “E’s” cho các biến đo lường và “D’s” cho các biến ngầm. Các khoản sai số đại diện phương sai phần dư trong các biến không được tính cho các đường dẫn (pathways) được giả thiết trong mô hình.
Tham số của SEM:
–        Là các biến, hệ số hồi quy và hiệp tương quan giữa các biến.
–       Phương sai có thể được chỉ ra bằng mũi tên hai đầu kết thúc tại cùng một biến, hoặc đơn giản hơn, ký hiệu bằng số trong hộp vẽ biến hay cung tròn.
–       Các hệ số hồi quy được trình bày dọc theo mũi tên một chiều chỉ ra đường dẫn được giả thiết giữa hai biến (có trọng số được áp dụng cho các biến trong các phương trình hồi quy tuyến tính)
–       Hiệp phương sai được kết hợp với các mũi tên vòng cung hai đầu giữa hai biến hoặc các sai số và biểu thị vô hướng (no directionality). Data cho SEM là các phương sai mẫu và hiệp phương sai mẫu lấy từ tổng thể (ký hiệu S, phương sai mẫu quan sát được và ma trận hiệp phương sai).

KIẾN TRÚC SEM
Mục tiêu trong việc xây dựng 1 biểu đồ xu hướng (path diagram) hay mô hình phương trình cấu trúc, là tìm một mô hình đủ thích hợp với dữ liệu (S) để phục vụ như là 1 đại diện có ích của độ tin cậy và giải thích chi tiết dữ liệu.
Có 5 bước trong kiến trúc SEM:
1.   Chỉ định mô hình (Model Specification)
2.   Nhận dạng mô hình (Model Identification)
3.   Ước lượng mô hình (Model Estimation)
4.   Đánh giá độ thích hợp của mô hình (Assesing Fit of the Model)
5.   Hiệu chỉnh mô hình (Model Modification)

Chỉ định mô hình (Model Specification)
Là việc chính thức bắt đầu một mô hình. Trong bước này, các tham số được xác định là cố định hay tự do. Tham số cố định (fixed parameters) không được ước lượng từ dữ liệu và được gán một cách tiêu biểu bằng 0 (chỉ ra không có quan hệ giữa các biến). Các đường dẫn của các tham số cố định được gắn nhãn số (trừ khi được gán giá trị là 0, trong trường hợp này không có đường dẫn nào được vẽ) trong biểu đồ SEM. Tham số tự do (Free parameters) được ước lượng từ dữ liệu quan sát và được người điều tra tin rằng nó khác 0. Việc xác định tham số nào là cố định hay tự do trong SEM là rất quan trọng vì nó xác định tham số nào sẽ được sử dụng để so sánh biểu đồ giả thuyết với ma trận hiệp phương sai và phương sai tổng thể mẫu trong việc kiểm tra tính thích hợp của mô hình (bước 4). Việc chọn tham số nào là cố định và tham số nào là tự do tùy thuộc vào người nghiên cứu. Sự lựa chọn này trình bày một giả thuyết tiền đề về đường xu hướng trong hệ thống là quan trọng trong thế hệ của cấu trúc liên quan của hệ thống được quan sát (ví dụ, phương sai mẫu được quan sát và ma trận hiệp phương sai).

Nhận dạng mô hình (Model Identification)
Việc nhận dạng quan tâm đến việc có hay không giá trị duy nhất cho mỗi và mọi tham số tự do có thể thu thập được từ dữ liệu quan sát. Nó phụ thuộc vào việc lựa chọn mô hình và đặc tính kỹ thuật của các tham số cố định, ràng buộc và tự do. Một tham số bị ràng buộc khi nó trong một tập hợp với các tham số khác. Các mô hình cần phải được nhận dạng hoàn chỉnh để có thể ước lượng được (bước 3) và để kiểm định giả thuyết về quan hệ giữa các biến.
Có các dạng mô hình có cấu trúc là 
just-identified, overidentified, hay underidentified.
+ Just-identified model: trong đó tương ứng 1-1 giữa data và các tham số cấu trúc. Nghĩa là, số phương sai dữ liệu và số hiệp phương sai bằng với số tham số được ước lượng. Tuy nhiên, mặc dầu khả năng của mô hình là đạt được một giải pháp duy nhất cho tất cả các tham số, just-identified model không có sự quan tâm của khoa học gia vì bởi nó không có độ tự do và do đó không thể bị loại bỏ.
+ Overidentified model: là mô hình trong đó số tham số có thể ước lượng được thì nhỏ hơn số điểm dữ liệu (data points) (nghĩa là, phương sai, hiệp tương quan của các biến quan sát được). Tình trạng này tạo kết quả ra độ tự do dương cho phép loại bỏ mô hình, do đó được sử dụng một cách khoa học hơn. Mục đích của SEM là chỉ ra một mô hình như vậy đáp ứng các tiêu chuẩn của 
overidentification.
+ Underidentified model: là mô hình trong đó số tham số được ước lượng vượt quá số phương sai và hiệp tương quan. Như vậy, mô hình bao gồm thông tin không ý nghĩa (từ dữ liệu đầu vào) cho việc đạt được 1 giải pháp xác định về ước lượng tham số; nghĩa là, vô số các giải pháp là khả dĩ cho 1 underidentified model.


Ước luợng mô hình (Model Estimation)
Trong bước này, các giá trị khởi đầu  của tham số tự do được chọn để sinh ra 1 ma trận hiệp tương quan tổng thể được ước lượng (estimated population covariance matrix), S(q), từ mô hình. Các giá trị khởi đầu có thể được chọn bởi người nghiên cứu từ thông tin ban đầu, bởi các chương trình máy tính được sử dụng để xây dựng SEM, hay từ phân tích hồi quy đa biến. Mục tiêu của ước lượng là để sinh ra một S(q) hội tụ trên ma trận hiệp tương quan tổng thể quan sát được, S, với ma trận phần dư (residual matrix) (khác biệt giữa S(q) và S) trở nên tối thiểu. Nhiều phương pháp có thể được sử dụng để sinh ra S(q). Việc chọn các phương pháp được hướng dẫn bằng đặc tính của data bao gồm kích thước và phân phối mẫu. Hầu hết các tiến trình được sử dụng là lặp. Hình thức tổng quát của hàm tối thiểu là:
Q = (s –  s(q))’W(s – s(q))
Trong đó:
s = vector bao gồm phương sai và hiệp phương sai của các biến quan sát được.
s(q) = vector bao gồm các phương sai corresponding và hiệp phương sai như được dự đoán bởi mô hình.
W = ma trận trọng số
(một vài tác giả xem Q như là F)
Ma trận trọng số, W, trong hàm trên, phù hợp với phương pháp ước lượng được chọn. W được chọn để tối thiểu Q, và Q(N-1) cho việc thích hợp hàm, trong hầu hết các trường hợp một thống kê phân phối X2. Kết quả thực hiện của X2 bị ảnh hưởng bởi kích thước mẫu, sai số phân phối, nhân tố phân phối, và giả thiết rằng các nhân tố và sai số là độc lập (Ullman 1996). Một vài phương pháp ước luợng được sử dụng thông dụng nhất là:
Generalized Least squares (GLS)
FGLS = ½ tr[([S – S(q)]W-1)2
]
Trong đó:
tr =  toán tử theo dõi (trace operator), cộng các yếu tố trên đường chéo chính của ma trận
W-1 = ma trận trọng số tối ưu, phải được chọn bởi nhà nghiên cứu (chọn lựa thông thường nhất là S-1)
Maximum Likelihood (ML)
FML = log|S| – log|S| + tr(SS-1
) – p
Trong trường hợp này, S-1 và p = số lượng biến được đo lường

Asymptotically Distribution Free (ADF) Estimator (Hàm ước lượng tự do phân phối tiệm cận)
FADF = [S – s(q)]’W-1[S – s(q
)]
W, trong hàm này, bao gồm các yếu tố xem xét trong kurtosis.
Ullman (1996) và Hoyle (1995) thảo luận về các thuận lợi và giới hạn của các hàm ước lượng trên đây.
ML và GLS hữu ích cho dữ liệu phân phối chuẩn khi các nhân tố và sai số là độc lập, ADF hữu ích cho các dữ liệu không phân phối chuẩn, nhưng chỉ có giá trị khi kích thước mẫu lớn hơn 2.500. Ullman chỉ ra hàm ước lượng tốt nhất cho dữ liệu không phân phối chuẩn và/hoặc phụ thuộc giữa các nhân tố và sai số là Scaled ML. Bất kể hàm nào được chọn, kết quả mong đợi của tiến trình ước lượng là đạt được một hàm thích hợp gần đến 0. Một hàm thích hợp với số điểm là 0 chỉ ra rằng ma trận hiệp phương sai được ước lượng của mô hình và ma trận hiệp phương sai mẫu nguyên thủy là tương đương.

Đánh giá độ thích hợp của mô hình (Assesing Fit of the Model)
Như đã phân tích, giá trị hàm thích hợp gần đến 0 được mong đợi cho độ thích  hợp mô hình. Tuy nhiên, nói chung, nếu tỷ số giữa X2 và bậc tự do nhỏ hơn 3, mô hình là thích hợp tốt (Ullman 1996).
Để có độ tin cậy trong kiểm định độ thích hợp mô hình, kích thước mẫu từ 100 đến 200 được yêu cầu (Hoyle 1995).
Ullman (1996) thảo luận sự đa dạng của các hàm thích hợp phân phối không-X2, mà ông ta gọi là “các chỉ số thích hợp so sánh (comparative fit indices.)” Hoyle (1995) đề cập đến điều này như “các chỉ số thích hợp phụ thuộc (adjunct fit indices).” Một cách căn bản, những phương pháp này so sánh độ thích hợp của một mô hình độc lập (một mô hình khẳng định không có quan hệ giữa các biến) để thích hợp mô hình được ước lượng. Kết quả của việc so sánh này thì thường là một số giữa 0 và 1, với 0.90 hoặc lớn hơn được chấp nhận như là các giá trị chỉ ra độ thích hợp. Cả Hoyle và Ullman đề nghị sử dụng nhiều chỉ số khi xác định các độ thích hợp mô hình.

Hiệu chỉnh mô hình (Model Modification)
Nếu ma trận phương sai/hiệp phương sai được ước lượng bằng mô hình không mô phỏng một cách thích hợp ma trận phương sai/hiệp phương sai mẫu, các giả thuyết có thể được hiệu chỉnh và mô hình được kiểm định lại. Để điều chỉnh 1 mô hình, các đường dẫn mới được vẽ thêm hay các đường dẫn cũ được bỏ đi. Nói cách khác, các tham số được thay đổi từ cố định tới tự do hoặc từ tự do đến cố định. Điều quan trọng để nhớ là khi trong các thủ tục thống kê khác, là việc hiệu chỉnh mô hình sau việc kiểm định lần đầu làm gia tăng cơ hội của vấp phải sai lầm loại I.
Các thủ tục thông thường được sử dụng cho việc hiệu chỉnh mô hình là Lagrange Multiplier Index (LM) và Kiểm  định Wald. Cả hai loại kiểm định này báo cáo các thay đổi trong giá trị X2 khi các đường dẫn được điều chỉnh.
LM yêu cầu dù có hay không việc gia tăng các tham số tự do gia tăng sự thích hợp của mô hình. Kiểm định Wald yêu cầu có hay không việc xóa bỏ các tham số tự do gia tăng sự thích hợp mô hình.
Để điều chỉnh tỷ lệ sai lầm loại 1 gia tăng, Ullman (1996) yêu cầu sử dụng một giá trị xác suất thấp (p<0.01) khi tăng thêm hay bỏ các tham số. Ullman cũng yêu cầu so sánh giá trị chéo (cross-validation) với các mẫu khác. Vì trật tự của các tham số tự do có thể ảnh hưởng đến việc lựa chọn của các tham số khác, LM nên được áp dụng trước kiểm định Wald (nghĩa là, cộng thêm vào tất cả các tham số trước khi bắt đầu xóa chúng) (MacCullum 1986, đã trích dẫn của Ullman 1996).


Trình bày mô hình cuối cùng (Final Presentation of Model)
Khi mô hình đã đạt được độ thích hợp chấp nhận được, các ước lượng riêng biệt về các tham số tự do được đánh giá. Các tham số tự do được so sánh với giá trị rỗng (null value), sử dụng thống kê phân phối z. Thống kê z đạt được bằng cách chia tham số ước lượng cho sai số chuẩn của ước lượng đó. Tỷ lệ của kiểm định này phải vượt +/-1.96 để quan hệ trở nên có ý nghĩa. Sau khi các quan hệ riêng biệt trong mô hình được đánh giá, các ước lượng tham số được chuẩn hóa cho việc trình bày mô hình cuố cùng. Khi các ước lượng tham số được chuẩn hóa, chúng có thể được giải thích tham chiếu với các tham số  khác trong mô hình và cường độ của đường xu hướng có liên quan trong mô hình có thể được so sánh.

————-&&————-

Tản mạn về VAR

Tản mạn về VAR

(Tác giả: thanhlele – Nguồn: thanhlele.wordpress.com)

1. Vài nét khái quát

Giải trao cho kinh tế năm 2011 này là cho 2 bác về kinh tế lượng. Trong đó có 1 người mình biết rõ đó là Sim, là người đề xuất phương pháp véc tơ tự hồi quy (VAR – Vector Auto-regressive) vào năm 80.  Cái này không phải có gì là mới mẻ cả. VAR được giảng dạy ở cả bậc đại học và sau đại học tại Anh. Có rất nhiều viết luận án tiến sỹ cũng dùng VAR trong đó có Tô Tồ dùng VAR đo lường sự điều hòa chu kỳ kinh doanh (Business Cycle Syncronization) của 5 nền kinh tế thuộc ASEAN. Tôi không làm về VAR nhưng cũng xin được bàn về vấn đề này một cách khái quát như sau. VAR được mô tả theo cách đơn giản nhất theo phương trình như sau:

\boldsymbol{    \left(\begin{array}{c}  y_{1t}\\  y_{2t}  \end{array}\right)=\left(\begin{array}{cc}  \alpha_{11} & \alpha_{12}\\  \alpha_{21} & \alpha_{22}  \end{array}\right)\left(\begin{array}{c}  y_{1,t-1}\\  y_{2,t-1}  \end{array}\right)+\left(\begin{array}{c}  u_{1t}\\  u_{2t}  \end{array}\right)\;(1)    }

Trong đó \boldsymbol{y_{1t}} và \boldsymbol{y_{2t}} là 2 biến số kinh tế chẳng hạn như là GDP và cung tiền. Hai biến này được bố trí nằm trong 1 vector và được hồi quy phụ thuộc tương ứng vào giá trị quá khứ của từng biến là \boldsymbol{y_{1t-1}} và\boldsymbol{y_{2t-1}}. Đó là lý do tại sao người ta lại gọi là tự hồi quy.

Về bản chất VAR thật ra là sự kết hợp của 2 phương pháp: tự hồi quy đơn chiều (univariate autoregression-AR) và hệ phương trình ngẩu nhiên (simultanous equations-SEs). VAR hay ở chỗ nó lấy ưu điểm của AR là rất dễ ước lượng bằng phương pháp tối thiểu hóa phần dư (OLS) nó lấy ưu điểm của SEs là ước lượng nhiều biến trong cùng 1 hệ thống. Và đồng thời nó khắc phục nhược điểm của SEs là nó không cần quan tâm đến tính nội sinh của các biến kinh tế (endogeneity). Tức là các biến kinh tế vĩ mô thường mang tính nội sinh khi chúng tác động qua lại lẫn nhau. Thuộc tính này làm cho phương pháp cổ điển hồi quy bội dùng 1 phương trình hồi quy nhiều khi bị sai lệch khi ước lượng. Đây là những lý do cơ bản khiến VAR trở nên phổ biến trong nghiên cứu kinh tế vĩ mô. Nó cũng chính là nền tảng cho nghiên cứu về sự cùng hợp nhất (cointegration) của Engle và Granger (1983, 1987) giành giải nobel năm 2003.

2. Ước lượng VAR 

Việc ước lượng VAR rất dễ dàng, nó có thể thực hiện bằng tất cả cả phần mềm kinh tế lượng mì ăn liền như Eviews, Stata,… Các biến kinh tế cũng có thể dùng trực tiếp mà không phải chuyển sang chênh lệch bậc nhất (first-difference) vì VAR không quan tâm đến biến kinh tế có bị rơi vào trạng thái không dừng (non-stationarity) hay không. Vì mục đích của VAR là khi ước lượng được các giá trị của tham số  \boldsymbol{\alpha_{ij}}  thì nó không dùng các tham số này vào mô tả các tham số này như là một hệ số tương quan giữa các biến (correlation). Mà nó lại dùng vào việc tìm ra sự phản ứng có tính chất lanh truyền giữa các biến kinh tế (impulse response). Ví dụ nếu có 1 cú sốc xảy ra với cung tiền thì GDP phản ứng tăng hay giảm trước cú sốc cung tiền này ra sao, etc.

Tuy nhiên, việc ước lượng VAR lại cần lưu tâm ở chỗ là phải kiểm tra tính ổn định của hệ thống. Cụ thể, phương trình (1) ở trên sẽ được đưa về dạng như sau:

\boldsymbol{    \left(\begin{array}{c}  y_{1t}\\  y_{2t}  \end{array}\right)=\dfrac{1}{\Delta}\left(\begin{array}{cc}  1-\alpha_{22}L & \alpha_{21}L\\  \alpha_{21}L & 1-\alpha_{11}L  \end{array}\right)\left(\begin{array}{c}  u_{1t}\\  u_{2t}  \end{array}\right)\;(2)    }

Với \boldsymbol{\Delta=1-(\alpha_{11}+\alpha_{22})L+(\alpha_{11}\alpha_{22}-\alpha_{12}\alpha_{21})L^{2}}

và phương trình \boldsymbol{\lambda^{2}-(\alpha_{11}+\alpha_{22})\lambda+(\alpha_{11}\alpha_{22}-\alpha_{12}\alpha_{21})=0} cần có nghiệm \boldsymbol{\lambda_{1},\;\lambda_{2}} có giá trị tuyệt đối nhỏ hơn 1.

Nói 1 cách đơn giản là điều kiện này giúp cho VAR khi ứng dụng vào phân tích tương tác các biến sẽ đạt được trạng thái là khi xảy ra một cú sốc với một biến khi lan truyền sang biến khác thì quá trình đấy sẽ giảm dần theo thời gian. Cái này giống như trong phim Hàn Quốc là sau khi kết thúc cuộc tình nàng chết vì ung thư, chàng sốc một thời gian rồi cũng quệt nước mắt đi lấy vợ chứ không phải là lao đầu vào tàu hỏa. Trong kinh tế cũng thế, khi xảy ra sốc cung tiền chẳng hạn lạm phát tăng cao trong ngắn hạn nhưng sẽ hội tụ về mức cân bằng dài hạn thấp và ổn định. (the effect of a shock  generally dies out over time).

3. Liên hệ với Việt Nam

Năm nay tác giả của VAR nhận giải có lẽ trong thời buổi thóc cao gạo kém thế này, các chính phủ cần lắm một công cụ dự báo được động thái nền kinh tế. VAR hơn tất cả các phương pháp khác nên về đích. Vì thật ra còn rất rất nhiều đề tài thuộc nhiều lĩnh vực khác thú vị như lý thuyết tăng trưởng kinh tế nội sinh của Romer, người mà năm nào cũng ngấp nghé nhận giải nhưng toàn về nhì. Xem ra thời thế tạo anh hùng.

Ở Việt Nam, thì trong cái thời khủng hoảng này, Ủy ban Giám sát Tài chính Quốc gia cũng cho ra một vài kịch bản tăng trưởng kinh tế với lạm phát, tăng trưởng cao thấp khác nhau. Xin hỏi: có ai dám chắc là nền kinh tế chúng ta rơi vào 1 trong các kịch bản này không? cở sở đâu làm kịch bản này. Không khéo nền kinh tế VN đầu nằm ở một kich bản đuôi lại rơi vào kịch bản khác. Giống như cô gái lấy chồng  vừa muốn lấy chồng giàu lại vừa muốn lấy chồng khỏe nên nghĩ ra kịch bản là ngày con xin ở làng trên (làng có chồng giàu), ban đêm con xin về làng dưới (làng có chồng nghèo nhưng to khỏe)… :D

Tôi lang thang 1 lúc thì tìm ra được 2 bài báo đăng trong tạp chí trong nước:

(1). Bài viết đăng trên tạp chí Ngân hàng

http://www.sbv.gov.vn/wps/portal/!ut/p/c5/lY_JjsIwEEQ_qQvbsZOjJ1EcG4gJSyC5oAghiMR2QCPN37PMAWk0BOg-PlV1P6rpuofmu9005_Z4aHa0oFoukYhIpYEAyj6H9YXKuSmAWF55JZcp05KlGYN3LIEVeqyZ9Hwi1Dvp2OhMqAFgXBHDGjcJxVcPQPBR2mdJBBu6_mDaG3Fn-Iv0_Obaff3e8GQ0fnmXe1d_KP_wf_7v4GUSUJ4d92uqqFYPTxMF7OZZehHmDENF1W69aVY_dNrPZgu0th1tiwvL9lsz/dl3/d3/L0lJSklna21BL0lKakFBTXlBQkVSQ0pBISEvNEZHZ3NvMFZ2emE5SUFnIS83XzBENDk3RjU0MEc5NTIwSU9RVk80OE4yME03L2RTWThtNzU5MDAwMDE!/?WCM_PORTLET=PC_7_0D497F540G9520IOQVO48N20M7_WCM&WCM_GLOBAL_CONTEXT=/wps/wcm/connect/sbv_vn/sbv_vn/vn.sbv.print/vn.sbv.printing.magazine/84984f8044ba318c9ea49fae6a365fce

Bài này dùng VAR phân tích nhưng tác giả quên không đánh giá tính ổn định của VAR như phương trình (2). Hậu quả là đồ thị mô tả tính phản ứng lan truyền rất nhiễu và không rõ ràng. Có biến kinh tế phản ứng ban đầu tăng rồi sau đó lại giảm. Không tuân theo lý giải về kinh tế thông thường. Chứng tỏ hệ thống VAR bị ước lượng sai. Vậy mà tổng biên tập vẫn cho đăng.

(2). Bài viết này đăng trong mục nghiên cứu mới của Tạp chí Kinh tế Phát triển của trường đầu ngành KTQD.

http://www.viennghiencuuthuongmai.com.vn/tin-tuc/chien-luoc-chinh-sach/ts.-pham-the-anh-xac-dinh-cac-nhan-to-quyet-dinh-lam-phat-o-viet-nam

Bài này viết về lạm phát không dùng VAR nhưng dùng phương pháp kiểm tra tính cùng hợp nhất dựa trên VAR. Nói là dùng cả 2 phương pháp của Engle-Granger (1987)  (cho ra 1 mối quan hệ dài hạn) và Johansen (1988) (cho ra 3 mối quan hệ dài hạn). Nhưng kết quả công bố lại không nói rõ là lấy của phương pháp nào. Sự bất nhất về kết quả giữa 2 phương pháp là đương nhiên vì E-G thì bao giờ cũng chỉ có 1 mối quan hệ, còn Johansen thì sẽ có thể có nhiều hơn 1 và ít hơn hoặc bằng tổng số biến trừ đi 1. Tác giả đã lúng túng khi phải lấy chênh lệch bậc 2 cho chỉ số giá để đạt được tính dừng (stationary) của số liệu.

Nhận xét: việc quan trọng nhất của việc dùng cointegration là phải giải thích cặn kẽ cơ sở chọn ra được mối quan hệ dài hạn. Mỗi lần báo cáo khoa học, Nick Horsewood luôn làm rất kỹ phần này và giải thích chi tiết. Kết quả rất đẹp sau nỗ lực giải quyết những khó khăn về số liệu. Cái hay là việc giải quyết vấn đề chứ không phải là cho ra được kết quả ngon lành.

Việc cứ đâm đầu vào tìm lời giải cho lạm phát ở VN đôi khi lại là mù quáng. Lạm phát chỉ là một trong số các biến kinh tế vĩ mô. Nó không thể thoát ra khỏi tổng hòa của nền kinh tế được. Cách này không được thì phải chọn cách khác. Và phương pháp trên chả có gì mới, có vẻ không phù hợp với Việt Nam. Vì hiện nay nghiên cứu mới cho thấy VAR đã lạc hậu rồi. Có rất nhiều  cải tiến cho VAR. Ví dụ như anh bạn người đảo Síp đang dùng FAVAR (Factor Augmented VAR). Cái này được Ben Bernanke, Chủ tịch quy dự trữ liên bang FED dùng rất hiệu quả. Phương pháp này cực hay vì ban đầu nó tổng hợp số liệu của hàng trăm ngành, thị trường trong nền kinh tế. Sau đó dùng phương pháp tách lọc ra một chỉ số chung cho từng ngành (các nhân tố – factor) sau đó cho vào VAR đã được cải tiến (Augmented) để ước lượng. Như vậy, tất cả các nhân tố trong nền kinh tế từ nhỏ tới lớn đều được khái quát hóa trong VAR. Giống như Bernanke khi bình luận về phương pháp này ông nói rằng tất cả các động thái từ nhỏ đến lớn trong nền kinh tế đều có nguyên nhân của nó. Nên việc FAVAR bao trùm được tất cả các nhân tố trong nền kinh tế sẽ làm cho kết quả nghiên cứu giàu tính thực tiễn hơn rất nhiều. Giáo sư Banarjee còn so sánh khoảng 10 mô hình VAR khác nhau cho chuỗi số liệu của gần 100 quốc gia trên thế giới để đánh giá tính ổn định cũng như phù hợp của VAR khi áp dụng vào từng nước. Trong bài giảng mở ngành (Inaugural Lecture), ông gọi đây là cuộc phiêu lưu của Tôm Soi Ơ (trong kinh tế lượng)  (Sawyer’s Adventure).

Hạn chế của VAR: VAR bị hạn chế khi ứng dụng trong tài chính. Số liệu tài chính bị nhiễu nặng do hành vi của nhà đâu tư luôn mang tâm lý đám đông và thái độ đối với rủi ro (risk aversion) của họ cũng khác nhau. Thế nên giả định dưới đây về phần dư (error) sử dụng khi ước lượng VAR  bị vi phạm

\boldsymbol{    \left(\begin{array}{c}  u_{1t}\\  u_{2t}  \end{array}\right)    } ~ N(0,\boldsymbol{\sigma^2})

Tức là các phần dư sẽ không tuân theo quy luật phân phối chuẩn đa chiều nữa (multivariate normal) và phương sai (\boldsymbol{\sigma^2}) sẽ thay đổi theo thời gian làm cho ước lượng của VAR không còn ổn định và hiệu quả nữa nó được mô tả như sau

\boldsymbol{    \sigma_{t}^{2}=\left(\begin{array}{cc}  \sigma_{11,t}^{2} & \sigma_{12,t}\\  \sigma_{21,t} & \sigma_{22,t}^{2}  \end{array}\right)    }

Vậy nên các bạn khi muốn ứng dụng nó trong phân tích trong lĩnh vực tài chính thì cũng nên tránh nhé. VAR rất hay, rất ý nghĩa. Trao nobel cho tác giả của VAR là hoàn toàn xứng đáng. Nó là khuôn mẫu định lượng cho xây dựng kịch bản và dự báo động thái của cân đối vĩ mô tổng thể. Nhưng áp dụng nó cũng cần tập trung sức lực nghiên cứu lớn vì mỗi nền kinh tế lại có đặc thù riêng của nó. Từ năm học này, tôi thấy anh bạn làm về FAVAR xin nghỉ trợ giảng để cả ngày ngồi cắm mặt vào máy tính trên office. Tôi có hỏi thì anh bạn nói là tiếp tục nghiên cứu phương pháp mới trong FAVAR cho phép sử dụng một tham số thay đổi theo thời gian (time-varying) khi đúc rút các số liệu trong ngành thành số liệu của 1 nhân tố (factor). Cái lần trước là tham số cố định theo thời gian nên chạy kết quả cũng tạm tạm thôi chưa ngon lắm. Sang tháng 1, anh bạn báo cáo kết quả mới và có mời tôi đi nghe và cố gắng đóng góp  ý kiến giúp anh cải thiện kết quả. Chắc chắn rồi, sẽ đi nghe nhưng đóng góp thì chắc là khó vì tôi không làm về cái này nên nhiều chỗ chi tiết tôi không biết phải hiểu thế nào. Nhưng lần trước thì có thầy trong khoa phát hiện ra anh bạn quên không kiểm tra tính ổn định của FAVAR (VAR identification checking)… :D .   May là không sao vì trường hợp của anh ta kết quả ngon. Các biến tương tác nhau được anh cho in ra một bảng chi tiết lý giải cụ thể. Đồ thị mô tả tương tác lan truyền rất tốt. Ngon lắm! Học trò của giáo sư Banarjee mà.

—————&&————–

Tản mản về chuyện học kinh tế lượng bậc cử nhân

Tản mản về chuyện học kinh tế lượng bậc cử nhân

(Tác giả: Minh Anh – Nguồn: kinhteking.wordpress.com)

Trước hết, cảm ơn một bạn đọc (Mrs Left) đã gửi bài cho Website về những quy tắc ngầm dành cho các nhà kinh tế lượng ứng dụng (Link download tại:http://www.uta.edu/faculty/crowder/papers/1467-6419.00179.pdf ). Đây là một vài viết hay, tuy nhiên khá triết lý, sâu sắc và dành cho nhóm đối tượng cụ thể -các nhà kinh tế lượng ứng dụng, những nhà nghiên cứu, và các sinh viên sau đại học (Tiến sĩ hoặc thạc sĩ- những nhà nghiên cứu tiềm năng). Với nhóm đối tượng phổ thông, ví dụ như sinh viên đại học, các bạn có thể đọc thêm để biết, bởi chỉ có trải nghiệm mới thật sự hiểu những vấn đề đề cập, trải nghiệm càng nhiều thì mức độ hiểu càng cao. Nhân đây, tản mạn một tý về kinh tế lượng vì có bạn đề cập đến vấn đề học tập kinh tế lượng ở bậc đại học (Góp ý của bạn có đề cập đến đối tượng cụ thể nhưng mục tiêu của website có tính phổ quát nên tôi sẽ không đề cập đến đối tượng đấy). Những tản mạn này là từ góc nhìn cá nhân tôi, dĩ nhiên không loại trừ những cá nhân khác nhau có những góc nhìn khác nhau. Tản mạn phù hợp cho những bạn sinh viên lựa chọn con đường nghiên cứu kinh tế.

Có 3 sự thật mà tôi muốn đề cập:

– Khi bạn nộp hồ sơ cho chương trình Tiến sỹ Kinh tế học hay kể cả Kinh tế lượng ở nước ngoài, sẽ không có bất kỳ yêu cầu nào liên quan đến việc bạn biết chạy phần mềm hay không. Nói cách khác việc bạn biết chạy phần mềm không ảnh hưởng lắm đến việc bạn được lựa chọn. Việc biết các phần mềm này sẽ giúp bạn có lợi thế khi học, tuy nhiên lợi thế này không thật sự quá lớn.

– Lớp tôi học, có 1/3 sinh viên có xuất phát từ Toán (Không biết gì về kinh tế lượng và các phần mềm kinh tế), 2/3 còn lại ít nhiều liên quan đến kinh tế, nhưng không quá 1/3 trong số này biết việc sử dụng các phần mềm kinh tế lượng (có lẽ rất ít bạn hiểu được ý nghĩa của các mô hình kinh tế lượng). Tuy nhiên, điểm chung của tất cả các sinh viên là kỹ năng Toán rất tốt. Do vậy, nếu bạn dự định theo con đường nghiên cứu, bạn nên chuẩn bị Toán thật tốt. (Đừng đồng nghĩa việc này với việc giỏi toán ở Việt Nam. Toán dành cho kinh tế không cần đến mức quá thông minh để tạo ra một cái gì mới, mà chính là kỹ năng để vận dụng các kiến thức toán đã học- Chỉ cần bạn không sợ, học nhiều sẽ quen thôi. Có bạn sẽ đặt vấn đề rằng, Toán học quá vô biên, nên chuẩn bị những gì? Câu trả lời có thể tìm thấy từ blog của Mankiw (Giáo sư kinh tế Harvard) – http://gregmankiw.blogspot.co.uk/2006/05/which-math-courses.html

– Sử dụng phần mềm không phải là toàn bộ của thế giới kinh tế và nó không có gì quá vĩ đại nếu bạn cảm thấy quen thuộc với nó. Thế giới kinh tế này có thể chia thành: nghiên cứu lý thuyết và nghiên cứu ứng dụng. Trong giới nghiên cứu lý thuyết, nhiều giáo sư kinh tế hàng đầu thậm chí không biết dùng bất kỳ một phần mềm nào. (Ví dụ những giáo sư trong nhóm Lý thuyết Trò chơi). Sở thích của họ là dùng “bút chì và giấy” để chơi với Toán học. Sẽ không quá ngạc nhiên, khi bạn thấy những nhà kinh tế lượng lý thuyết không biết dùng bất kỳ phần mềm nào.

Với ba sự thật này, tôi KHÔNG hàm ý rằng SINH VIÊN Ở BẬC CỬ NHÂN không cần quan tâm bất kỳ ứng dụng phần mềm kinh tế lượng nào. Thay vào đó, tôi nghĩ rằng:

1. Với các bạn sinh viên Kinh tế ở bậc cử nhân có dự định theo con đường nghiên cứu, hãy cố gắng đầu tư thời gian cho học tập, càng nhiều càng tốt, đặc biệt là Toán và các môn kinh tế học. Hãy thích ứng với hoàn cảnh bạn được đào tạo và luôn cố gắng hết mình. Có thể chương trình của trường bạn không phải là tốt nhất, nhưng nếu vì thế mà bạn không chuẩn bị cho mình một tinh thần học tốt thì phần nào đó bạn chưa chuẩn bị để học trong một môi trường tốt hơn. Cụ thể về kinh tế lượng, tôi cũng có quan sát và rằng nội dung kinh tế lượng trong các chương trình cử nhân Kinh tế nhìn chung ở US và UK không quá phức tạp, nhưng tính hệ thống và liên kết của họ cao- từ việc chuẩn bị toán và thống kê. Tuy nhiên, tôi và những người bạn của tôi cũng học cử nhân trong nước, nhưng khi học môi trường quốc tế, chúng tôi vẫn khá tự tin. Từ góc nhìn của chúng tôi, môi trường là quan trọng, nhưng sức mạnh ý chí và nội lực sẽ giúp bạn vượt qua những giới hạn của môi trường.

2. Đừng quá cuồng tín vào kinh tế lượng, bởi không có bất kỳ phương pháp hay phần mềm nào được đặt cho một cái tên là hoàn hảo. Luôn thận trọng khi bạn chọn phương pháp nghiên cứu định lượng, trong đó có 1 vài điểm quan trọng sau:

a. Đầu tiên, khi xây dựng mô hình hồi quy, bạn cần phải nghiên cứu thật rõ các biến nào nên đưa vào mô hình? Giải thích tại sao bạn chọn biến đấy: Dựa trên lý thuyết kinh tế hoặc dựa trên các nghiên cứu thực nghiệm trước đây? Do vậy, phần phân tích định tính cần phải được đầu tư kỹ lưỡng. Điều này đặc biệt quan trọng với các bạn sinh viên đại học vì: (i)- rèn luyện kỹ năng tư duy nghiên cứu, liên hệ với các lý thuyết đã học; (ii)- kỹ thuật xử lý mô hình ở giai đoạn này của các bạn còn thô sơ nên nếu nghiên cứu định tính không phù hợp sẽ dẫn đến những kết quả định lượng không phản ánh chính xác mối quan hệ thực. Do vậy, nếu các bạn làm nghiên cứu khoa học, yếu tố này nên được quan tâm. Ngoài ra, nên chọn những đề tài ở mức độ hợp lý, tham khảo ý kiến của các thầy cô giáo trước khi quyết định. Và luôn ghi nhớ rằng, bài nghiên cứu hay không hẳn là do sử dụng một công cụ kinh tế lượng mới và phức tạp.

b. Đừng quên đánh giá tính phù hợp của mô hình thông qua các test kiểm định hay các chỉ số đánh giá mô hình.

c. Nếu các kết quả có phần ngược với lý thuyết, bạn cần đưa ra lời giải thích tại sao? Đừng vội kết luận bởi có thể mô hình của bạn không phù hợp. Tương tự, nếu một trong các chỉ số đánh giá mô hình không phù hợp, bạn cần xem lại data, biến liên quan và khắc phục mô hình, hoặc đưa ra lời giải thích cho điều này. Ngay cả khi kết quả phù hợp với lý thuyết, bạn cũng cần sử dụng các test để đảm bảo tính phù hợp mô hình.

d. Bạn cần học và rèn luyện để hiểu ý nghĩa của các kết quả từ phần mềm kinh tế lượng. Sẽ tốt hơn nếu bạn biết “quy trình phần mềm xử lý để có kết quả đấy”. Cái quy trình này chính là “bút chì và giấy” của các nhà kinh tế lượng lý thuyết. Đối với sinh viên đại học, nếu các bạn hiểu rõ được quy trình của phương pháp hồi quy bình phương nhỏ nhất (OLS) cũng đã là rất tốt. Bởi đây là nền tảng để mở rộng xa hơn. Ngày xưa, tôi cũng đã từng nghĩ rằng biết chạy phần mềm mới là quan trọng, nhưng giờ tôi nhận thấy rằng “chạy phần mềm như nấu nồi cơm điện”- học để chạy phần mềm không khó, cái khó nhất là hiểu bản chất kinh tế lượng nằm ẩn sau mô hình đấy. Nếu nắm bản chất này thì bạn sẽ không mất quá lâu để học các phần mềm tích hợp: EVIEW, STATA, SPSS, GRETL,…Tuy nhiên, bạn nên chọn phần mềm nào mà bạn cảm thấy dễ dàng. Cá nhân tôi, những vấn đề phức tạp tôi hay dùng MATLAB hoặc R, với các vấn đề đơn giản đã được tích hợp trong các phần mềm, tôi thường dùng EVIEW cho Macroeconometrics và STATA cho Microeconometrics. Tôi vẫn còn giữ tập ghi chép ngày xưa tôi học đại học, chủ yếu là toán để giải các hồi quy đơn giản bằng OLS, nhưng quả thật nó rất ý nghĩa với tôi. Và cách tôi học kinh tế lượng bây giờ cũng tương tự, dùng giấy và bút chì để giải quy trình có được kết quả – Hàng loạt công thức toán học (nhưng thực chất nếu các bạn làm nhiều các bạn sẽ quen- kiểu toán ứng dụng này- chỉ là những kỹ năng đại số). Sau đó, tôi mới dùng phần mềm đề tìm kết quả cụ thể.

3. Nếu bạn thích nghiên cứu kinh tế, nhưng “ái ngại” kinh tế lượng vì những gì bạn được học dường như quá phức tạp, thì vẫn có nhiều cánh cửa khác cho bạn. Nó không đang sợ đến mức để bạn từ bỏ đam mê của bạn đâu.Tuy nhiên, nếu bạn theo đuổi nghiên cứu, có thể bạn sẽ thích nó, vì việc chạy phần mềm không khó. Đôi lúc nó quá dễ, và chính sự dễ dàng này phần nào đó đã “hủy hoại” một bộ phận giới nghiên cứu kinh tế vì quá phụ thuộc vào kết quả mô hình. Việc bạn dành 5 năm học tiến sĩ (hoặc 2 năm thạc sĩ – 3 năm tiến sĩ) không phải là để học chạy phần mềm mà là học về bản chất của vấn đề kinh tế (nghiên cứu kinh tế học) hoặc/và là học về quy trình dẫn đến kết quả (kinh tế lượng). Và khi đấy, nếu bạn theo kinh tế lượng ứng dụng, thì link ở phần đầu của bài viết này là dành cho bạn.

Tổng kết lại những điều tôi đã đề cập ở trên:

1- Việc biết chạy mô hình hay không ở bậc cử nhân sẽ không thật sự ảnh hưởng nhiều đến con đường nghiên cứu của bạn. Bạn sẽ được học một cách chính thống và đầy đủ ở các chương trình cao hơn. Do vậy, nếu bạn được đào tạo kinh tế lượng ở bậc cử nhân, hãy cố gắng học tốt chương trình bạn đang học, không phân biệt là bạn đang học theo tiếp cận lý thuyết hay tiếp cận ứng dụng. Bởi rèn luyện kỹ năng sẽ luôn có ích cho bạn
2- Rèn luyện kỹ năng Toán, xác suất và thống kê và hiểu rõ các bản chất kinh tế của các nội dung được đề cập ở cả Kinh tế vi mô và vĩ mô.
3- Nếu bạn thích nghiên cứu định lượng, DIY – “Do it yourself”- tận dụng Internet và sách vở để tự học và rèn luyện kỹ năng của mình, để học những cái bạn quan tâm và ứng dụng những cái bạn thích. Tuy nhiên, cố gắng nghiêm túc và thận trọng khi dùng tiếp cận định lượng bởi nó có thể hủy hoại tư duy nghiên cứu của bạn.

Chúc các bạn học tốt

————-&&———–