Phân tích EFA, CFA và SEM với R

Phân tích EFA, CFA và SEM với R

Lê Văn Tuấn

Đại học Thương mại

Tóm tắt. Bài viết giới thiệu các phương pháp phân tích EFA, CFA và mô hình SEM. Các câu lệnh trên phần mềm R được trình bày đầy đủ nhằm cung cấp cho bạn đọc công cụ để thực hiện các phân tích/ mô hình này. Bộ dữ liệu được sử dụng trong chạy mô hình là bộ dữ liệu khảo sát thực tế để nghiên cứu về lòng trung thành của nhân viên.

Phiên bản: 9/2021

1. Mở đầu

a) Phân tích EFA

Trong thống kê đa biến, phân tích nhân tố khám phá (Exploratory Factor Analysis – EFA) là một phương pháp thống kê được sử dụng để khám phá cấu trúc cơ bản của một tập hợp các biến tương đối lớn. EFA là một kỹ thuật trong phân tích nhân tố (Factor Analysis) có mục tiêu bao quát là xác định các mối quan hệ cơ bản giữa các biến được đo lường. Nó thường được các nhà nghiên cứu sử dụng khi phát triển thang đo (thang đo là tập hợp các câu hỏi được sử dụng để đo lường một chủ đề nghiên cứu cụ thể) và dùng để xác định một tập hợp các cấu trúc tiềm ẩn bên dưới một loạt các biến được đo lường. Nó nên được sử dụng khi nhà nghiên cứu không có giả thuyết tiên nghiệm về các nhân tố hoặc mô hình của các biến được đo lường. Thông thường, các nhà nghiên cứu sẽ có một số lượng lớn các biến được đo lường, được giả định là có liên quan đến một số lượng nhỏ hơn các nhân tố “không được quan sát”. Các nhà nghiên cứu phải xem xét cẩn thận số lượng các biến được đo lường để đưa vào phân tích. Các thủ tục EFA chính xác hơn khi mỗi nhân tố được đại diện bởi nhiều biến đo lường trong phân tích.

EFA dựa trên mô hình nhân tố chung. Trong mô hình này, các biến biểu hiện được biểu thị dưới dạng một hàm của các nhân tố chung, nhân tố duy nhất và sai số đo lường. Mỗi nhân tố duy nhất chỉ ảnh hưởng đến một biến biểu hiện và không giải thích mối tương quan giữa các biến biểu hiện. Các nhân chung ảnh hưởng đến nhiều hơn một biến biểu hiện và các hệ số tải nhân tố (Factor Loading) là các thước đo mức độ ảnh hưởng của một nhân tố chung đến một biến biểu hiện. Đối với quy trình EFA, chúng ta quan tâm nhiều hơn đến việc xác định các nhân tố chung và các biến biểu hiện liên quan.

b) Phân tích CFA

Trong thống kê, phân tích nhân tố khẳng định (Confirmatory Factor Analysis – CFA) là một dạng phân tích nhân tố đặc biệt. Nó được sử dụng để kiểm tra xem các thước đo của một cấu trúc có phù hợp với sự hiểu biết của nhà nghiên cứu về bản chất của cấu trúc (hoặc nhân tố) đó hay không. Như vậy, mục tiêu của CFA là kiểm tra xem dữ liệu có phù hợp với mô hình đo lường giả định hay không. Mô hình giả thuyết này dựa trên lý thuyết và/hoặc nghiên cứu phân tích trước đó.

Trong phân tích nhân tố khẳng định, nhà nghiên cứu trước tiên phát triển một giả thuyết về những nhân tố mà họ tin rằng đang làm cơ sở cho các biện pháp được sử dụng và có thể áp đặt các ràng buộc đối với mô hình dựa trên các giả thuyết tiên nghiệm này. Bằng cách áp đặt những ràng buộc này, nhà nghiên cứu đang buộc mô hình phải phù hợp với lý thuyết của họ.

Cả EFA và CFA đều được sử dụng để hiểu phương sai chung của các biến đo lường được cho là do một nhân tố hoặc cấu trúc tiềm ẩn. Tuy nhiên, bất chấp sự tương đồng này, EFA và CFA là những phân tích khác biệt về mặt thống kê và khái niệm. Mục tiêu của EFA là xác định các nhân tố dựa trên dữ liệu và tối đa hóa lượng phương sai được giải thích. Nhà nghiên cứu không bắt buộc phải có bất kỳ giả thuyết cụ thể nào về việc có bao nhiêu nhân sẽ xuất hiện, và những nhân tố này sẽ bao gồm những mục hoặc biến nào. Nếu các giả thuyết này tồn tại, chúng không được đưa vào và không ảnh hưởng đến kết quả của các phân tích thống kê. Ngược lại, CFA đánh giá các giả thuyết tiên nghiệm và phần lớn được thúc đẩy bởi lý thuyết. Các phân tích CFA yêu cầu nhà nghiên cứu đưa ra giả thuyết trước về số lượng các nhân tố, liệu các nhân tố này có tương quan hay không và các mục/thước đo nào ảnh hưởng đến và phản ánh các nhân tố nào. Như vậy, trái ngược với EFA, trong đó tất cả các tải đều có thể thay đổi tự do, CFA cho phép giới hạn rõ ràng của một số tải nhất định bằng 0.

c) Mô hình SEM

Mô hình phương trình cấu trúc SEM (Structural Equation Modelling) là một kỹ thuật mô hình thống kê rất tổng quát. Sự quan tâm trong SEM thường là vào các kiến trúc lý thuyết (các khái niệm lý thuyết), được trình bày bởi các nhân tố ngầm (các khái niệm tiềm ẩn). Các quan hệ giữa các kiến trúc lý thuyết được trình bày bởi các hệ số hồi quy hay hệ số đường dẫn giữa các nhân tố. SEM ám chỉ một cấu trúc của các hiệp tương quan (covariances_hiệp phương sai) giữa các biến được quan sát, các quan hệ này cho ra một tên khác là mô hình hóa cấu trúc hiệp tương quan (covariance structure modeling_mô hình cấu trúc hiệp phương sai). Tuy nhiên, mô hình có thể được mở rộng thêm bao gồm trung bình của các biến quan sát được hoặc các nhân tố trong mô hình, làm cho tên mô hình hóa cấu trúc hiệp tương quan ít chính xác. Nhiều nhà nghiên cứu chỉ đơn giản nghĩ mô hình loại này là các mô hình LISREL (LInear Structural RELations (các quan hệ cấu trúc tuyến tính)), điều này cũng ít chính xác. Các mô hình phương trình cấu trúc ngày nay không nhất thiết phải tuyến tính, và khả năng mở rộng của SEM xa hơn phương trình LISREL ban đầu.

SEM liên quan đến việc xây dựng một mô hình, một biểu diễn mang tính thông tin của một số hiện tượng lý thuyết hoặc quan sát được. Trong mô hình này, các khía cạnh khác nhau của một hiện tượng được giả thiết có liên quan với nhau theo một cấu trúc. Cấu trúc này là một hệ phương trình, nhưng nó thường được thiết kế trên giấy hoặc sử dụng máy tính với các mũi tên và ký hiệu. Cấu trúc này ngụ ý các mối quan hệ thống kê và thường là nhân quả giữa các biến, các sai số và có thể bao gồm nhiều phương trình.

Mô hình SEM bao gồm nhiều kỹ thuật thống kê khác nhau như phân tích đường dẫn (Path Analysis), phân tích nhân tố khẳng định (Confirmatory Factor Analysis), mô hình nhân quả với các biến tiềm ẩn (Causal modeling with Latent variable, và cũng thường gọi là SEM), và thậm chí cả phân tích phương sai (Analysis of Variance), mô hình hồi quy tuyến tính bội (Multiple Linear Regression).

2. Đọc dữ liệu

3. Phân tích EFA với R

4. Phân tích CFA với R

5. Mô hình SEM với R

download bài viết đầy đủ:

link download dữ liệu: Khao sat nhan vien.csv (dropbox.com)

Ứng dụng phần mềm R định giá quyền chọn cho các cổ phiếu trên TTCK Việt Nam

Ứng dụng phần mềm R định giá quyền chọn cho các cổ phiếu trên TTCK Việt Nam

Lê Văn Tuấn

Đại học Thương mại

Tóm tắt. Bài viết trình bày việc ứng dụng phần mềm R trong định giá quyền chọn cho cổ phiếu trên TTCK Việt Nam. Các phương pháp định giá quyền chọn gồm có: dùng mô hình Black-Scholes, mô hình Cox-Ross-Rubinstein (còn gọi là mô hình cây nhị phân) và mô phỏng Monte Carlo. Các loại quyền chọn được định giá là: quyền chọn kiểu Âu, kiểu Mỹ và kiểu Á.

1. Mở đầu

Định giá quyền chọn là một mảng kinh điển trong tài chính định lượng trên thế giới. Ba phương pháp cơ bản để định giá quyền chọn là: dùng mô hình Black-Scholes (1973), dùng mô hình Cox-Ross-Rubinstein (còn gọi là mô hình cây nhị phân – 1979) và mô phỏng Monte Carlo (1977,1996,2001). Mô hình Black-Scholes chỉ áp dụng cho quyền chọn kiểu Âu, hai phương pháp còn lại áp dụng cho nhiều loại quyền chọn. Cơ sở lý thuyết của các phương pháp này có thể xem trong (Capinski, 2003).

Các hướng phát triển của định giá quyền chọn được trình bày chi tiết trong (Gong, 2011), cụ thể là:

  • Sử dụng mô hình Heston với giả thiết tài sản gốc tuân theo mô hình Black-Scholes nhưng độ biến động là ngẫu nhiên.
  • Ứng dụng mô hình GARCH để mô hình hóa độ biến động
  • Sử dụng tính chất động lượng của phân phối log-chuẩn cắt cụt
  • Sử dụng quá trình ngẫu nhiên diffusion với bước nhảy

Ở hướng thực hành trên phần mềm R, (Daróczi, 2013) trình bày các phương pháp Black-Scholes và Cox-Ross-Rubinstein để định giá quyền chọn; phương pháp mô phỏng Monte Carlo có thể xem trong (Iacus, 2011) .

Tại Việt Nam, khái niệm quyền chọn được giảng dạy cho sinh viên ngành tài chính tại hầu hết các trường đại học khối ngành kinh tế. Lý thuyết về định giá quyền chọn cũng được giảng dạy cho sinh viên học về tài chính định lượng tại nhiều trường. Nhiều giáo trình trình bày về định giá các loại quyền chọn theo các phương pháp khác nhau, chẳng hạn (Dũng, 2014).

Bên cạnh đó, cũng xuất hiện nhiều công trình nghiên cứu về việc ứng dụng quyền chọn cho thị trường chứng khoán Việt Nam.

Trong (Thủy, 2011), các tác giả đưa ra tình hình chung của TTCK Việt Nam, những khó khăn và thuận lợi trong việc triển khai giao dịch quyền chọn trên TTCK Việt Nam.

Hướng sử dụng mô hình Black-Scholes để định giá quyền chọn có thể xem trong một số tài liệu. Trong đó, (Thái, 2013) ứng dụng mô hình Black-Scholes để định giá quyền chọn cho chỉ số VN30, các tác giả cũng thực hiện một số kiểm định để kiểm tra các giả thiết của mô hình Black-Scholes. Trong (Đào, 2019), các tác giả đã sử dụng mô hình GARCH để mô hình hóa độ biến động. Trong (Tuyen, 2013), các tác giả đã sử dụng một mở rộng của mô hình Black-Scholes, đó là giả thiết tài sản gốc tuân theo chuỗi Markov, để áp dụng định giá quyền chọn cho chỉ số VN-Index; các tác giả cũng đã chứng tỏ rằng mô hình Markov là phù hợp với dữ liệu của TTCK Việt Nam.

Hướng sử dụng mô hình Cox-Ross-Rubinstein (mô hình cây nhị phân) có thể xem trong (Trung, 2011), tuy nhiên, trong bài viết này các tác giả chỉ trình bày cơ sở lý thuyết của mô hình.

Chúng tôi chưa tìm thấy công trình nghiên cứu về định giá quyền chọn của Việt Nam sử dụng phương pháp mô phỏng Monte Carlo.

Download bài viết đầy đủ:

ỨNG DỤNG MỘT SỐ MÔ HÌNH HỌC MÁY TRONG DỰ BÁO CHIỀU BIẾN ĐỘNG CỦA THỊ TRƯỜNG CHỨNG KHOÁN VIỆT NAM

ỨNG DỤNG MỘT SỐ MÔ HÌNH HỌC MÁY TRONG DỰ BÁO CHIỀU BIẾN ĐỘNG CỦA THỊ TRƯỜNG CHỨNG KHOÁN VIỆT NAM(*)

Lê Văn Tuấn, Nguyễn Thu Thủy, Lê Thị Thu Giang

Bộ môn Toán, Đại học Thương mại, Hà Nội, Việt Nam


Tóm tắt. Bài viết sử dụng một số mô hình/thuật toán học máy để dự báo xu hướng biến động (tăng/giảm) của chỉ số thị trường chứng khoán của Việt Nam. Kết quả cho thấy, trong các mô hình hồi quy Logistic, mô hình phân tích phân biệt tuyến tính (LDA), phân tích phân biệt toàn phương (QDA) và mô hình K – lân cận (KNN): mô hình KNN(10) có độ chính xác dự báo tốt nhất. Câu lệnh R được cung cấp đầy đủ tới bạn đọc.


1.     MỞ ĐẦU

Chuỗi chỉ số thị trường chứng khoán thường được đặc trưng bởi một hành vi theo đám đông và phi tuyến tính khiến cho việc dự báo trở thành một nhiệm vụ đầy thách thức. Các yếu tố tạo ra sự biến động trong lĩnh vực này rất phức tạp và bắt nguồn từ nhiều nguyên nhân với bản chất khác nhau. Từ các quyết định kinh tế, chính trị và đầu tư cho đến những nguyên nhân không rõ ràng, ở một khía cạnh nào đó, đều gây ra nhiều khó khăn trong dự đoán chỉ số thị trường chứng khoán. Thị trường chứng khoán luôn thu hút các nhà đầu tư do khả năng sinh lời cao, tuy nhiên, nó cũng chứa đựng rất nhiều rủi ro. Vì vậy, cần có một công cụ thông minh để giảm thiểu rủi ro với hy vọng có thể tối đa hóa lợi nhuận. Ngày nay, các mô hình Học máy (Machine Learning) đã trở thành một công cụ phân tích mạnh mẽ được sử dụng để trợ giúp và quản lý đầu tư hiệu quả. Các mô hình này đã được sử dụng rộng rãi trong lĩnh vực tài chính để cung cấp những phương pháp mới nhằm giúp các nhà đầu tư đưa ra quyết định tốt hơn trong việc đầu tư chứng khoán.

Thị trường chứng khoán mỗi quốc gia ngày càng phát triển sâu rộng và hòa nhập vào thị trường quốc tế vì chúng có lợi nhuận hấp dẫn (He và cộng sự, 2015; Chou và Nguyễn, 2018) và là một tài sản có tính thanh khoản tương đối cao do chúng có thể được mua – bán nhiều lần thông qua các sở giao dịch chứng khoán. Mặc dù vậy, đầu tư cổ phiếu có rủi ro cao do sự không chắc chắn và biến động trên thị trường chứng khoán (Hyndman và Athanasopoulos, 2018). Do đó, các nhà đầu tư phải hiểu bản chất của từng cổ phiếu riêng lẻ và các yếu tố phụ thuộc của chúng ảnh hưởng đến giá cổ phiếu để tăng cơ hội đạt được lợi nhuận cao hơn. Quan trọng nhất, các nhà đầu tư cần phải đưa ra các quyết định đầu tư hiệu quả vào đúng thời điểm (Ijegwa và cộng sự, 2014) bằng cách sử dụng lượng thông tin chính xác và thích hợp (Nguyen và cộng sự, 2015).

Dự báo sự biến động trên thị trường chứng khoán là một chủ đề quan trọng trong lĩnh vực tài chính. Việc dự báo hiệu quả sẽ giúp nhà đầu tư xây dựng được chiến lược đầu tư tối ưu cũng như phòng ngừa rủi ro. Dự báo một số chỉ số tài chính dựa trên một số yếu tố tác động sẽ dễ dàng nhưng kết quả có thể không chính xác vì các yếu tố chưa được đưa vào mô hình cũng có thể quan trọng trong việc giải thích sự biến động của chỉ số tài chính. Chẳng hạn, giá của cổ phiếu hoặc chỉ số của thị trường có thể bị ảnh hưởng bởi nhiều yếu tố khác nhau, ví dụ: tăng trưởng kinh tế (Perwej và Perwej, 2012; Selvin và cộng sự, 2017). Rất khó để phân tích tất cả các yếu tố theo cách thủ công (Nguyen và cộng sự, 2015; Sharma và cộng sự, 2017), vì vậy, sẽ tốt hơn nếu có các công cụ hỗ trợ phân tích dữ liệu này. Trong đầu tư chứng khoán, việc đưa ra quyết định đúng đắn trong khoảng thời gian kịp thời là một thách thức lớn vì cần một lượng thông tin đồ sộ để dự đoán sự biến động của giá thị trường chứng khoán. Những thông tin này rất quan trọng đối với các nhà đầu tư vì sự biến động của thị trường chứng khoán có thể dẫn đến tổn thất đầu tư đáng kể. Do đó, việc phân tích thông tin lớn này rất hữu ích cho các nhà đầu tư và cũng hữu ích cho việc phân tích xu hướng biến động của các chỉ số thị trường chứng khoán (Kim và Kang, 2019).

Với sự thành công rực rỡ của các mô hình Học máy (Machine Learning) trong nhiều lĩnh vực, ứng dụng của  Học máy trong tài chính ngày càng được chú ý và phát triển không ngừng (Nguyen et al., 2015; Attigeri et al., 2015; Kim and Kang, 2019). Việc áp dụng các mô hình Học máy để dự báo chứng khoán, cổ phiếu cũng rất phổ biến trên thế giới, không chỉ trong học thuật mà còn trong thực tiễn. Ở các bài toán dự báo ở những nghiên cứu trước đây, các tác giả thường sử dụng dữ liệu lịch sử của chuỗi thời gian để cung cấp các ước lượng cho các giá trị trong tương lai. Gần đây, các nhà nghiên cứu đã bắt đầu phát triển các kỹ thuật Học máy giống với quá trình sinh học và tiến hóa để giải quyết các vấn đề phức tạp và phi tuyến. Kỹ thuật này trái ngược với cách tiếp cận truyền thống, tức là các phương pháp thống kê cổ điển. Ví dụ về các kỹ thuật học máy có thể nhắc đến như Mạng thần kinh nhân tạo (Artificial Neural Networks  – ANN), Máy vectơ hỗ trợ (Support Vector Machines – SVM) và Lập trình di truyền (Genetic Programming  – GP), thuật toán K-lân cận (K-nearest neighbors – KNN), Mô hình hồi quy Logistic, phân tích phân biệt tuyến tính (Linear Discriminant Analysis – LDA), phân tích phân biệt toàn phương (Quadratic Discriminant  Analysis – QDA).

Bài báo này sẽ khám phá một ứng dụng của Học máy trong tài chính. Cụ thể, chúng tôi sẽ sử dụng các mô hình Học máy quen thuộc để áp dụng dự báo cho thị trường chứng khoán Việt Nam. Kết quả cho thấy, trong các mô hình hồi quy Logistic, LDA, QDA, và KNN: mô hình KNN(10) có độ chính xác dự báo tốt nhất.

(*) Đăng Kỷ yếu Hội thảo Khoa học Quốc tế thường niên các nhà khoa học trẻ của các trường khối kinh tế và kinh doanh (ICYREB 2020)

download bài viết đầy đủ:

ÁP DỤNG MÔ HÌNH GARCH TRÊN THỊ TRƯỜNG CHỨNG KHOÁN VIỆT NAM

ÁP DỤNG MÔ HÌNH GARCH TRÊN THỊ TRƯỜNG CHỨNG KHOÁN VIỆT NAM

LÊ VĂN TUẤN – PHÙNG DUY QUANG

Đại học Thương mại – Đại học Ngoại thương

TÓM TẮT. Bài viết sử dụng mô hình GARCH để mô hình hóa và thực hiện dự báo cho chỉ số VNIndex, chỉ số đại diện cho TTCK Việt Nam. Kết quả thống kê cho thấy mô hình phù hợp nhất để mô hình hóa sự biến động của VNIndex là GARCH(1, 1). Các câu lệnh R được cung cấp đầy đủ tới bạn đọc.

  1. Giới thiệu

Mô hình hóa sự bất định là vấn đề căn bản của tài chính định lượng, được ứng dụng trong cả ba mảng chính: phân bổ danh mục đầu tư, quản trị rủi ro và định giá các hợp đồng tài chính. Sự mô hình hóa này đem lại sự hiểu biết về các tính chất thống kê của sự thay đổi giá và cách để dự báo tốt hơn. Các chuỗi dữ liệu theo thời gian được cho là phụ thuộc vào giá trị quá khứ của chính nó (autoregressive), điều kiện của các thông tin trong quá khứ (conditional) và tồn tại phương sai thay đổi (heteroskedastic). Các nghiên cứu cho rằng những biến động của thị trường chứng khoán thay đổi theo thời gian và biến động theo cụm (volatility clustering), nghĩa là một chuỗi thời gian với một số thời kỳ biến động thấp và một số thời kỳ biến động cao.

Mô hình ARCH(Autoregressive Conditional Heterokedasticity) và họ các mô hình tổng quát của nó, GARCH (Generalized Autoregressive Conditional Heterokedasticity), đã mở ra một kỷ nguyên mới trong lĩnh vực mô hình hóa tài chính (trường hợp riêng là cho thị trường chứng khoán). Đóng góp chính của các mô hình này là cho phép mô hình hóa sự bất định là một quá trình động, thay vì giả định sự biến động trong tương lai là hằng số, nó là quá trình biến đổi theo thời gian.

Ở Việt Nam, các nghiên cứu về áp dụng mô hình ARCH/GARCH cho thị trường chứng khoán xuất hiện từ khá sớm. Hoàng (2004) đã tìm kiếm bằng chứng khoa học về hiệu ứng GARCH trên dãy thống kê lợi suất của chỉ số giá thị trường và 10 cổ phiếu đang niêm yết. Kết quả kiểm định đáng khích lệ. Tiên (2017) đã thực hiện các phân tích bằng mô hình GARCH cân xứng và bất cân xứng. Theo tiêu chí AIC và SIC, nghiên cứu chứng minh rằng GARCH (1,1) và EGARCH (1,1) được đánh giá là mô hình thích hợp nhất để đo lường các dao động đối xứng và bất đối xứng của VN-Index. Khoa (2017) đã dự báo những biến động có điều kiện của thị trường chứng khoán Việt Nam. Kết quả cho thấy, mô hình GARCH (1,1) là phù hợp để ước tính sự biến động của thị trường chứng khoán trong nước.

Trong bài viết này, chúng tôi sẽ mô hình hóa sự biến động của thị trường chứng khoán Việt Nam, được đại diện bởi chỉ số VNIndex, qua mô hình ARCH/GARCH. Kết quả thống kê sẽ chỉ ra mô hình GARCH nào là phụ hợp để mô tả VNIndex. Bên cạch đó, thông qua giả lập sự biến đổi của VNIndex trong tương lai, chúng tôi cũng đưa ra dự báo về giá trị của chỉ số VNIndex. Các câu lệnh thực hiện trên phần mềm R được trình bày đầy đủ.

download bài viết đầy đủ: Ap dung mo hinh GARCH cho TTCK VN

———————&&&———————

 

 

Ứng dụng phần mềm R định giá quyền chọn cho các cổ phiếu trên TTCK Việt Nam theo mô hình Black-Scholes

Ứng dụng phần mềm R định giá quyền chọn cho các cổ phiếu trên TTCK Việt Nam theo mô hình Black-Scholes

Lê Văn Tuấn

Đại học Thương mại

Tóm tắt. Bài viết trình bày nền tảng toán học của mô hình Black-Scholes, mô hình tiên phong trong định giá quyền chọn và được xem là mô hình toán học thành công nhất trong lĩnh vực kinh tế – tài chính. Bên cạnh đó, bài viết cũng minh họa thực hành trên phần mềm R để định giá quyền chọn cho các cổ phiếu trên TTCK Việt Nam.

  1. Phần mềm R

R là một phần mềm mã nguồn mở sử dụng cho phân tích thống kê và đồ thị, bạn có thể download miễn phí từ trang chủ r-project.org. Phần lớn các kỹ thuật phân tích trong kinh doanh đều được R hỗ trợ – từ thống kê đến học máy hay các kỹ thuật tối ưu hóa. Bằng chứng cho sức mạnh của R đó là những giải thưởng và sự tán dương từ những tạp chí hay cộng đồng uy tín trên thế giới như New York Times, Forbes, Intelligent, Enterprise, InfoWorld và The Register.

Các lí do chính nên sử dụng R trong học thuật cũng như thực tiễn là: Miễn phí (và mã nguồn mở); Phần mềm mạnh nhất trong các phần mềm miễn phí; Cạnh tranh (thậm chí vượt trội) so với các phần mềm thương mại; Đã sử dụng nhiều trong thực tiễn; Chạy được trên nhiều hệ điều hành.

Xem Bảng so sánh sức mạnh trong thống kê của các phần mềm: R, MATLAB, SAS, STATA, SPSS: http://stanfordphd.com/Statistical_Software.html

Download và cài đặt trên Windows (R có cả phiên bản trên Linux và (Mac) OS X)

  • Truy cập vào trang chủ: http://www.r-project.org/, click vào CRAN (dưới chữ Download ở cột bên trái), sẽ đến trang CRAN Mirrors, click vào một link (ví dụ của Thailand), click tiếp Download R for Windows, click tiếp install R for the first time, click tiếp Download R *.*.* for Windows  sẽ download được file R-*.*.*-win.exe (*.*.* chỉ  version tại thời điểm download).
  • Cài đặt như các phần mềm khác.

Thư viện (gói lệnh) của R sử dụng trong định giá quyền chọn.

  • fOptions: Định giá quyền chọn (với nhiều mô hình và nhiều loại quyền chọn)

Cài đặt thư viện

  • Thư viện fOptions: Tại cửa sổ lệnh của R gõ: install.packages(“fOptions”)

Sử dụng thư viện

  • Mỗi lần chạy R, tại cửa sổ lệnh gõ: library(fOptions)
  1. Giá quyền chọn và công thức Black-Scholes

Quyền chọn (Option)[1]. Quyền chọn mua (Call Option, gọi tắt là Call) là một hợp đồng cho phép mua, nhưng không bắt buộc phải mua, các mặt hàng nào đó, tại các thời điểm nào đó, với giá nào đó theo thỏa thuận từ trước, trong các điều kiện nào đó.

Tương tự như vậy, quyền chọn bán (Put Option, gọi tắt là Put) là một hợp đồng cho phép bán với các điều kiện nào đó, nhưng không bắt buộc phải bán.

Quyền chọn kiểu Âu (European Option). Quyền chọn mua kiểu Âu là một hợp đồng cho phép nhà đầu tư mua một đơn vị của một hàng hóa hay tài sản S nào đó (gọi là tài sản gốc-underlying asset) với một giá K đã được cố định (gọi là giá thực hiện-exercise price hay strike price) tại một thời điểm T trong tương lai cũng đã được cố định[2], gọi là (thời điểm đáo hạn-exercise time hay expiry time).

Nếu thay chữ mua bằng chữ bán trong định nghĩa này, thì ta được một quyền chọn bán kiểu Âu (European Put).

Tại thời điểm đáo hạn, lợi nhuận (pay-off) của quyền chọn mua và bán tương ứng là:

(S(T) – K)+ và (K – S(T))+

Ký hiệu giá quyền chọn tại thời điểm t (0 ≤ t ≤ T) là: C(t, S) và P(t, S).

Ngang giá quyền chọn. Giá của quyền chọn mua và bán kiểu Âu liên hệ với nhau theo công thức: C(t, S) – P(t, S) = S(t) – Ke-r(T-t)

 

download bài viết đầy đủ: Mô hình Black-Scholes

————————&&&————————-

PHÂN TÍCH BAO DỮ LIỆU (DEA) VỚI R

PHÂN TÍCH BAO DỮ LIỆU (DEA) VỚI R

Lê Văn Tuấn

Đại học Thương mại

Tóm tắt. Bài viết giới thiệu về phương pháp phân tích bao dữ liệu (DEA) và cơ sở toán học của phương pháp. Bên cạnh đó, bài viết cung cấp các câu lệnh thực hiện phương pháp DEA trên phần mềm R.

  1. Phương pháp phân tích bao dữ liệu (DEA)

Phương pháp phân tích bao dữ liệu (Data Envelopment Analysis – DEA) ra đời từ năm 1978, khởi nguồn từ công trình của Charnes, Cooper và Rhodes, tuy nhiên nó lại có xuất phát điểm từ trước đó hơn 20 năm. Năm 1957, Farrell đưa ra ý tưởng áp dụng đường giới hạn khả năng sản xuất (Production Possibility Frontier – PPF) làm tiêu chí đánh giá hiệu quả (tương đối) giữa các đơn vị (Decision Making Units – DMU, chẳng hạn: công ty, đại lý, trường học,…) trong cùng một ngành; theo đó các đơn vị đạt đến mức giới hạn sẽ được coi là hiệu quả (hơn) và các đơn vị không đạt đến đường PPF sẽ bị coi là kém hiệu quả (hơn các đơn vị kia).

New Bitmap Image

Hiệu quả được tính toán từ đầu ra (outputs) thu được tương ứng với đầu vào (inputs) cho trước. Hình trên minh họa cho trường hợp đơn giản nhất, các đơn vị chỉ có 1 đầu ra và 1 đầu vào. Các đơn vị A, B, C, D là hiệu quả; các đơn vị E, F là không hiệu quả (vì có thể giảm đầu vào nhưng vẫn đạt được đầu ra như trước).

Phương pháp DEA áp dụng bài toán tối ưu hóa tuyến tính phi tham số để xây dựng đường PPF dựa trên số liệu đã biết về một nhóm các đơn vị nhất định và tính toán điểm hiệu quả cho các đơn vị đó.

download bài viết đầy đủ: 

File dữ liệu: stores

(file này lưu dưới định dạng excel, bạn cần chuyển về định dạnh csv)

———————-&&&——————

Ứng dụng phương pháp phân rã Oaxaca-Blinder nghiên cứu bất bình đẳng thu nhập giữa nông thôn và thành thị của Việt Nam

Cuộc sống thì vốn dĩ không công bằng. Nhưng có một thứ có thể công bằng, đó là hạnh phúc

Ứng dụng phương pháp phân rã Oaxaca-Blinder nghiên cứu bất bình đẳng thu nhập giữa nông thôn và thành thị của Việt Nam

Lê Văn Tuấn – Trịnh Thị Hường

Trường Đại học Thương mại

Tóm tắt. Bài viết trình bày cơ sở lý luận của Phương pháp phân rã Oaxaca–Blinder – phương pháp chuẩn mực khi nghiên cứu về bất bình đẳng trong kinh tế. Bên cạnh đó, chúng tôi cũng trình bày kỹ thuật ứng dụng phần mềm R khi áp dụng phương pháp Oaxaca–Blinder nghiên cứu bất bình đẳng trong thu nhập giữa nông thôn và thành thị của Việt Nam (trên bộ dữ liệu VHLSS). Kết quả thực nghiệm cho thấy yếu tố giáo dục đóng vai trò quan trọng nhất trong việc giải thích sự chênh lệch thu nhập của dân cư ở hai khu vực này.

  1. Mở đầu

Bất bình đẳng thu nhập (giữa nông thôn và thành thị, giới tính, vùng miền, quốc gia hay giữa hai thời điểm) là một vấn đề trọng tâm trong nghiên cứu kinh tế, ở nhiều quốc gia phát triển và đang phát triển. Song song áp dụng vào thực nghiệm các phương pháp phân rã bất bình đẳng đã phổ biến trên thế giới, các nhà nghiên cứu vẫn tiếp tục phát triển về mặt lí thuyết và mô hình để tìm ra yếu tố/nguyên nhân dẫn đến bất bình đẳng thu nhập. Có hai xu hướng tiếp cận chính: tiếp cận từ các đặc điểm của dân số (giới tính, tuổi, vùng miền); và tiếp cận theo cấu trúc của thu nhập (sự phân chia các nguồn thu nhập khác nhau).

Ở hướng tiếp cận thứ nhất, công trình mang tính khai sáng là của Oaxaca (1973) và Blinder (1973), về sau được gọi là phương pháp phân rã Oaxaca–Blinder. Nhóm các phương pháp này có hai bước:

  • Bước thứ nhất (phân rã tổng hợp), phân chia bất bình đẳng thành hai phần: hiệu ứng đặc điểm (sinh ra do giá trị/đặc tính của biến giải thích), và hiệu ứng cấu trúc (sinh ra do sự khác biệt về tác động của các biến giải thích tới biến phụ thuộc).
  • Bước thứ hai (phân rã chi tiết), tiếp tục phân rã các hiệu ứng theo từng biến giải thích.

Nhóm các phương pháp này không chỉ dùng để nghiên cứu về bất bình đẳng trong thu nhập, mà còn được ứng dụng khi nghiên cứu về nhiều vấn đề bất bình đẳng khác như tiền lương, chi tiêu, cơ hội, … và đặc biệt còn được sử dụng để lý giải về việc có hay không (hoặc mức độ) sự phân biệt đối sử trên thị trường lao động.

Phương pháp phân rã Oaxaca–Blinder áp dụng phân rã bất bình đẳng tại giá trị trung bình, biến phụ thuộc là biến liên tục và giả sử quan hệ giữa biến độc lập và biến phụ thuộc là tuyến tính. Phương pháp này cho phép cả phân rã tổng hợp và phân rã chi tiết. Nhiều mở rộng của phương pháp Oaxaca–Blinder nhằm phân rã không chỉ giá trị trung bình mà còn cho phương sai, các mức phân vị/hoặc phần phân vị, các chỉ số bất bình đẳng như Gini (gọi chung là các thống kê); hay áp dụng cho biến phụ thuộc là biến hữu hạn; cũng như khắc phục giả thiết tuyến tính.

Hướng mở rộng phổ biến đầu tiên cần được nhắc tới là phương pháp dựa trên hồi quy phân vị (có điều kiện), tiêu biểu là công trình của Machado-Mata (2005). Phương pháp Machado-Mata thực hiện phân rã tổng hợp và phân rã chi tiết cho hiệu ứng cấu trúc, nhưng không phân rã được hiệu ứng đặc điểm.

Hướng mở rộng dựa trên hồi quy phân phối của Chernozhukov (2013) – bản tiền ấn phẩm năm 2009, và dựa trên hồi quy RIF (Recentered Influence Function) của Firpo (2007), đều có thể áp dụng đầy đủ cho phân rã tổng hợp và phân rã chi tiết. Tuy nhiên, mỗi phương pháp đều có những ưu nhược điểm riêng. Có thể xem tổng quan về các phương pháp phân rã cũng như  đánh giá chi tiết cho từng phương pháp trong [Fortin (2011)].

Vấn đề bất bình đẳng về thu nhập tại Việt Nam, trường hợp riêng là giữa nông thôn và thành thị, cũng thu hút được sự quan tâm của rất nhiều nhà khoa học trong và ngoài nước.

  1. Cơ sở lý thuyết của phương pháp phân rã Oaxaca–Blinder
  2. Kết quả thực nghiệm tại Việt Nam
  3. Các kết luận và phát hiện qua nghiên cứu

PHỤ LỤC. Câu lệnh R

*****Download bài viết đầy đủ: Phan ra Oaxaca-Blinder


Xem thêm: Ứng dụng của phương pháp phân rã chênh lệch Blinder-Oaxaca trong kinh tế

Mô hình Oaxaca – Blinder trong phân tích kinh tế

Kinh tế phi chính thức tại các nước đang phát triển

Phân tích sự khác biệt về đầu tư của doanh nghiệp theo hình thức sở hữu bằng phương pháp phân rã Oaxaca-Blinder

Phân rã chênh lệch tiền lương thành thị – nông thôn ở Việt Nam bằng phương pháp hồi quy phân vị

Phân tích chênh lệch thu nhập theo giới tính ở TP. Hồ Chí Minh bằng hồi quy phân vị

————————–&&&—————————

Phân tích Hồi quy trên R

15 TYPES OF REGRESSION YOU SHOULD KNOW

(Nguồn: https://www.listendata.com)

Hồi quy là một trong những kỹ thuật phổ biến nhất để dự báo & khai phá dữ liệu. Trung bình, các chuyên gia phân tích thường chỉ biết 2-3 dạng hồi quy: Hồi quy tuyến tính và Hồi quy logistic. Tuy nhiên, thực tế thì có hơn 10 dạng hồi quy được sử dụng trong phân tích, mỗi dạng hồi quy đều có ý nghĩa riêng của nó. Tùy từng loại dữ liệu cũng như dạng phân bố của dữ liệu mà người ta sẽ chọn kiểu hồi quy phù hợp.
1. Phân tích hồi quy là gì?

Nói một cách đơn giản, phân tích hồi quy được sử dụng để mô hình mối quan hệ giữa biến phụ thuộc với một/nhiều biến độc lập.

2. Các thuật ngữ liên quan tới hồi quy

  • Giá trị ngoại lệ (Outliers)
  • Đa cộng tuyến (Multicollinearity)
  • Phương sai thay đổi (Heteroscedasticity)
  • Underfitting và Overfitting

3. Các dạng hồi quy

  • Hồi quy tuyến tính (Linear Regression)
  • Hồi quy đa thức (Polynomial Regression)
  • Hồi quy Logistic (Logistic Regression)
  • Hồi quy phân vị (Quantile Regression)
  • Hồi quy Ridge (Ridge Regression)
  • Hồi quy Lasso (Lasso Regression)
  • Hồi quy Elastic net (Elastic net Regression)
  • Hồi quy thành phần chính (Principal Component Regression – PCR)
  • Hồi quy bình phương nhỏ nhất từng phần (Partial Least Square Regression – PLS)
  • Hồi quy Support Vector (Support Vector Regression – SVR)
  • Hồi quy thứ tự (Ordinal Regression)
  • Hồi quy Poisson (Poisson Regression)
  • Hồi quy nhị thức âm (Negative Binomial Regression)
  • Hồi quy tựa-Poisson (Quasi-Poisson Regression)
  • Hồi quy Cox (Cox Regression)

4. Làm sao để chọn đúng mô hình hồi quy?

  • Nếu biến phụ thuộc là liên tục, mô hình có hiện tượng cộng tuyến hoặc có quá nhiều biến độc lập, có thể thử dùng hồi quy: PCR, PLS, Ridge, Lasso và Elastic net. Có thể chọn mô hình cuối cùng dựa trên: Adjusted r-square, RMSE, AIC và BIC.
  • Nếu làm việc trên dữ liệu rời rạc, có thể thử dùng hồi quy: Poisson, tựa-Poisson và nhị thức âm.
  • Để tránh Overfitting, có thể dùng phương pháp kiểm chứng-chéo (Cross-validation) để ước lượng mô hình khi dự báo. Có thể sử dụng các kỹ thuật hồi quy Ridge, Lasso và Elastic net để xử lí vấn đề Overfitting.
  • Thử dùng hồi quy SVR khi có khả năng là mô hình phi tuyến.

Bài viết đầy đủ: https://www.listendata.com/2018/03/regression-analysis.html


R-statistics.co

METHOD APPLICATION CASE
Robust Regression Applicable in all cases where OLS regression can be used. Applies re-weighting to reduce outlier influence.
Logistic Regression Models binary variables.
Probit Regression Models binary variables.
Multinomial Regression Models categorical variables with more that 2 levels.
Ordinal Logistic Models ordinal or rank variables.
Poisson and Negative Binomial Models count variables. Neg Binomial is used when there is over-dispersion.
Ridge Regression Address Multicollinearity
Beta Regression Models variables within (0, 1) range.
Dirichlet Regression Models compositional data
Loess Regression Smoothing Time series.
Isotonic Regression For approximation of data that can only increase (..typically cumulative data)

 


STHDA

Regression Analysis Essentials For Machine Learning

——————–&&&———————

DataCamp Open Course-Hướng dẫn cơ bản về R; Hoang Duc Anh

DataCamp Open Course-Hướng dẫn cơ bản về R; Hoang Duc Anh

Trong loạt bài giảng này, bạn sẽ học được cách làm chủ những kiến thức cơ bản của ngôn ngữ lập trình thông kê R, bao gồm factors, list và data frame. Những kiến thức này sẽ giúp bạn bắt đầu công việc của một nhà phân tích dữ liệu. Với hơn 2 triệu người sử dụng R trên toàn thế giới, R đang nhanh chóng trở thành ngôn ngữ lập trình số một trong giới thống kê và khoa học số liệu. Hàng năm, số lượng người dùng R tăng hơn 40% và ngày càng có nhiều cơ quan và tổ chức sử dụng R trong hoạt động phân tích thường nhật. Hãy bắt đầu khám phá sức mạnh và học cách sử dụng R ngay từ ngày hôm nay.

CHƯƠNG TRÌNH HỌC

Giới thiệu căn bản về R

Trong chương này, chúng ta sẽ bắt đầu tìm hiểu về R. Bạn sẽ được học cách sử dụng màn hình tương tác (console) để tính toán và gán biến. Thêm vào đó, bạn sẽ làm quen với các loại dữ liệu cơ bản trong R. Ta cùng bắt đầu nào!

Véc-tơ

Trong chương tiếp theo trong khóa học này, chúng ta sẽ cùng đến thăm Vegas, tại đây bạn sẽ được học cách sử dụng vec-tơ trong R để phân tích kết quả bài bạc của bản thân! Sau khi hoàn thành chương này, bạn sẽ học được cách khởi tạo, đặt tên, lọc các yếu tố và so sánh các véc-tơ trong R.

Ma trận

Trong chương này, bạn sẽ được học cách sử dụng ma trận trong R. Sau khi học xong, bạn sẽ thành thạo trong việc thiết lập ma trận và biết cách thực hiện những tính toán cơ bản trong ma trận. Để minh họa cho những điều trên, bạn sẽ phân tích doanh thu bán vé của Star Wars. Chúc bạn may mắn!

Factors

Trong rất nhiều trường hợp, dữ liệu có giá trị nằm trong một nhóm hữu hạn các giá trị cho trước. Ví dụ, giới tính có giá trị nam hoặc nữ. Trong R, các biến có loại này được gọi là factor. Các biến factor đóng vai trò rất quan trọng trong quá trình phân tích dữ liệu. Do đó, chúng ta sẽ cùng học cách tạo và xử lý các biến factor trong bài giảng dưới đây.

Data frames

Phần lớn dữ liệu sử dụng để phân tích được lưu dưới dạng data frame. Đến cuối chương này, bạn sẽ có thể tạo được data frame, lựa chọn data frame và sắp xếp thứ tự của data frame theo biến xác định.

Lists

Lists, không giống như véc-tơ, có thể lưu trữ các kiểu dữ liệu khác nhau. Trong chương này, chúng ta sẽ học cách khởi tạo, đặt tên và lọc các thành phần trong list.

******************

Đăng kí (free): link


Ghi chú.

Ưu điểm của khóa học (miễn phí) này:

  • Được hướng dẫn bằng tiếng Việt.
  • Hình dung được cách học & lập trình trên nền tảng “đám mây” (cloud computing), không cần cài đặt R.

Nhược điểm:

  • Hướng dẫn bằng tiếng Việt.
  • Học trên nền tảng “đám mây” (cloud computing).

——————-&&&——————

Latent Variable Model with R: FA, EFA, CFA; SEM

Mô hình biến tiềm ẩn với R: FA, EFA, CFA; SEM

 

  • Preetish Panda

Exploratory Factor Analysis in R [EFA]


  • Alex Beaujean

Factor Analysis using R [EFA+CFA]


Chapter 1: Example and computing

Chapter 2: Factor Analysis

Chapter 3: Multigroup Factor Analysis

Chapter 4: Structural Equation Models


  • Joel Cadwell [bifactor model]

Network Visualization of Key Driver Analysis

Halo Effects and Multicollinearity: Separating the General from the Specific

Structural Equation Modeling: Separating the General from the Specific (Part II)


  • lavaan Tutorial [path analysis, confirmatory factor analysis, structural equation modeling and growth curve models]

http://lavaan.ugent.be

(Intro to lavaanPlot)

(ggplot2 SEM models with tidygraph and ggraph)

Structural Equation Modeling with lavaan in R (DataCamp Course)


  • psych Tutorial [factor analysis, PCA, cluster analysis and reliability analysis; Item Response Theory; front end for SEM; Graphical displays]

http://personality-project.org/r/psych/

———————&&&——————