Lập mô hình phương trình cấu trúc SEM

Lập mô hình phương trình cấu trúc SEM

(Tác giả: Nguyễn Quỳnh Anh – Nguồn: mba-15.com)

Phần này tóm tắt ngắn gọn và không thiên về đặc tính kỹ thuật của các vấn đề căn bản có liên quan trong SEM, bao gồm các vấn đề ước lượng, thích hợp mô hình, và các giả thiết thống kê.


SEM (Structural Equation Modeling) là một kỹ thuật mô hình thống kê rất tổng quát, được sử dụng rộng rãi trong khoa học nghiên cứu hành vi. Nó có thể được xem là sự kết hợp của phân tích nhân tố và hồi quy hay phân tích đường dẫn. Sự quan tâm trong SEM thường là vào các kiến trúc lý thuyết, được trình bày bởi các nhân tố ngầm. Các quan hệ giữa các kiến trúc lý thuyết được trình bày bởi các hệ số hồi quy hay hệ số đường dẫn giữa các nhân tố. SEM ám chỉ 1 cấu trúc của các hiệp tương quan (covariances) giữa các biến được quan sát, các quan hệ này cho ra một tên khác là mô hình hóa cấu trúc hiệp tương quan (covariance structure modeling). Tuy nhiên, mô hình có thể được mở rộng thêm bao gồm trung bình của các biến quan sát được hoặc các nhân tố trong mô hình, làm cho tên mô hình hóa cấu trúc hiệp tương quan ít chính xác. Nhiều nhà nghiên cứu chỉ đơn giản nghĩ mô hình loại này là “các mô hình Lisrel,” điều này cũng ít chính xác. LISREL là chữ viết tắt của Linear Structural RELations (các quan hệ cấu trúc tuyến tính), và tên này được Jưreskog sử dụng cho một trong những chương trình SEM đầu tiên thông dụng nhất. Các mô hình phương trình cấu trúc ngày nay không nhất thiết phải tuyến tính, và khả năng mở rộng của SEM xa hơn phương trình Lisrel ban đầu. Ví dụ, Browne (1993) thảo luận khả năng làm thích hợp các đường cong phi tuyến.
SEM cung cấp một khung thuận tiện và rất tổng quát cho các phân tích thống kê bao gồm các thủ tục đa biến truyền thống, ví dụ các trường hợp đặc biệt là phân tích nhân tố, phân tích hồi quy, phân tích phân biệt, và tương quan canonical. SEM thường được minh họa bằng biểu đồ đường dẫn. Phương trình thống kê này thường được trình bày trong một hệ phương trình ma trận. Trong đầu thập niên 70, khi kỹ thuật này được giới thiệu lần đầu trong nghiên cứu xã hội và nghiên cứu hành vi, phần mềm thường yêu cầu cài đặt chỉ rõ mô hình theo điều kiện của những ma trận này. Do đó, các nhà nghiên cứu đã phải lọc việc trình bày ma trận từ biểu đồ đường dẫn, và cung cấp phần mềm với 1 chuỗi ma trận cho các tập hợp tham số khác nhau, như là hệ số nhân tố và các hệ số hồi quy. Các phần mềm được phát triển gần đây cho phép các nhà nghiên cứu chỉ định trực tiếp mô hình như là 1 biểu đồ đường dẫn. Việc này hiệu quả với các vấn đề đơn giản, nhưng có thể gây mệt mỏi đối với các mô hình có tính phức tạp hơn. Vì lý do này, phần mềm SEM hiện tại cũng vẫn hỗ trợ các đặc tính kỹ thuật của mô hình loại câu lệnh-hay ma trận.
Path analysis (phân tích đường xu hướng) là kỹ thuật thống kê dùng để kiểm tra quan hệ nhân quả giữa hai hay nhiều biến. Dựa trên hệ thống phương trình tuyến tính.
Path analysis là thành phần phụ của SEM, một thủ tục đa biến mà theo định nghĩa của Ullman (1996), “cho phép kiểm tra một tập quan hệ giữa một hay nhiều biến độc lập, hoặc là liên tục hoặc là rời rạc, và một hay nhiều biến phụ thuộc, hoặc là liên tục hoặc là rời rạc.” SEM liên quan đến các biến đo lường được (measured variable) và các biến ngầm (latent variable). Một measured variable là một biến có thể được quan sát trực tiếp và được đo lường. Biến đo lường được cũng được biết đến như biến quan sát được (observed variable), biến chỉ báo hay biến biểu thị (indicator or manifest variables). Một latent variable là một biến không thể được quan sát trực tiếp và phải được suy ra từ measured variable. Latent variables được ám chỉ bởi hiệp tương quan (covariances) giữa hai hay nhiều measured variables. Chúng cũng được biết đến như là các nhân tố (nghĩa là, phân tích nhân tố), các biến kiến trúc hay các biến không quan sát được (constructs or unobserved variables). SEM là sự kết hợp giữa hồi quy đa biến và phân tích nhân tố. Path analysis chỉ liên quan đến các biến đo lường (measured variables).

CÁC THÀNH PHẦN CỦA SEM
Có hai thành phần: mô hình đo lường (measurement model) và mô hình cấu trúc (structural model).
+ Measurement model: liên quan đến quan hệ giữa measured variables và latent variables.
+ Structural model: chỉ liên quan đến các quan hệ giữa các latent variables mà thôi.
Ký hiệu trong SEM:
–       Các biến đo lường được: hình chữ nhật hay vuông
–       Các biến ngầm: elíp hay hình tròn
–      Các khoản sai số: (“nhiễu” của các biến ngầm) được đưa vào biểu đồ SEM, đại diện bởi “E’s” cho các biến đo lường và “D’s” cho các biến ngầm. Các khoản sai số đại diện phương sai phần dư trong các biến không được tính cho các đường dẫn (pathways) được giả thiết trong mô hình.
Tham số của SEM:
–        Là các biến, hệ số hồi quy và hiệp tương quan giữa các biến.
–       Phương sai có thể được chỉ ra bằng mũi tên hai đầu kết thúc tại cùng một biến, hoặc đơn giản hơn, ký hiệu bằng số trong hộp vẽ biến hay cung tròn.
–       Các hệ số hồi quy được trình bày dọc theo mũi tên một chiều chỉ ra đường dẫn được giả thiết giữa hai biến (có trọng số được áp dụng cho các biến trong các phương trình hồi quy tuyến tính)
–       Hiệp phương sai được kết hợp với các mũi tên vòng cung hai đầu giữa hai biến hoặc các sai số và biểu thị vô hướng (no directionality). Data cho SEM là các phương sai mẫu và hiệp phương sai mẫu lấy từ tổng thể (ký hiệu S, phương sai mẫu quan sát được và ma trận hiệp phương sai).

KIẾN TRÚC SEM
Mục tiêu trong việc xây dựng 1 biểu đồ xu hướng (path diagram) hay mô hình phương trình cấu trúc, là tìm một mô hình đủ thích hợp với dữ liệu (S) để phục vụ như là 1 đại diện có ích của độ tin cậy và giải thích chi tiết dữ liệu.
Có 5 bước trong kiến trúc SEM:
1.   Chỉ định mô hình (Model Specification)
2.   Nhận dạng mô hình (Model Identification)
3.   Ước lượng mô hình (Model Estimation)
4.   Đánh giá độ thích hợp của mô hình (Assesing Fit of the Model)
5.   Hiệu chỉnh mô hình (Model Modification)

Chỉ định mô hình (Model Specification)
Là việc chính thức bắt đầu một mô hình. Trong bước này, các tham số được xác định là cố định hay tự do. Tham số cố định (fixed parameters) không được ước lượng từ dữ liệu và được gán một cách tiêu biểu bằng 0 (chỉ ra không có quan hệ giữa các biến). Các đường dẫn của các tham số cố định được gắn nhãn số (trừ khi được gán giá trị là 0, trong trường hợp này không có đường dẫn nào được vẽ) trong biểu đồ SEM. Tham số tự do (Free parameters) được ước lượng từ dữ liệu quan sát và được người điều tra tin rằng nó khác 0. Việc xác định tham số nào là cố định hay tự do trong SEM là rất quan trọng vì nó xác định tham số nào sẽ được sử dụng để so sánh biểu đồ giả thuyết với ma trận hiệp phương sai và phương sai tổng thể mẫu trong việc kiểm tra tính thích hợp của mô hình (bước 4). Việc chọn tham số nào là cố định và tham số nào là tự do tùy thuộc vào người nghiên cứu. Sự lựa chọn này trình bày một giả thuyết tiền đề về đường xu hướng trong hệ thống là quan trọng trong thế hệ của cấu trúc liên quan của hệ thống được quan sát (ví dụ, phương sai mẫu được quan sát và ma trận hiệp phương sai).

Nhận dạng mô hình (Model Identification)
Việc nhận dạng quan tâm đến việc có hay không giá trị duy nhất cho mỗi và mọi tham số tự do có thể thu thập được từ dữ liệu quan sát. Nó phụ thuộc vào việc lựa chọn mô hình và đặc tính kỹ thuật của các tham số cố định, ràng buộc và tự do. Một tham số bị ràng buộc khi nó trong một tập hợp với các tham số khác. Các mô hình cần phải được nhận dạng hoàn chỉnh để có thể ước lượng được (bước 3) và để kiểm định giả thuyết về quan hệ giữa các biến.
Có các dạng mô hình có cấu trúc là 
just-identified, overidentified, hay underidentified.
+ Just-identified model: trong đó tương ứng 1-1 giữa data và các tham số cấu trúc. Nghĩa là, số phương sai dữ liệu và số hiệp phương sai bằng với số tham số được ước lượng. Tuy nhiên, mặc dầu khả năng của mô hình là đạt được một giải pháp duy nhất cho tất cả các tham số, just-identified model không có sự quan tâm của khoa học gia vì bởi nó không có độ tự do và do đó không thể bị loại bỏ.
+ Overidentified model: là mô hình trong đó số tham số có thể ước lượng được thì nhỏ hơn số điểm dữ liệu (data points) (nghĩa là, phương sai, hiệp tương quan của các biến quan sát được). Tình trạng này tạo kết quả ra độ tự do dương cho phép loại bỏ mô hình, do đó được sử dụng một cách khoa học hơn. Mục đích của SEM là chỉ ra một mô hình như vậy đáp ứng các tiêu chuẩn của 
overidentification.
+ Underidentified model: là mô hình trong đó số tham số được ước lượng vượt quá số phương sai và hiệp tương quan. Như vậy, mô hình bao gồm thông tin không ý nghĩa (từ dữ liệu đầu vào) cho việc đạt được 1 giải pháp xác định về ước lượng tham số; nghĩa là, vô số các giải pháp là khả dĩ cho 1 underidentified model.


Ước luợng mô hình (Model Estimation)
Trong bước này, các giá trị khởi đầu  của tham số tự do được chọn để sinh ra 1 ma trận hiệp tương quan tổng thể được ước lượng (estimated population covariance matrix), S(q), từ mô hình. Các giá trị khởi đầu có thể được chọn bởi người nghiên cứu từ thông tin ban đầu, bởi các chương trình máy tính được sử dụng để xây dựng SEM, hay từ phân tích hồi quy đa biến. Mục tiêu của ước lượng là để sinh ra một S(q) hội tụ trên ma trận hiệp tương quan tổng thể quan sát được, S, với ma trận phần dư (residual matrix) (khác biệt giữa S(q) và S) trở nên tối thiểu. Nhiều phương pháp có thể được sử dụng để sinh ra S(q). Việc chọn các phương pháp được hướng dẫn bằng đặc tính của data bao gồm kích thước và phân phối mẫu. Hầu hết các tiến trình được sử dụng là lặp. Hình thức tổng quát của hàm tối thiểu là:
Q = (s –  s(q))’W(s – s(q))
Trong đó:
s = vector bao gồm phương sai và hiệp phương sai của các biến quan sát được.
s(q) = vector bao gồm các phương sai corresponding và hiệp phương sai như được dự đoán bởi mô hình.
W = ma trận trọng số
(một vài tác giả xem Q như là F)
Ma trận trọng số, W, trong hàm trên, phù hợp với phương pháp ước lượng được chọn. W được chọn để tối thiểu Q, và Q(N-1) cho việc thích hợp hàm, trong hầu hết các trường hợp một thống kê phân phối X2. Kết quả thực hiện của X2 bị ảnh hưởng bởi kích thước mẫu, sai số phân phối, nhân tố phân phối, và giả thiết rằng các nhân tố và sai số là độc lập (Ullman 1996). Một vài phương pháp ước luợng được sử dụng thông dụng nhất là:
Generalized Least squares (GLS)
FGLS = ½ tr[([S – S(q)]W-1)2
]
Trong đó:
tr =  toán tử theo dõi (trace operator), cộng các yếu tố trên đường chéo chính của ma trận
W-1 = ma trận trọng số tối ưu, phải được chọn bởi nhà nghiên cứu (chọn lựa thông thường nhất là S-1)
Maximum Likelihood (ML)
FML = log|S| – log|S| + tr(SS-1
) – p
Trong trường hợp này, S-1 và p = số lượng biến được đo lường

Asymptotically Distribution Free (ADF) Estimator (Hàm ước lượng tự do phân phối tiệm cận)
FADF = [S – s(q)]’W-1[S – s(q
)]
W, trong hàm này, bao gồm các yếu tố xem xét trong kurtosis.
Ullman (1996) và Hoyle (1995) thảo luận về các thuận lợi và giới hạn của các hàm ước lượng trên đây.
ML và GLS hữu ích cho dữ liệu phân phối chuẩn khi các nhân tố và sai số là độc lập, ADF hữu ích cho các dữ liệu không phân phối chuẩn, nhưng chỉ có giá trị khi kích thước mẫu lớn hơn 2.500. Ullman chỉ ra hàm ước lượng tốt nhất cho dữ liệu không phân phối chuẩn và/hoặc phụ thuộc giữa các nhân tố và sai số là Scaled ML. Bất kể hàm nào được chọn, kết quả mong đợi của tiến trình ước lượng là đạt được một hàm thích hợp gần đến 0. Một hàm thích hợp với số điểm là 0 chỉ ra rằng ma trận hiệp phương sai được ước lượng của mô hình và ma trận hiệp phương sai mẫu nguyên thủy là tương đương.

Đánh giá độ thích hợp của mô hình (Assesing Fit of the Model)
Như đã phân tích, giá trị hàm thích hợp gần đến 0 được mong đợi cho độ thích  hợp mô hình. Tuy nhiên, nói chung, nếu tỷ số giữa X2 và bậc tự do nhỏ hơn 3, mô hình là thích hợp tốt (Ullman 1996).
Để có độ tin cậy trong kiểm định độ thích hợp mô hình, kích thước mẫu từ 100 đến 200 được yêu cầu (Hoyle 1995).
Ullman (1996) thảo luận sự đa dạng của các hàm thích hợp phân phối không-X2, mà ông ta gọi là “các chỉ số thích hợp so sánh (comparative fit indices.)” Hoyle (1995) đề cập đến điều này như “các chỉ số thích hợp phụ thuộc (adjunct fit indices).” Một cách căn bản, những phương pháp này so sánh độ thích hợp của một mô hình độc lập (một mô hình khẳng định không có quan hệ giữa các biến) để thích hợp mô hình được ước lượng. Kết quả của việc so sánh này thì thường là một số giữa 0 và 1, với 0.90 hoặc lớn hơn được chấp nhận như là các giá trị chỉ ra độ thích hợp. Cả Hoyle và Ullman đề nghị sử dụng nhiều chỉ số khi xác định các độ thích hợp mô hình.

Hiệu chỉnh mô hình (Model Modification)
Nếu ma trận phương sai/hiệp phương sai được ước lượng bằng mô hình không mô phỏng một cách thích hợp ma trận phương sai/hiệp phương sai mẫu, các giả thuyết có thể được hiệu chỉnh và mô hình được kiểm định lại. Để điều chỉnh 1 mô hình, các đường dẫn mới được vẽ thêm hay các đường dẫn cũ được bỏ đi. Nói cách khác, các tham số được thay đổi từ cố định tới tự do hoặc từ tự do đến cố định. Điều quan trọng để nhớ là khi trong các thủ tục thống kê khác, là việc hiệu chỉnh mô hình sau việc kiểm định lần đầu làm gia tăng cơ hội của vấp phải sai lầm loại I.
Các thủ tục thông thường được sử dụng cho việc hiệu chỉnh mô hình là Lagrange Multiplier Index (LM) và Kiểm  định Wald. Cả hai loại kiểm định này báo cáo các thay đổi trong giá trị X2 khi các đường dẫn được điều chỉnh.
LM yêu cầu dù có hay không việc gia tăng các tham số tự do gia tăng sự thích hợp của mô hình. Kiểm định Wald yêu cầu có hay không việc xóa bỏ các tham số tự do gia tăng sự thích hợp mô hình.
Để điều chỉnh tỷ lệ sai lầm loại 1 gia tăng, Ullman (1996) yêu cầu sử dụng một giá trị xác suất thấp (p<0.01) khi tăng thêm hay bỏ các tham số. Ullman cũng yêu cầu so sánh giá trị chéo (cross-validation) với các mẫu khác. Vì trật tự của các tham số tự do có thể ảnh hưởng đến việc lựa chọn của các tham số khác, LM nên được áp dụng trước kiểm định Wald (nghĩa là, cộng thêm vào tất cả các tham số trước khi bắt đầu xóa chúng) (MacCullum 1986, đã trích dẫn của Ullman 1996).


Trình bày mô hình cuối cùng (Final Presentation of Model)
Khi mô hình đã đạt được độ thích hợp chấp nhận được, các ước lượng riêng biệt về các tham số tự do được đánh giá. Các tham số tự do được so sánh với giá trị rỗng (null value), sử dụng thống kê phân phối z. Thống kê z đạt được bằng cách chia tham số ước lượng cho sai số chuẩn của ước lượng đó. Tỷ lệ của kiểm định này phải vượt +/-1.96 để quan hệ trở nên có ý nghĩa. Sau khi các quan hệ riêng biệt trong mô hình được đánh giá, các ước lượng tham số được chuẩn hóa cho việc trình bày mô hình cuố cùng. Khi các ước lượng tham số được chuẩn hóa, chúng có thể được giải thích tham chiếu với các tham số  khác trong mô hình và cường độ của đường xu hướng có liên quan trong mô hình có thể được so sánh.

————-&&————-

Một phản hồi

Trả lời

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Đăng xuất / Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Đăng xuất / Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Đăng xuất / Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Đăng xuất / Thay đổi )

Connecting to %s

%d bloggers like this: