17/09/2025
[STATA] FGLS NÀO CHO FE?
Xét dữ liệu bảng với N>>T (Bảng vi mô điển hình, ví dụ dữ liệu 300 doanh nghiệp niêm yết 2010-2024) với mô hình
y = x*beta + u_i + e_it
Trong đó, x ngoại sinh với e_it, nội sinh với u_i (hàm ý ước lượng FE là phù hợp nhất) và e_it có phương sai sai số thay đổi (PSSSTĐ), tương quan chuỗi (TTQ) và phân phối độc lập theo i=1, ..., N. Lúc này, nhà nghiên cứu có 2 lựa chọn để giải quyết hậu quả của PSSSTĐ và TTQ.
+ Ước lượng nhất quán sai số chuẩn: xtreg y x, fe robust
+ Ước lượng hiệu quả beta bằng FGLS.
Vấn đề phát sinh khi một số nhà nghiên cứu lựa chọn sai cách thực hiện FGLS khi sử dụng phần mềm STATA.
1. LỆNH XTGLS
Lệnh này thực hiện ước lượng FGLS theo thủ tục của Park (1967) và được phổ biến rộng rãi bởi Kmenta (1971), thường được gọi là phương pháp Park-Kmenta. Có 2 điều cần chú ý:
i) Phương pháp này áp dụng cho Pooled OLS.
ii) Đòi hỏi ước lượng nhất quán tham số tự tương quan bậc 1, do vậy yêu cầu kích cỡ chiều thời gian (T) đủ dài.
Sẽ ra sao nếu cố gắng áp dụng FGLS của Park-Kmenta cho FE với bảng N lớn, T nhỏ?
- Đầu tiên, giống như khi ước lượng FE, người ta có thể nghĩ đến việc sử dụng "With-in stranformation" để loại bỏ u_i và thực hiện FGLS của Park cho dữ liệu sau biến đổi. Nhưng vấn đề là sai số sau biến đổi sẽ có cấu trúc hiệp phương sai phức tạp hơn là chỉ bao gồm PSSSTĐ và TTQ bậc 1.
- Thứ hai, người ta có thể nghĩ đến việc sử dụng các biến giả, giống như LSDV. Nhưng rất tiếc, vấn đề tham số phát sinh (incidental parameter) sẽ làm cho ước lượng e_it không nhất quán, do vậy không thể sử dụng để tạo ra ước lượng hiệu quả (dù là tiệm cận) theo FGLS.
- Thứ ba, về hiện tượng TTQ bậc 1. Với T nhỏ, lượng chệch trong mẫu giới hạn sẽ tạo ra các ước lượng không chính xác cho hệ số tự tương quan, theo đó là kết quả của FGLS.
Như vậy, thủ tục FGLS của Park-Kmenta không nên được sử dụng trong bối cảnh bảng N lớn, T nhỏ.
(Ngay cả khi T lớn hơn đáng kể so với N, FGLS của Park vẫn cho ra các ước tính "quá lạc quan", tiềm ẩn nguy cơ làm sai lệch các suy luận thống kê, xem chi tiết trong Beck & Katz (1995)).
2. LỆNH XTGLS2
Ước lượng FGLS phù hợp cho FE trong bảng N lớn, T nhỏ được giới thiệu lần đầu bởi Kiefer (1980). Trong đó, ông giả định cấu trúc ma trận hiệp phương sai của sai số có tự tương quan tùy và phương sai sai số thay đổi theo thời gian. Tuy nhiên, ông hạn chế rằng cấu trúc này là giống hệt nhau giữa các đơn vị chéo. Wooldridge gọi giả định này là "đồng nhất hệ thống" (system homoskedasticity). Điều này có nghĩa là FGLS của Kiefer sẽ không hiệu quả nếu có sự góp mặt của phương sai sai số thay đổi theo các đơn vị chéo ("không đồng nhất hệ thống" - system heteroskedasticity).
Wooldridge (2002, 2010) gọi ước lượng của Kiefer là FE-GLS, ông giữ nguyên các giả định như của Kiefer và mở rộng cho mô hình Pooled OLS (P-GLS), First-Difference (FD-GLS) và Random Effects (RE-GLS). Để đối phó với "không đồng nhất hệ thống", Wooldridge sử dụng sai số chuẩn Arellano (1987) để ước tính sai số chuẩn tiệm cận cho ước lượng FE-GLS.
Một nhầm lẫn đáng tiếc là lệnh xtgls có sẵn trên STATA thường xuyên (ít nhất tại Việt Nam theo quan sát của tôi) được sử dụng cho bảng N lớn T nhỏ và được trích dẫn là ước lượng của Kiefer. Đây là sai lầm nghiêm trọng.
Để góp phần làm rõ ràng và tránh sai lầm này, tôi đã viết câu lệnh xtgls2 (cài đặt bằng cách chạy lệnh ssc install xtgls2) giúp thực hiện các ước lượng FE-GLS, P-GLS, FD-GLS kèm theo tùy chọn điều chỉnh sai số chuẩn. Sử dụng xtgls2, FE-GLS giải quyết PSSSTĐ và TTQ tùy ý được thực hiện bởi câu lệnh sau:
xtgls2 y x, fe cov(c) nocons cluster(panelvar)
Tài liệu tham khảo
1) Arellano, M. (1987). Computing robust standard errors for within-groups estimators. Oxford Bulletin of Economics & Statistics, 49(4).
2) Beck, N., & Katz, J. N. (1995). What to do (and not to do) with time-series cross-section data. American political science review, 89(3), 634-647.
3) Kiefer, N. M. (1980). Estimation of fixed effect models for time series of cross-sections with arbitrary intertemporal covariance. Journal of econometrics, 14(2), 195-202.
4) Kmenta, J., & Klein, L. R. (1971). Elements of econometrics (Vol. 655). New York: Macmillan.
5) Parks, R. W. (1967). Efficient estimation of a system of regression equations when disturbances are both serially and contemporaneously correlated. Journal of the american statistical association, 62(318), 500-509.
6) Wooldridge, J. M. (2002). Econometric analysis of cross section and panel data MIT press. Cambridge, ma, 108(2), 245-254.
7) Wooldridge, J. M. (2010). Econometric analysis of cross section and panel data. MIT press.