https://github.com/ManhHB94?tab=repositories, https://manhb94econometrics.wordpress.com/, https://manhhb94.blogspot.com/

Hoàng Bá Mạnh, Hanoi (2026)

23/10/2025

TƯ VẤN QUY TRÌNH PHÂN TÍCH BẢNG N LỚN T NHỎ
Ước lượng GMM với cấu trúc lỗi đa nhân tố (Joudis & Sarafidis, 2020) giúp nới lỏng giả định phụ thuộc chéo, tôi cũng sắp hoàn thiện câu lệnh ước tính sẵn trên STATA. Trong thời gian chờ đợi, người dùng có thể sử dụng phiên bản code Matlab trong tài liệu đính kèm trong bài báo của họ.

03/10/2025

[STATA] ESTTAB TRÊN SSC
Phiên bản cập nhật năm 2022 của lệnh esttab thuộc package estout đã cho phép xử lý kí tự đặc biệt và chữ tiếng Việt có dấu. Lâu nay tôi cứ dùng lệnh esttab cũ từ gói st0085_2 mà vướng chỗ này mãi, thật là quê mùa =))
Để cập nhật lệnh esttab - cũng như các lệnh liên quan trong gói estout - lên phiên bản mới nhất, anh/chị chạy lệnh:
ssc install estout, replace

01/10/2025

[STATA] XTGLS for Wooldridge PGLS estimator
Như vậy, kể từ STATA 20 (hoặc STATA Now), lệnh xtgls đã có thể thực hiện ước lượng của Pooled GLS (Wooldride; 2002, 2010) cho bảng N lớn, T nhỏ. Tuy nhiên, việc ước lượng FEGLS vẫn phải tính toán thủ công bước biến đổi Within và điều chỉnh sai số chuẩn vẫn phải sử dụng xtglsr. Trong khi các công việc đó, xtgls2 thực hiện được cho phiên bản STATA 11 trở đi.
Để cài đặt xtgls2, người dùng chạy lệnh sau:
ssc install xtgls2
Link bài viết giới thiệu từ STATA: https://www.stata.com/statanow/vce-options-for-linear-models/?fbclid=IwY2xjawNJo0JleHRuA2FlbQIxMABicmlkETFrTlhWNTdWeVZNYkVnODFSAR5Xdr6PmgagjF2lINmRgjjHH3sy7P3po_3UobmccIvQFL28Js0CGcLR62py0Q_aem_SfbTdwGUtEipkNXOE_PLQg

29/09/2025

MÔ HÌNH NGƯỠNG TRÊN DỮ LIỆU BẢNG
Video này tóm tắt về mô hình ngưỡng của Hansen (1999) áp dụng trên dữ liệu bảng.
Bao gồm mô hình và các giả định chính, phương pháp ước lượng, kiểm định hiệu ứng ngưỡng, tham số ngưỡng và số điểm ngưỡng.
Chi tiết anh/chị xem trong video công khai dưới bình luận.

26/09/2025

KIỂM ĐỊNH ĐỒNG TÍCH HỢP BẢNG
Tương tự với chuỗi thời gian, kiểm định đồng tích hợp (còn gọi là đồng liên kết) có thể được thực hiện với các chuỗi dữ liệu không dừng, nhằm kiểm tra tương quan giả, cũng như quan hệ dài hạn giữa chúng.
Có nhiều phương pháp kiểm định đã được phát triển, trong video này tôi hướng dẫn phương pháp dựa trên dạng ECM của ARDL theo Westerlund (2007), áp dụng cho cả dữ liệu có /không phụ thuộc chéo và dữ liệu bảng cân bằng cũng như không cân bằng.

24/09/2025

KIỂM ĐỊNH NGHIỆM ĐƠN VỊ - BẢNG KHÔNG CÂN BẰNG
Trong STATA, lệnh dfuller giúp thực hiện kiểm định nghiệm đơn vị cho dữ liệu chuỗi thời gian. Trên dữ liệu bảng, cần dùng lệnh khác và thủ tục phức tạp hơn.
Trước hết, cần kiểm tra vấn đề về phụ thuộc chéo giữa các đơn vị bảng (cross-section unit). Việc này có thể được tiến hành với các lệnh xttest2, xtcsd, xtcdf,... Sau đó, tùy thuộc vào kết quả là có hay không phụ thuộc chéo, các kiểm định nghiệm đơn vị thế hệ 1 hoặc 2 sẽ được sử dụng.
Tuy nhiên, một số lệnh và hướng dẫn hiện có mới dừng lại ở việc áp dụng quy trình này trên bảng dữ liệu cân bằng. Với bảng không cân bằng thì sao? Thì video dưới bình luận sẽ giúp các anh/chị.

21/09/2025

TỰ TƯƠNG QUAN TRONG SAI SỐ NGẪU NHIÊN
Sau nhiều năm nghiên cứu kinh tế lượng, tôi cũng không hiểu "ý nghĩa hình học" được nêu ra trong ảnh. Vì vậy, tôi sẽ giải thích về giả định tự tương quan của sai số theo cách khác, mà theo tôi là thiết thực hơn.
Vấn đề này không thể làm rõ chỉ trong 1 vài dòng, ít nhất là khả năng hiện tại của tôi không cho phép, nên đây sẽ là một bình luận dài. Trước hết ta sẽ nhắc lại một số khái niệm liên quan.

=================
1) Sai số Ui trong phương trình hồi quy là gì?
-------------
Yi = b1 + b2*Xi + Ui (1)
Giả định Xi ngoại sinh và phi ngẫu nhiên (xem Xi như 1 tham số đã xác định ~ "hằng số", Yi và Ui là các biến ngẫu nhiên).
Dưới giả định E(Ui)=0, lấy kỳ vọng 2 vế của (1) ta thu được:
E(Yi) = b1+b2*Xi (2)
Trong đó E(Yi) là trung bình của Yi, thể hiện xu hướng vận động chung của Yi (đường màu cam nét đứt trong ảnh đính kèm).
Kết hợp (1) và (2), ta có biểu diễn:
Yi = E(Yi) + Ui Ui = Yi - E(Yi)
Nhận thấy rằng, Ui chính là phần sai lệch của Yi ra khỏi xu hướng chung, sai lệch này có thể > 0 (chấm tròn xanh nằm phía trên đường nét đứt màu cam) hoặc < 0 (chấm tròn nằm dưới đường nét đứt) hoặc = 0 (chấm tròn nằm trùng đường nét đứt). Ui càng lớn (về trị tuyệt đối) thì Yi "rung lắc" (dao động) càng mạnh và xu hướng chung - E(Yi) - càng kém đại diện cho Yi (đường nét đứt càng kém đại diện cho các chấm tròn xanh), và ngược lại.
Tương tự cho Uj = Yj-E(Yj).

=================
2) Tương quan tuyến tính giữa hai sai số - Ui, Uj - là gì?
-------------
Ui và Uj không tương quan (tuyến tính) tức là Uj dường như không phản ứng với thay đổi (tăng/giảm) trong Ui, Corr(Ui,Uj)=0. Nếu phản ứng tích cực (cùng chiều) thì gọi là tương quan dương, tiêu cực (ngược chiều) thì là tương quan âm.

=================
3) Bây giờ, vì sao cần giả định Ui và Uj không tương quan? Nếu chúng có tương quan thì sao?
-------------
Để làm rõ ảnh hưởng, tốt nhất là sử dụng các phân tích cực đoạn tại Corr(Ui,Uj)=0 (hoàn toàn không tương quan) và Corr(Ui,Uj)=+-1 (hoàn toàn tương quan ~ phụ thuộc tuyến tính).
+ Corr(Ui,Uj) = 0: Điều này hàm ý dao động của Yi và Yj không ảnh hưởng đến nhau, thông tin ở quan sát i và quan sát j không "trùng lặp" và chúng đều có đóng góp/có ích trong việc ước tính các tham số hồi quy b1, b2.
+ Corr(Ui,Uj)= +-1 phụ thuộc tuyến tính Uj = a+b*Ui với a, b là các số thực. Ví dụ a=0, b=1, tức là Ui=Uj quan sát i và j là hoàn toàn "trùng khớp" về dao động, dù là 2 quan sát khác nhau (Xi, Yi và Xj, Yj).
Tổng quát hơn với a và b, ta thấy rằng ở đây có sự trùng lặp hoàn toàn về thông tin dao động: thông tin của quan sát i có thể thu được từ quan sát j và ngược lại. Hậu quả là làm tăng dao động của ước lượng và giảm độ hiệu quả. Nhưng tính hiệu quả của ước lượng tham số hồi quy là gì, sao nó lại bị ảnh hưởng bới tự tương quan sai số?

=================
4) Tính hiệu quả của ước lượng tham số hồi quy
-------------
Mức độ hiệu quả của một ước lượng tham số đo bởi độ dao động (phương sai) của nó. Phương sai càng lớn thì càng không hiệu quả. Ví dụ có 2 xạ thủ cùng bắn vào trúng khu vực quanh tâm bia, xạ thủ bắn lệch nhiều hơn (vết đạn dao động hơn/phương sai lớn hơn) thì kém hiệu quả hơn. Ước lượng tham số cũng vậy, dù cùng dao động xung quanh giá trị thực, nhưng phương sai lớn hơn thì kém hiệu quả hơn.

Trong phương pháp OLS, ước lượng tham số hồi quy là hàm tuyến tính của biến phụ thuộc (tính chất tuyến tính của ước lượng OLS), do vậy phương sai của các ước lượng OLS phụ thuộc vào phương sai và hiệp phương sai giữa các quan sát Yi, Yj,... Trong trường hợp có tự tương quan, dao động của Yi và Yj phụ thuộc nhau và làm phương sai ước lượng OLS lớn hơn --> không hiệu quả. Càng phụ thuộc (tương quan của sai số càng cao) thì phương sai càng lớn và càng kém hiệu quả.

=================
Chú ý:
+ Nhưng trong cả 2 trường hợp cực đoan ở trên (thực ra là mọi tình huống tương quan), xu hướng chung vẫn không đổi, tức là E(Y) = b1 + b2*X. Điều này là do tương quan trong Ui chỉ gây nên sự phụ thuộc về dao động giữa Yi và Yj, nhưng chúng vẫn dao động quanh E(Y) - đường nét đứt màu cam. Vì thế dù là ở vị trí i hay vị trí j, khi X tăng lên 1, xu hướng của Y vẫn là tăng lên b2>0. Điều này cũng vẫn giữ nguyên cho dù thông tin ở quan sát i và j là trùng lặp hay không.

Kết luận:
+ Giả định về sai số không tự tương quan là cần thiết để thu được tính hiệu quả của ước lượng tham số. Nếu giả định không thỏa mãn, ước lượng sẽ không hiệu quả và mức giảm hiệu quả cũng phụ thuộc vào mức độ tương quan trong sai số.

Sửa đổi/bổ sung:
+ Giải thích ban đầu về quan sát trùng lặp không đúng và gây ra hiểu lầm (ví dụ trường hợp mẫu phân tổ, dù các quan sát được rút ngẫu nhiên độc lập nhưng vẫn rút lại các quan sát trong cùng 1 tổ và thông tin được lặp lại) nên tôi sửa lại cho đúng.

19/09/2025

PANEL ARDL/NARDL - Full
Cập nhật chuỗi video về ARDL trên dữ liệu bảng, mở rộng phân tích tác động bất cân xứng với Panel NARDL. Áp dụng cho bảng cân bằng và không cân bằng.
1) Kiểm định nghiệm đơn vị: có/không có phụ thuộc chéo
2) Kiểm định đồng tích hợp: có/không có phụ thuộc chéo
3) Lựa chọn độ trễ, cấu trúc trễ cho mô hình
4) Ước lượng các tham số ngắn/dài hạn bằng: MG, PMG, DFE
5) Chẩn đoán các hiện tượng: sai số phụ thuộc chéo, phương sai sai số thay đổi, sai số tương quan chuỗi, sai số không phân bố chuẩn
6) Ước lượng NARDL và kiểm định tác động bất đối xứng (phi tuyến)

17/09/2025

[STATA] FGLS NÀO CHO FE?
Xét dữ liệu bảng với N>>T (Bảng vi mô điển hình, ví dụ dữ liệu 300 doanh nghiệp niêm yết 2010-2024) với mô hình

y = x*beta + u_i + e_it

Trong đó, x ngoại sinh với e_it, nội sinh với u_i (hàm ý ước lượng FE là phù hợp nhất) và e_it có phương sai sai số thay đổi (PSSSTĐ), tương quan chuỗi (TTQ) và phân phối độc lập theo i=1, ..., N. Lúc này, nhà nghiên cứu có 2 lựa chọn để giải quyết hậu quả của PSSSTĐ và TTQ.
+ Ước lượng nhất quán sai số chuẩn: xtreg y x, fe robust
+ Ước lượng hiệu quả beta bằng FGLS.
Vấn đề phát sinh khi một số nhà nghiên cứu lựa chọn sai cách thực hiện FGLS khi sử dụng phần mềm STATA.

1. LỆNH XTGLS

Lệnh này thực hiện ước lượng FGLS theo thủ tục của Park (1967) và được phổ biến rộng rãi bởi Kmenta (1971), thường được gọi là phương pháp Park-Kmenta. Có 2 điều cần chú ý:
i) Phương pháp này áp dụng cho Pooled OLS.
ii) Đòi hỏi ước lượng nhất quán tham số tự tương quan bậc 1, do vậy yêu cầu kích cỡ chiều thời gian (T) đủ dài.

Sẽ ra sao nếu cố gắng áp dụng FGLS của Park-Kmenta cho FE với bảng N lớn, T nhỏ?
- Đầu tiên, giống như khi ước lượng FE, người ta có thể nghĩ đến việc sử dụng "With-in stranformation" để loại bỏ u_i và thực hiện FGLS của Park cho dữ liệu sau biến đổi. Nhưng vấn đề là sai số sau biến đổi sẽ có cấu trúc hiệp phương sai phức tạp hơn là chỉ bao gồm PSSSTĐ và TTQ bậc 1.
- Thứ hai, người ta có thể nghĩ đến việc sử dụng các biến giả, giống như LSDV. Nhưng rất tiếc, vấn đề tham số phát sinh (incidental parameter) sẽ làm cho ước lượng e_it không nhất quán, do vậy không thể sử dụng để tạo ra ước lượng hiệu quả (dù là tiệm cận) theo FGLS.
- Thứ ba, về hiện tượng TTQ bậc 1. Với T nhỏ, lượng chệch trong mẫu giới hạn sẽ tạo ra các ước lượng không chính xác cho hệ số tự tương quan, theo đó là kết quả của FGLS.

Như vậy, thủ tục FGLS của Park-Kmenta không nên được sử dụng trong bối cảnh bảng N lớn, T nhỏ.
(Ngay cả khi T lớn hơn đáng kể so với N, FGLS của Park vẫn cho ra các ước tính "quá lạc quan", tiềm ẩn nguy cơ làm sai lệch các suy luận thống kê, xem chi tiết trong Beck & Katz (1995)).

2. LỆNH XTGLS2

Ước lượng FGLS phù hợp cho FE trong bảng N lớn, T nhỏ được giới thiệu lần đầu bởi Kiefer (1980). Trong đó, ông giả định cấu trúc ma trận hiệp phương sai của sai số có tự tương quan tùy và phương sai sai số thay đổi theo thời gian. Tuy nhiên, ông hạn chế rằng cấu trúc này là giống hệt nhau giữa các đơn vị chéo. Wooldridge gọi giả định này là "đồng nhất hệ thống" (system homoskedasticity). Điều này có nghĩa là FGLS của Kiefer sẽ không hiệu quả nếu có sự góp mặt của phương sai sai số thay đổi theo các đơn vị chéo ("không đồng nhất hệ thống" - system heteroskedasticity).

Wooldridge (2002, 2010) gọi ước lượng của Kiefer là FE-GLS, ông giữ nguyên các giả định như của Kiefer và mở rộng cho mô hình Pooled OLS (P-GLS), First-Difference (FD-GLS) và Random Effects (RE-GLS). Để đối phó với "không đồng nhất hệ thống", Wooldridge sử dụng sai số chuẩn Arellano (1987) để ước tính sai số chuẩn tiệm cận cho ước lượng FE-GLS.

Một nhầm lẫn đáng tiếc là lệnh xtgls có sẵn trên STATA thường xuyên (ít nhất tại Việt Nam theo quan sát của tôi) được sử dụng cho bảng N lớn T nhỏ và được trích dẫn là ước lượng của Kiefer. Đây là sai lầm nghiêm trọng.

Để góp phần làm rõ ràng và tránh sai lầm này, tôi đã viết câu lệnh xtgls2 (cài đặt bằng cách chạy lệnh ssc install xtgls2) giúp thực hiện các ước lượng FE-GLS, P-GLS, FD-GLS kèm theo tùy chọn điều chỉnh sai số chuẩn. Sử dụng xtgls2, FE-GLS giải quyết PSSSTĐ và TTQ tùy ý được thực hiện bởi câu lệnh sau:
xtgls2 y x, fe cov(c) nocons cluster(panelvar)

Tài liệu tham khảo

1) Arellano, M. (1987). Computing robust standard errors for within-groups estimators. Oxford Bulletin of Economics & Statistics, 49(4).

2) Beck, N., & Katz, J. N. (1995). What to do (and not to do) with time-series cross-section data. American political science review, 89(3), 634-647.

3) Kiefer, N. M. (1980). Estimation of fixed effect models for time series of cross-sections with arbitrary intertemporal covariance. Journal of econometrics, 14(2), 195-202.

4) Kmenta, J., & Klein, L. R. (1971). Elements of econometrics (Vol. 655). New York: Macmillan.

5) Parks, R. W. (1967). Efficient estimation of a system of regression equations when disturbances are both serially and contemporaneously correlated. Journal of the american statistical association, 62(318), 500-509.

6) Wooldridge, J. M. (2002). Econometric analysis of cross section and panel data MIT press. Cambridge, ma, 108(2), 245-254.

7) Wooldridge, J. M. (2010). Econometric analysis of cross section and panel data. MIT press.

15/09/2025

NỘI SINH TỪ PHẢN HỒI NGƯỢC
Nếu có quan hệ phản hồi như vậy thì đó là tình huống của biến độc lập nội sinh.
Bạn cần tìm biến công cụ cho biến nội sinh này và thực hiện ước lượng 2SLS hoặc GMM.
Hoặc, nếu có lý thuyết kinh tế, có thể chuyển sang mô hình hệ phương trình đồng thời và thực hiện thủ tục 2SLS.
Một cách đơn giản hơn đó là sử dụng trễ của biến độc lập để thay thế nó. Cách này sẽ giúp loại trừ tác động phản hồi của Y đến X, nhưng nó không chắc sẽ cho ra ước lượng chính xác cho hệ số biến X ban đầu, chỉ nên sử dụng như 1 bài robustness test nhỏ khi không có phương án thay thế tốt hơn.

14/09/2025

Việc bổ sung thêm biến kiểm soát (Z) nhằm cố gắng tránh bỏ sót biến quan trọng, nhờ vậy thu được ước lượng tốt cho hệ số biến độc lập chính (X).
+ Nếu Z thực sự có ảnh hưởng đến Y và có tương quan với X thì cần phải đặt Z trong phương trình hồi quy.
+ Nếu Z không có ảnh hưởng đến Y, hoặc Z có ảnh hưởng đến Y nhưng không tương quan với X thì việc bổ sung thêm Z sẽ không làm thay đổi đáng kể hệ số ước lượng của X, chỉ có sai số chuẩn của hệ số biến X trở nên lớn hơn. Khi đó, có thể loại bỏ Z khỏi mô hình.

===================
Trở lại với tình huống của bạn trong ảnh, nên làm gì với dấu hiệu biến Z không có ý nghĩa thống kê?

Có thể biến Z không thực sự ảnh hưởng đến Y, cũng có thể có nhưng biến Z và X đang có tương quan cao gây ra đa cộng tuyến cao làm hệ số của Z không có ý nghĩa thống kê theo T-test.
Ta có thể kiểm tra:
+ Lý thuyết kinh tế, nghiên cứu tiên nghiệm hoặc quan sát thực nghiệm về quan hệ của Y và Z? Nếu có thì hẳn là nên giữ Z lại.
+ Tương quan của Z và X có cao không, xác định xem mức độ cộng tuyến thế nào.
+ So sánh hệ số của X trước và sau khi bổ sung thêm Z có khác biệt đáng kể không? (Về độ lớn, dấu và ý nghĩa thống kê) Nếu không quá khác biệt, bạn hoàn toàn có thể loại bỏ biến Z vì điều đó cho thấy rằng Z không phải là một biến quan trọng.

11/09/2025

THÔNG TIN GÌ MA TRẬN TƯƠNG QUAN?

Ma trận tương quan thường được báo cáo kèm kiểm định tương quan Pearson (p-value hoặc số *). Tuy nhiên, hiểu chưa đúng về hệ số tương quan có thể dẫn đến những lựa chọn sai lầm trong quá trình phân tích, ví dụ như loại một biến giải thích khỏi phương trình hồi quy.

Dưới đây là ví dụ minh họa khi Y và X có tương quan dương (có ý nghĩa thống kê), nhưng khi được kiểm soát biến Z, tương quan (trong điều kiện Z) của Y và X trở thành âm (có ý nghĩa thống kê).
Các kịch bản tương tự khác cũng hoàn toàn có thể xảy ra, ví dụ: tương quan trực tiếp Y và X không có ý nghĩa, sau kiểm soát các biến độc lập cần thiết Z1, Z2, ... (thường gọi là các biến kiểm soát), tương quan Y và X có ý nghĩa thống kê!

Đây là hậu quả điển hình của bỏ sót biến quan trọng gây nên lượng chệch (do thiếu biến) cho hệ số ước lượng của X. Biến X lúc này được gọi là biến nội sinh.

Tóm lại, việc tính và kiểm định tương quan giữa Y và các biến độc lập (X) cung cấp cái nhìn ban đầu về tiềm năng giải thích cho Y của các biến độc lập X, nhưng đó không phải và không nên dùng làm thông tin đưa ra quyết định nên thêm/không thêm biến X vào mô hình. Và thông tin giá trị nhất của ma trận tương quan đó là cung cấp đánh giá sơ bộ về mức độ của hiện tượng đa cộng tuyến giữa các biến độc lập.

Bổ sung:
Trong dữ liệu minh họa, X và Z có tương quan rất cao biểu thị một mức độ đa cộng tuyến (rất cao) trong mô hình hồi quy Y theo X và Z. Tuy nhiên, nhà nghiên cứu nắm vững lý thuyết về đa cộng tuyến sẽ rất yên tâm tin tưởng kết quả hồi quy Y~X+Z. Video chi tiết về đa cộng tuyến có liên kết ở dưới bình luận.

Hoàng Bá Mạnh

23/10/2025

03/10/2025

01/10/2025

29/09/2025

26/09/2025

24/09/2025

21/09/2025

19/09/2025

17/09/2025

15/09/2025

14/09/2025

11/09/2025

Address

Telephone

Website

Alerts

Contact The University

Shortcuts

Share