Bài giảng Kinh tế lượng - Chương 3: Hồi quy tuyến tính đa biến - Đinh Thị Thanh Bình
Mô hình hồi quy tuyến tính đa biến
Trong thực tế, các mối quan hệ kinh tế thường phức tạp,
một số biến số kinh tế có thể chịu tác động của nhiều
biến số kinh tế khác mô hình hồi quy hai biến (hồi
quy đơn) tỏ ra không thỏa đáng.
Vì vậy cần thiết phải mở rộng mô hình hồi quy hai biến
bằng cách đưa thêm nhiều biến vào mô hình n/c hồi
quy nhiều biến (hồi quy bội hay hồi quy đa biến)
Các ý tưởng và kết quả nghiên cứu của hồi quy hai biến
được khái quát cho mô hình hồi quy nhiều biến.3.1. Các giả thiết cơ bản của mô hình
Giả thiết 1: Trong mô hình tổng thể Y có mối quan hệ
với các biến X và u:
Giả thiết 2: Mẫu điều tra là mẫu ngẫu nhiên, kích cỡ n.
Giả thiết 3: X có các giá trị không đồng nhất, và các
biến độc lập không có mối quan hệ tuyến tính hoàn
hảo (no perfect collinearity).
Giả thiết 4: Đại lượng sai số ngẫu nhiên (nhiễu) có kỳ
vọng bằng 0, tức là: E(u/X)=0.
Tóm tắt nội dung tài liệu: Bài giảng Kinh tế lượng - Chương 3: Hồi quy tuyến tính đa biến - Đinh Thị Thanh Bình
TS. Đinh Thị Thanh Bình - Khoa Kinh Tế Quốc Tế- Đại Học Ngoại Thương- Hà Nội CHƢƠNG 3 HỒI QUY TUYẾN TÍNH ĐA BIẾN 1 Mô hình hồi quy tuyến tính đa biến 2 Trong thực tế, các mối quan hệ kinh tế thường phức tạp, một số biến số kinh tế có thể chịu tác động của nhiều biến số kinh tế khác mô hình hồi quy hai biến (hồi quy đơn) tỏ ra không thỏa đáng. Vì vậy cần thiết phải mở rộng mô hình hồi quy hai biến bằng cách đưa thêm nhiều biến vào mô hình n/c hồi quy nhiều biến (hồi quy bội hay hồi quy đa biến) Các ý tưởng và kết quả nghiên cứu của hồi quy hai biến được khái quát cho mô hình hồi quy nhiều biến. 3.1. Các giả thiết cơ bản của mô hình Giả thiết 1: Trong mô hình tổng thể Y có mối quan hệ với các biến X và u: Giả thiết 2: Mẫu điều tra là mẫu ngẫu nhiên, kích cỡ n. Giả thiết 3: X có các giá trị không đồng nhất, và các biến độc lập không có mối quan hệ tuyến tính hoàn hảo (no perfect collinearity). Giả thiết 4: Đại lượng sai số ngẫu nhiên (nhiễu) có kỳ vọng bằng 0, tức là: E(u/X)=0. 3 0 1 ... k kY X X u 4 Định lý 1: Ƣớc lƣợng không chệch của các tham số Với các giả thiết 1-4 trên, ta có: ( ) , 0,1,..., j j E j k Giả thiết 5: Các ui có phương sai thuần nhất (homoscedasticity), tức là các ui có phương sai giống nhau với bất kỳ giá trị nào của Xi var (ui/Xi)= E[ui- E(ui/Xi)] 2= E(ui 2/Xi)= σ 2 5 Định lý 3: Phƣơng sai của các ƣớc lƣợng Với các giả thiết 1-5, ta có: j =1,2,.,k; là từ hồi qui lên các biến độc lập khác lớn hơn ước lượng thiếu chính xác hơn khoảng tin cậy lớn hơn kiểm định giả thuyết thống kê kém chính xác hơn. 2 2 ˆar( ) (1 ) j jj V SST R 2 ij 1 ( ) n jj i SST X X 2 jR 2 R jX var( ) j 7 Mô hình hồi quy tổng thể PRF Ý nghĩa: PRF cho biết trung bình có điều kiện của Y với điều kiện đã biết các giá trị cố định của biến X1 và X2. Y: biến phụ thuộc X1 và X2: biến độc lập β0 : hệ số tự do β1 , β2 : hệ số hồi quy riêng 1 2 0 1 1 2 2( / , )E Y X X X X 3.2. Mô hình hồi quy 3 biến 8 Mô hình hồi quy tổng thể ngẫu nhiên: ui: sai số ngẫu nhiên của tổng thể 1 1 2 20i i i i Y X X u 3.2. Mô hình hồi quy 3 biến 9 Hàm hồi quy mẫu SRF: ˆ i i iu Y Y Phần dư của mẫu ứng với quan sát thứ i 3.3. Ƣớc lƣợng các tham số Sử dụng phƣơng pháp bình phƣơng nhỏ nhất OLS để ước lượng các tham số 0 1 2 ˆ ˆ ˆ, , 0 1 1 2 2 ˆ ˆ ˆˆ i i iY X X 10 Ý nghĩa hệ số hồi quy riêng: cho biết ảnh hưởng của từng biến độc lập lên giá trị trung bình của biến phụ thuộc khi các biến còn lại được giữ không đổi. Ví dụ: Với điều kiện là các yếu tố khác không đổi (ceteris paribus), nữ giới có thu nhập thấp hơn nam giới là 43 cent/ giờ. 3.4. Cách diễn giải hệ số hồi qui riêng 1.29 0.43 0.83salary female educ 11 Mô hình hồi quy tổng thể Mô hình hồi quy mẫu ngẫu nhiên: 1 0 1 1( / ,... ) ...k i k kiE Y X X X X 0 1 1 ˆ ˆ ˆˆ ...i i k kiY X X 1 2 2 3 3 ˆ ˆ ˆ ˆˆ ...i i i i i i k kiu Y Y Y X X X 3.5. Mô hình hồi quy k biến sai số của mẫu ứng với quan sát thứ I Sử dụng phƣơng pháp bình phƣơng nhỏ nhất OLS để ước lượng các tham số. 12 SST (Total Sum of Squares - Tổng bình phương sai số tổng cộng) SSE: (Explained Sum of Squares - Bình phương sai số được giải thích) SSR: (Residual Sum of Squares - Tổng bình phương các phần dư) 3.6. CÁC TỔNG BÌNH PHƢƠNG ĐỘ LỆCH 2( )iSST Y Y 2ˆ( )iSSE Y Y 2 2 1 n i i SSR ui iY Y SSE SSR SRF SST Y X Yi Xi iYˆ Hình 2.3: Ý nghĩa hình học của SST, SSR và SSE 3.6. CÁC TỔNG BÌNH PHƢƠNG ĐỘ LỆCH 13 3.7. HỆ SỐ XÁC ĐỊNH R2 1 SSE SSR SST SST 14 Ta chứng minh được: SST = SSE + SSR 2 1 SSE SSR R SST SST 2 2 2 2 [ ( )( )] [ ( ) ][ ( ) ] i i i i Y Y Y R Y Y Y Y Y Nhược điểm: R2 tăng khi số biến X đưa vào mô hình tăng, dù biến đưa vào không có ý nghĩa. =>Sử dụng R2 điều chỉnh (adjusted R2 ,R2) để quyết định đưa thêm biến vào mô hình. 3.7. TÍNH CHẤT CỦA HỆ SỐ XÁC ĐỊNH R2 15 0≤ R2≤1 Cho biết % sự biến động của Y được giải thích bởi các biến số X trong mô hình. R2 =1: đường hồi quy phù hợp hoàn hảo R2 =0: X và Y không có quan hệ 16 2R Dùng để xem xét việc đưa thêm biến vào mô hình. Biến mới đưa vào mô hình phải thỏa 2 điều kiện: - Làm tăng - Biến mới có ý nghĩa thống kê trong mô hình mới 2R 3.8. Hệ số xác định điều chỉnh 2 2 11 (1 ) 1 n R R n k 3.9. Các tính chất của hệ số ước lượng OLS (cont.) 17 được xác định một cách duy nhất với một mẫu cụ thể. là ngẫu nhiên. Với các mẫu khác nhau, giá trị cụ thể của chúng sẽ khác nhau. Với giả thiết u có phân phối chuẩn, véc tơ tuân theo quy luật chuẩn. ˆ ˆ ˆ 3.9. Các tính chất của hệ số ước lượng OLS Với các giả thiết của mô hình, hàm hồi quy mẫu ước lượng theo PP OLS có các tính chất tương tự như trong trường hợp hồi quy hai biến, bao gồm các tính chất sau: SRF đi qua điểm ứng với các giá trị trung bình ( , ,, ) không tương quan với X1i,.,Xk,i, tức là cov( ,X) = 0 không tương quan với , tức là cov( , ) = 0 18 Y 1X kX YY ˆ 0ˆ u iuˆ uˆ iuˆ iYˆ uˆ Yˆ 3.10. Tiêu chuẩn của các ước lượng OLS- Định lý Gauss- Markov Với các giả thiết của phương pháp bình phương nhỏ nhất, các ước lượng bình phương nhỏ nhất thu được có tiêu chuẩn tốt nhất. Các tiêu chuẩn này được biết đến thông qua định lý nổi tiếng Gauss- Markov. 19 3.10. Tiêu chuẩn của các ước lượng OLS- Định lý Gauss- Markov Một ước lượng, ví dụ như ước lượng theo phương pháp OLS, được gọi là ước lượng tuyến tính không chệch tốt nhất (Best Linear Unbiased Estimator- BLUE) của β nếu nó thỏa mãn các tiêu chuẩn sau đây : Tuyến tính: khi các ước lượng là hàm tuyến tính của một biến ngẫu nhiên, chẳng hạn như biến phụ thuộc Y trong mô hình hồi quy. Không chệch: tức là giá trị trung bình của ước lượng hay chính là giá trị kỳ vọng của nó, E ( ), bằng với giá trị thực β2. Có phƣơng sai nhỏ nhất trong lớp các ước lượng tuyến tính không chệch. Một ước lượng không chệch có phương sai nhỏ nhất được coi là một ước lượng hiệu quả. 20 2ˆ 3.10. Tiêu chuẩn của các ước lượng OLS- Định lý Gauss- Markov Đối với mô hình hồi quy, thì các ước lượng theo phương pháp OLS được coi là các ước lượng BLUE. Đây chính là nội dung của định lý Gauss- Markov nổi tiếng, được phát biểu như sau: Định lý Gauss- Markov: Với các giả thiết của phương pháp bình phương nhỏ nhất, các ước lượng thu được là các ước lượng tuyến tính, không chệch và có phương sai nhỏ nhất (BLUE) trong lớp các ước lượng tuyến tính không chệch. Định lý Gauss- Markov có thể được giải thích thông qua các đồ thị phân bố xác suất trong hình [3.07]. 21 3.10. Tiêu chuẩn của các ước lượng OLS- Định lý Gauss- Markov Hình 3.07. Phân phối mẫu của ước lượng (OLS) và (phương pháp khác) 22 2ˆ * 2 2ˆ (a) Phân phối mẫu của β2 22) ˆ( E • Hình 3.07 (a) mô tả phân phối mẫu của ước lượng theo phương pháp OLS. Để thuận tiện, ta giả định rằng đồ thị phân bố xác suất của là đối xứng. Đồ thị này cho ta thấy trung bình các giá trị E( ) bằng với giá trị thực của β2. Trong trường hợp này, ta nói rằng là ước lượng không chệch của β2. 2ˆ 2ˆ 3.10. Tiêu chuẩn của các ước lượng OLS- Định lý Gauss- Markov Hình 3.07. Phân phối mẫu của ước lượng (OLS) và (phương pháp khác) 23 2ˆ * 2 • Hình 3.07 (b) biểu diễn phân phối mẫu của ƯL , một giá trị ƯL của β2 thu được bằng một phương pháp khác OLS. Giả định , giống , là ƯL không chệch, nghĩa là giá trị TB của nó bằng giá trị của β2. Ngoài ra, cũng giả định và đều là các ƯL tuyến tính, tức là chúng đều là hàm tuyến tính của biến phụ thuộc Y giữa hai ƯL và , ta chọn ước lượng nào? 2ˆ 2ˆ 2 * 2 )( E (b) Phân phối mẫu của β2* * 2 * 2 * 2 2ˆ * 2 * 2 3.10. Tiêu chuẩn của các ước lượng OLS- Định lý Gauss- Markov Hình 3.07. Phân phối mẫu của ước lượng (OLS) và (phương pháp khác) 24 2ˆ * 2 • hình 3.07(c): cả và đều là các ước lượng không chệch, tuy nhiên, phân tán rộng quanh giá trị TB hơn .Nói cách khác, phương sai của lớn hơn phương sai của . Bây giờ, trong hai ƯL cùng là ƯL tuyến tính, không chệch, đương nhiên ta chọn ƯL nào có phƣơng sai nhỏ hơn bởi đó là ƯL có giá trị gần với giá trị của β2 hơn đó chính là ước lượng vì nó thỏa mãn tiêu chuẩn BLUE. * 22, ˆ * 2 2ˆ (c ) Phân phối mẫu của β2 và β2* 2 * 2 2ˆ * 2 2ˆ * 2 2ˆ 2ˆ 3.11. So sánh ước lượng của hồi qui đa biến và đơn biến (1) (2) [3.1] là hệ số độ dốc từ hồi qui của bằng nhau khi: hoặc và 25 1 0 1 Y X 1 21 20 Y X X 2 1 lê i i nX X 1 11 2 1 1 1 & 2 0 1 0 2 #0 26 3.12. Kỳ vọng toán trong mô hình không xác định • Mô hình không xác định: - Đưa biến không liên quan vào mô hình (overspesifying the model) - Không đưa biến liên quan vào mô hình (underspecifying the model) 27 Định lý 1: Ƣớc lƣợng không chệch của các tham số Với các giả thiết 1-4 trên, ta có: Nghĩa là, là ước lượng không chệch của 1 1 2 2 ( ) , à ( )E v E 1 2 àv 1 2àv Nhắc lại 28 Định lý 2: Ƣớc lƣợng không chệch của phƣơng sai sai số của tổng thể: Với các giả thiết trên, ta có: 2 2 ( )E 3.12.1. Bao gồm biến không liên quan vào mô hình Biến độc lập được đưa vào mô hình ngay dù nó không có ảnh hưởng đến Y ở tổng thể (Hệ số ở tổng thể = 0) không có ảnh hưởng đến Y, Vì chúng ta ko biết đưa vào phtr SRF Không ảnh hưởng đến tính không chệch của Ảnh hưởng đến phương sai của các ước lượng (giải thích ở phần sau) 29 1 2 30 1 2 3 Y uX X X 3X 3 0 1 2 3 1 2 1 20 1 2 ( / , , ) ( / , )E Y E YX X X X X X X 3 0 3X 1 2 & 3.12.2. Không bao gồm biến liên quan vào mô hình Mô hình đầy đủ PRF: Khi ước lượng không đưa vào mô hình mặc dù nó có ý nghĩa thống kê. [3.1] 30 1 20 1 2 Y uX X 2X 10 1 Y X 1 11 2 3.12.2. Không bao gồm biến liên quan vào mô hình Phần chệch của là: là ước lượng không chệch của khi: loại vì từ đầu giả định có ý nghĩa hoặc ngay dù ko có mối quan hệ 31 1 11 1 2 1 2 1 2 1 ( ) ( ) ( ) ( )E E E E 1 11 1 1 2 ias( ) ( )B E 1 1 2 0 1 0 2 #0 1 2&X X 2X 3.12.2. Không bao gồm biến liên quan vào mô hình Như vậy, nếu có mối liên hệ với nhau và có ảnh hưởng đến Y , chúng ta ko đưa vào mô hình, khi đó ta có ước lượng chệch của Khi phần chệch (bias) tồn tại: 32 Phần chệch dương Phần chệch âm Phần chệch âm Phần chệch dương 2 0 2 0 1 2 or ( , ) 0C r X X 1 2or ( , ) 0C r X X 1 2 &X X 2X 2X 1 Định lý 3: Phƣơng sai của các ƣớc lƣợng Với các giả thiết trên, ta có: j =1,2,.,k; là từ hồi qui lên các biến độc lập khác lớn hơn ước lượng thiếu chính xác hơn khoảng tin cậy lớn hơn kiểm định giả thuyết thống kê kém chx hơn 2 2 ˆar( ) (1 ) j jj V SST R 2 ij 1 ( ) n jj i SST X X 2 jR 2 R jX var( ) j 3.13. Phương sai trong mô hình không xác định 1. Phƣơng sai sai số, : - càng lớn càng lớn - lớn hơn nghĩa là việc phân bố của các biến không quan sát được ảnh hưởng đến Y càng rộng hơn “nhiễu” (noise) hơn trong phương trình khó ước lượng hơn ảnh hưởng từng phần của từng biến X đến Y. - là giá trị ko biết, thuộc về tổng thể - Muốn giảm đưa thêm nhiều biến X vào phương trình 3.13.1. Các yếu tố ảnh hưởng đến phương sai của ước lượng OLS var( ) j 2 2 2 2 2 2. Sự biến động ở , : - càng lớn thì càng nhỏ Khi các yếu tố khác giống nhau, khi ước lượng chúng ta muốn có càng nhiều biến động ở tăng kích cỡ mẫu. 3.13.1. Các yếu tố ảnh hưởng đến phương sai của ước lượng OLS jSSTjX jSST var( )j j jX 3. Mối quan hệ tuyến tính giữa các biến độc lập, - phản ánh % sự biến động của được giải thích bởi các biến độc lập khác. - càng lớn mối quan hệ tuyến tính giữa và các biến X khác càng lớn thì càng lớn - Nếu = 0 là trường hợp tốt nhất để ước lượng nhưng điều này hiếm khi xảy ra. - Nếu = 1 vi phạm giả thiết 8 về cộng tuyến hoàn hảo. - 1 Sự tương quan lớn (không phải hoàn hảo) giữa 2 hay nhiều biến độc lập thì 3.13.1. Các yếu tố ảnh hưởng đến phương sai của ước lượng OLS 2 jR jX j 2 jR 2 jR var( ) j jX 2 jR 2 jR 2 jR var( ) j 37 3.13.1. Các yếu tố ảnh hưởng đến phương sai của ước lượng OLS • Sự tương quan lớn (không phải hoàn hảo) giữa 2 hay nhiều biến độc lập đa cộng tuyến • Đa cộng tuyến không vi phạm bất kỳ giả thiết nào. không có ảnh hưởng đến Y, Đưa biến không liên quan vào mô hình không ảnh hưởng gì đến tính không chệch của ước lượng: 38 2X 2 0 1 20 1 2 Y X X 1 1 2 2 ( ) ( ) 0 E E 3.13.2. Đƣa biến ko liên quan vào mô hình: PRF: Khi ước lượng không đưa vào mô hình mặc dù nó có ý nghĩa thống kê: Biasness: (1) (2) 39 1 20 1 2 Y uX X 2X 10 1 Y X 1 22 #0; ( , ) 0Corr X X 11 1 2 ( )E 1 1 ( )E 2 0 1 22 #0; ( , ) 0Corr X X 1 1 ( ) iasE b 3.13.3. Không đƣa biến liên quan vào mô hình: 40 • Nếu không chệch là tính chất duy nhất để đo chất lượng của ước lương được ưa thích hơn . Nghĩa là ta cứ cho biến ngay dù nó có liên quan hoặc không liên quan gì đến Y. •Tuy nhiên nếu xét cả tính chất phương sai nhỏ nhất, sự lựa chọn sẽ thay đổi. Cụ thể: •Nếu • 1 1 2 2 111 ar( ) / [ (1 )]V SST R 1 2 1 ar( ) /V SST 21 , )#0(Cov X X 1 1 ( ) ar( )Var V Một số kết luận: 2X 41 Nếu ( vấn đề đa cộng tuyến) TH1. Khi , là ước lượng chệch, là ước lượng không chệch, và TH2. Khi , và là ước lượng không chệch, và (TH2) Như vậy, khi không ảnh hưởng đến Y, khi đưa vào mô hình sẽ làm trầm trọng hơn vấn đề của đa cộng tuyến, dẫn đến việc ước lượng kém hiệu quả. Phương sai của ước lượng cao hơn là cái giá của việc đưa vào mô hình biến không liên quan. 1 1 21 , )#0(Cov X X 1 1 ( ) ar( )Var V 2 #0 2 0 1 1 2X 1 1 1 ( ) ar( )Var V 42 (TH1) Khi , không đưa vào mô hình ước lượng chệch • Có 2 lý do để đưa vào mô hình: • phần ước lượng chệch ở không giảm khi kích cỡ mẫu tăng • khi kích cỡ mẫu tăng; nghĩa là vấn đề đa cộng tuyến khi cho vào mô hình trở nên ít quan trọng hơn khi kích cỡ mẫu tăng. • Với mẫu đủ lớn, được ưa thích hơn , nghĩa là nên đưa vào mô hình khi ta biết nó có liên quan đến Y. 2 #0 2X 2X 1 1 1 ar( ) & ar( ) 0V V 2X 1 2X 43 Nếu 21 2 , ) 0 à #0 ( v Corr X X 11 1 1 ( ) ( ) ar( ) E Var V 44 3.14. Đa cộng tuyến (multiconlinearity) • Đa cộng tuyến xảy ra khi có quan hệ tuyến tính “mạnh” với các biến X khác • Nếu các yếu tố khác như nhau, khi ước lượng , tốt hơn nếu thấp hơn. • càng lớn càng lớn ước lượng ko hiệu quả. Giải pháp: - Tăng kích cỡ mẫu tăng - Với một mẫu cố định, bỏ một số biến X ra khỏi mô hình dẫn đến ước lượng chệch jX 2 1 jR j 1 2 or ( , )C r X X 2 jR ar( ) j V jSST 45 3.14. Đa cộng tuyến (multiconlinearity) Tuy nhiên nếu: • không liên quan đến , nhưng lại liên quan đến nhau • Khi đó không bị ảnh hưởng gì. • Nếu mối quan tâm của chúng là không cần phải quan tâm đến mối quan hệ của 1 0 1 2 31 2 3 Y uX X X 1X 2 3&X X 2 3&X X 1 1 ( ) & ar( )E V 2 3 &X X Phƣơng sai (var) của các ƣớc lƣợng: độ lệch chuẩn của các ƣớc lƣợng (sd): 2 2 ˆar( ) (1 ) j jj V SST R 3.15. Độ chính xác của các ước lượng OLS 2 1/2 ˆ( ) (1 )][ j jj sd SST R Sai số chuẩn của hồi qui ( ) (n-k-1): số bậc tự do; n: số quan sát; k: số biến độc lập Sai số của ƣớc lƣợng: 3.15. Độ chính xác của các ước lượng OLS 2 1/2 ˆ( ) (1 )][ j jj se SST R 2 2 1 ( ) / ( 1) n i i n ku
File đính kèm:
- bai_giang_kinh_te_luong_chuong_3_hoi_quy_tuyen_tinh_da_bien.pdf