Bài giảng Kinh tế lượng - Chương 1: Mô hình hồi qui hai biến - Phạm Văn Minh
Phân tích hồi quy là tìm quan hệ phụ thuộc của một
biến, được gọi là biến phụ thuộc vào một hoặc nhiều
biến khác, được gọi là biến độc lập nhằm mục đích ước
lượng hoặc tiên đoán giá trị kỳ vọng (trung bình) của
biến phụ thuộc khi biết trước giá trị của biến độc lập.
Biến độc lập hay biến giải thích là biến phi ngẫu nhiên
nó ảnh hưởng hay tác động tới biến khác, thường được
ký hiệu là X.
Biến phụ thuộc hay biến được giải thích là biến ngẫu
nhiên, nó chịu ảnh hưởng hay chịu tác động của biến
khác, thường được ký hiệu là Y.
Phân tích hồi quy giải quyết các vấn đề sau
đây:
1. Ước lượng giá trị trung bình của biến phụ
thuộc với giá trị đã cho của biến độc lập.
2. Kiểm định giả thiết về bản chất của sự phụ
thuộc.
3. Dự đoán giá trị trung bình của biến phụ thuộc
khi biết giá trị đã cho của biến độc lập
Tóm tắt nội dung tài liệu: Bài giảng Kinh tế lượng - Chương 1: Mô hình hồi qui hai biến - Phạm Văn Minh
Chương 1 MÔ HÌNH HỒI QUI HAI BIẾN Những khái niệm cơ bản 1 Phạm Văn Minh biên soạn NỘI DUNG 1. Bản chất của phân tích hồi quy 2. Bản chất và nguồn số liệu cho PTHQ 3. Mô hình hồi quy hai biến 2 Phạm Văn Minh biên soạn Phân tích hồi quy là tìm quan hệ phụ thuộc của một biến, được gọi là biến phụ thuộc vào một hoặc nhiều biến khác, được gọi là biến độc lập nhằm mục đích ước lượng hoặc tiên đoán giá trị kỳ vọng (trung bình) của biến phụ thuộc khi biết trước giá trị của biến độc lập. Biến độc lập hay biến giải thích là biến phi ngẫu nhiên nó ảnh hưởng hay tác động tới biến khác, thường được ký hiệu là X. Biến phụ thuộc hay biến được giải thích là biến ngẫu nhiên, nó chịu ảnh hưởng hay chịu tác động của biến khác, thường được ký hiệu là Y. 1. Bản chất của phân tích hồi quy (1) 3 Phạm Văn Minh biên soạn Ví dụ 1. Bản chất của phân tích hồi quy (2) BIẾN PHỤ THUỘC - Y (Dependent variable) BIẾN ĐỘC LẬP - Xi (Independent variable) Chi tiêu ? Chiều cao ? Thu nhập ? Số vụ tai nạn ? Doanh thu ? Sản lượng nông sản ? 4 Phạm Văn Minh biên soạn Ví dụ 1. Bản chất của phân tích hồi quy (2) BIẾN PHỤ THUỘC - Y (Dependent variable) BIẾN ĐỘC LẬP - Xi (Independent variable) Chi tiêu Thu nhập, Giới tính, v.v. Chiều cao Tuổi, Giới tính, v.v. Thu nhập Tuổi, Trình độ học vấn, v.v. Số vụ tai nạn Lượng bia tiêu thụ, v.v. Doanh thu Chi phí quảng cáo, v.v. Sản lượng nông sản Lượng nước, Phân bón, v.v. 5 Phạm Văn Minh biên soạn Biểu đồ phân tán: Chiều cao theo độ tuổi 1. Bản chất của phân tích hồi quy (3) 115 120 125 130 135 9 10 11 12 13 14 15 C H I E U C A O TUOI 6 Phạm Văn Minh biên soạn Phân tích hồi quy giải quyết các vấn đề sau đây: 1. Ước lượng giá trị trung bình của biến phụ thuộc với giá trị đã cho của biến độc lập. 2. Kiểm định giả thiết về bản chất của sự phụ thuộc. 3. Dự đoán giá trị trung bình của biến phụ thuộc khi biết giá trị đã cho của biến độc lập. 1. Bản chất của phân tích hồi quy (4) 7 • Quan hệ hàm số (tất định) và quan hệ thống kê QHHS: Shcn = Dài x Rộng; Y = 2.X + 3. QHTK: Cùng diện tích và kỹ thuật nuôi tôm năng suất khác nhau. • Hồi quy và quan hệ nhân quả Có thể hồi quy số vụ trộm theo số nhân viên cảnh sát hoặc ngược lại. Quan hệ nhân quả chỉ ra rằng số cảnh sát tăng do số vụ trộm tăng. • Hồi quy và tương quan Phân tích tương quan chỉ cho thấy độ mạnh yếu của mối quan hệ tuyến tính giữa hai biến số. 1.1. Sự khác nhau giữa các dạng quan hệ (1) 8 2. Bản chất và nguồn số liệu cho PTHQ 2.1. Các loại số liệu Số liệu chuỗi thời gian (time-series) Là một tập hợp quan sát về các giá trị mà một hay nhiều biến số ở cùng một đơn vị (địa phương) nhận trong những thời gian khác nhau. VD: GDP, Số người thất nghiệp của Việt Nam từ 1986 đến 2015, v.v. Số liệu chéo (cross-sectional) (*) Là số liệu của một hay nhiều biến thu thập tại cùng một thời điểm ở nhiều đơn vị (địa phương khác nhau). VD: Điều tra dân số Việt Nam năm 2014, Giá thuê văn phòng tại các quận Tp.HCM, v.v. Số liệu tổng hợp (pooled data) Bao gồm cả số liệu chuỗi thời gian và số liệu chéo. VD: Sản lượng cà phê từ năm 2002 đến năm 2012 của các tỉnh Bình Phước, Đắc Lắc, Gia Lai, v.v. 9 2. Bản chất và nguồn số liệu cho PTHQ 2.1. Các loại số liệu (tt) Số liệu chuỗi thời gian (time-series) Giá dầu ($/thùng) trung bình hàng năm từ 1999 - 2014 Year Nominal Price Inflation Adjusted Price Year Nominal Price Inflation Adjusted Price 1999 $16.56 $23.42 2007 $64.20 $72.99 2000 $27.39 $37.55 2008 $91.48 $100.01 2001 $23.00 $30.69 2009 $53.48 $58.76 2002 $22.81 $29.92 2010 $71.21 $77.11 2003 $27.69 $35.55 2011 $87.04 $91.39 2004 $37.66 $47.05 2012 $86.46 $88.95 2005 $50.04 $60.45 2013 $91.17 $92.41 2006 $58.30 $68.28 2014 $89.08 $89.08 Nguồn: 10 2. Bản chất và nguồn số liệu cho PTHQ 2.1. Các loại số liệu (tt) Số liệu chéo (cross-sectional) - Thường dùng trong KTL Diện tích, dân số và mật độ dân số năm 2013 phân theo địa phương Nguồn: Diện tích (Km2) Dân số trung bình (Nghìn người) Mật độ dân số (Người/km2) Hà Nội 3324.3 6936.9 2087.0 Vĩnh Phúc 1238.6 1029.4 831.0 Bắc Ninh 822.7 1114.0 1354.0 Quảng Ninh 6102.4 1185.2 194.0 Hải Dương 1656.0 1747.5 1055.0 Hải Phòng 1527.4 1925.2 1260.0 Hưng Yên 926.0 1151.6 1244.0 Thái Bình 1570.5 1788.4 1139.0 Hà Nam 860.5 794.3 923.0 Nam Định 1652.8 1839.9 1113.0 Ninh Bình 1378.1 927.0 673.0 11 2. Bản chất và nguồn số liệu cho PTHQ 2.1. Các loại số liệu (tt) Số liệu tổng hợp (pooled data) Số lượt hành khách vận chuyển phân theo địa phương Nguồn: Triệu lượt người 2005 2006 2007 2008 2009 2010 2011 2012 Hà Giang 0,5 0,6 0,7 0,8 1,0 1,1 1,6 1,8 Cao Bằng 1,1 0,9 1,0 1,2 1,2 1,2 1,2 1,3 Bắc Kạn 1,3 1,4 1,5 1,6 2,1 2,2 3,0 3,0 Tuyên Quang 3,4 4,2 3,6 5,3 5,7 5,8 5,8 6,0 Lào Cai 2,5 3,0 3,4 4,0 4,1 4,2 4,6 4,6 Yên Bái 4,5 4,8 5,0 5,2 5,5 5,9 5,9 6,4 Thái Nguyên 2,5 3,2 4,0 4,8 5,9 6,3 7,2 8,2 Lạng Sơn 3,4 3,6 4,0 5,1 6,5 7,5 8,2 8,6 12 2. Bản chất và nguồn số liệu cho PTHQ 2.2. Bản chất và nguồn số liệu Số liệu sơ cấp hoặc thứ cấp. Thực nghiệm, thu được qua thí nghiệm (kỹ thuật, Khoa học tự nhiên). Phi thực nghiệm, thu thập từ thực tế (KHXH&NV, Kinh tế). Các số liệu có thể thu thập bởi: Cơ quan nhà nước (Tổng cục thống kê, Quốc Hội, v.v.) Các tổ chức quốc tế (WB, IMF, WHO, v.v.) Các công ty (Chứng khoán, Sàn vàng, v.v.) Các cá nhân (Nhà nghiên cứu, Sinh viên, v.v.) 13 2. Bản chất và nguồn số liệu cho PTHQ 2.3. Tính chính xác của số liệu Trên thực tế có rất nhiều nguồn số liệu nhưng độ chính xác thường không đủ cao, đó là do: Sai số đo lường (do tính gần đúng hay làm tròn số). Thiên lệch lựa chọn trong mẫu (sample bias): Đối tượng đã được chọn phù hợp từ chối trả lời phiếu câu hỏi của cuộc điều tra. Người trả lời không trả lời hết các câu hỏi trong bảng phỏng vấn, nhờ người khác trả lời, v.v. Phương pháp chọn mẫu khác nhau. Số liệu kinh tế thường ở mức rất tổng hợp. Một số số liệu quan trọng nhưng do tính bảo mật nên không được công bố (vd: thuế TNCN). Luôn nhớ rằng “Garbage In – Garbage Out” !!! 14 3. Mô hình hồi quy 2 biến Một vài ý tưởng cơ bản 1. Định nghĩa về phân tích hồi quy 2. Hồi quy 2 biến 3. Hàm hồi quy tổng thể (PRF) 4. Hàm hồi quy mẫu (SRF) 15 3. Mô hình hồi quy 2 biến 3.1. Định nghĩa về mô hình hồi qui Mô hình hồi quy là mô hình xem xét về xu thế thay đổi của một biến này theo một biến hoặc một số biến khác; hoặc xu thế thay đổi của một biến theo thời gian và xu thế thay đổi đó thể hiện bởi một phương trình toán học gọi là phương trình hồi quy. Trong trường hợp một biến thay đổi theo các biến khác, thì biến đó thường được gọi là biến phụ thuộc (dependent variable) và các biến giải thích cho sự thay đổi gọi là các biến độc lập (independent variables). 16 3. Mô hình hồi quy 2 biến 3.2. Hồi qui 2 biến Ước lượng hay dự đoán giá trị trung bình (tổng thể) của biến phụ thuộc trên cơ sở các giá trị đã biết hoặc đã xác định của 1 biến giải thích. Ví dụ: Giả thiết có một quốc gia gồm 60 hộ gia đình. Xét mối quan hệ giữa Y, chi tiêu hàng tuần của hộ gia đình, và X, thu nhập khả dụng (sau thuế) hàng tuần của hộ gia đình. Hay đơn giản hơn là dự đoán mức trung bình của chi tiêu tiêu dùng hàng tuần khi biết thu nhập hàng tuần của gia đình. Thực hiện: chia 60 gia đình ra 10 nhóm có thu nhập tương đối như nhau theo bảng sau: 17 3. Mô hình hồi quy 2 biến 3.2. Hồi qui 2 biến (tt) Thu nhập và chi tiêu của các hộ gia đình 80 100 120 140 160 180 200 220 240 260 55 65 79 80 102 110 120 135 137 150 60 70 84 93 107 115 136 137 145 152 65 74 90 95 110 120 140 140 155 175 70 80 94 103 116 130 144 152 165 178 75 85 98 108 118 135 145 157 175 180 88 113 125 140 160 189 185 115 162 191 325 462 445 707 678 750 685 1043 966 1211 Nguồn: Bảng 2.1 (Giáo trình KTL, tr. 16) X Y ΣY 18 3. Mô hình hồi quy 2 biến 3.2. Hồi qui 2 biến (tt) Bảng trên đây là phân phối có điều kiện của Y phụ thuộc vào các giá trị nhất định của X. Xác suất có điều kiện của Y theo X, p(Y|X), có thể được tính. Ví dụ, với X=80$, có 5 giá trị của Y là 55, 60, 65, 70, 75. Như vậy, với X=80, XS có bất kỳ một trong những chi tiêu này là p(Y=55|X=80) = 1/5. Tương tự, p(Y=150|X=260) = 1/7 19 3. Mô hình hồi quy 2 biến 3.2. Hồi qui 2 biến (tt) Xác suất có điều kiện của dữ liệu trong B2.1 Nguồn: Bảng 2.2 (Giáo trình KTL, tr. 17) Xi Xác suất có ĐK của Y p(YXi) Trung bình có ĐK của Y 80 100 120 140 160 180 200 220 240 260 1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7 1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7 1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7 1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7 1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7 1/6 1/7 1/6 1/6 1/7 1/6 1/7 1/7 1/7 1/7 65 77 89 101 113 125 137 149 161 173 20 3. Mô hình hồi quy 2 biến 3.2. Hồi qui 2 biến (tt) Vậy từ mỗi xác suất có điều kiện của Y, ta có thể tính giá trị trung bình của Y, được gọi là trung bình có điều kiện hay kỳ vọng có điều kiện, và được ký hiệu là E(Y|Xi) E(Y|X=80) = 55(1/5) + 60(1/5) + 65(1/5) + 70(1/5) + 75(1/5) = 65 21 3. Mô hình hồi quy 2 biến 3.2. Hồi qui 2 biến (tt) Nguồn: Chạy Eviews 6.0 File(thidu1.wf1) 22 3. Mô hình hồi quy 2 biến 3.2. Hồi qui 2 biến (tt) Đồ thị phân tán cho thấy rằng mặc dù có biến đổi trong chi tiêu nhưng chi tiêu tiêu dùng về mặt trung bình sẽ tăng khi thu nhập tăng. Các giá trị trung bình có điều kiện nằm trên một hàng thẳng với độ dốc đồng biến và còn được gọi là đường hồi qui tổng thể. 23 3. Mô hình hồi quy 2 biến 3.3. Mô hình hồi quy tổng thể (PRF) Theo ví dụ trước, mỗi trung bình có điều kiện của Y là một hàm của Xi và có thể được thể hiện như sau: E(Y|Xi) = f(Xi) : Hàm hồi qui tổng thể hai biến. Trung bình (tổng thể) của phân phối của Y với điều kiện Xi là có quan hệ hàm số với Xi. Nói một cách khác, nó cho biết giá trị trung bình của Y biến đổi như thế nào so với X. Dạng hàm hồi qui tổng thể: Theo giả định thì hàm này có dạng tuyến tính theo công thức sau: E(Y|Xi) = β1 + β2Xi β1 là tung độ gốc và β2 là hệ số góc (hay độ dốc). 24 3. Mô hình hồi quy 2 biến 3.3. Mô hình hồi quy tổng thể (PRF) (tt) Sự tuyến tính theo các biến số Về mặt hình học, đường cong tuyến tính trong trường hợp này là một đường thẳng. Như vậy hàm sau đây E(Y|Xi) = β1 + β2X2i không tuyến tính vì biến X xuất hiện lũy thừa 2, và đo đó đường quan hệ không phải đường thẳng. Sự tuyến tính theo các tham số (hay thông số) E(Y|Xi) = β1 + β2X2i là mô hình tuyến tính theo tham số β1 và β2. là KHÔNG TUYẾN TÍNH theo tham số. Tuyến tính theo tham số có liên quan đến sự phát triển của lý thuyết hồi qui và do đó kể từ nay trở đi khi đề cập đến 2 chữ “tuyến tính” thì nên hiểu là tuyến tính theo tham số. ( ) 1 2i iE Y X Xβ β= + 25 Với mức thu nhập Xi, mức chi tiêu tiêu dùng của một gia đình có thể nằm xung quanh chi tiêu bình quân hay kỳ vọng có điều kiện của nó. Độ lệch của một Yi xung quanh giá trị kỳ vọng như sau: ui = Yi – E(Y|Xi) hay Yi = E(Y|Xi) + ui, với ui là sai số nhiễu ngẫu nhiên. 3. Mô hình hồi quy 2 biến Đặc trưng “ngẫu nhiên” của PRF Đồ thị cho thấy khi thu nhập gia đình tăng, chi tiêu tiêu dùng bình quân của gia đình cũng tăng theo. 26 3. Mô hình hồi quy 2 biến Đặc trưng “ngẫu nhiên” của PRF Nếu E(Y|Xi) = β1 + β2Xi, ta có thể thể hiện giá trị Yi sau: Yi = β1 + β2Xi + ui (*) Với X = 80$, các giá trị Yi Y1 = 55 = β1 + β2(80) + u1 Y2 = 60 = β1 + β2(80) + u2 Y3 = 65 = β1 + β2(80) + u3 Y4 = 70 = β1 + β2(80) + u4 Y5 = 75 = β1 + β2(80) + u5 Nếu lấy giá trị kỳ vọng cả 2 vế của (*) E(Yi| Xi) = E[E(Y| Xi)] + E(ui| Xi) = E(Y| Xi) + E(ui| Xi) 27 3. Mô hình hồi quy 2 biến Đặc trưng “ngẫu nhiên” của PRF (tt) E(Yi| Xi) = E[E(Y| Xi)] + E(ui| Xi) = E(Y| Xi) + E(ui| Xi) Do E(Yi| Xi) = E(Y| Xi) E(ui| Xi) = 0 Khi các giá trị trung bình có điều kiện của ui bằng 0 nghĩa là đường hồi qui đi ngang qua các giá trị trung bình có điều kiện của Y. Đặc trưng ngẫu nhiên cho thấy rằng có những biến số khác ngoài thu nhập (?) có thể có ảnh hưởng đến chi tiêu tiêu dùng. 28 40 60 80 100 120 140 160 50 100 150 200 250 X Y Y = E(Y/Xi) Yi uiE(Y/Xi)=β1+β2Xi Yi=β1+β2Xi+ui Thu nhập khả dụng, X Chi tiêu, Y β1 β2 29 3. Mô hình hồi quy 2 biến Ý nghĩa của số hạng nhiễu ngẫu nhiên ui Số hạng nhiễu ui thay thế cho tất cả những biến số bị bỏ ra khỏi mô hình nhưng những biến số đó lại có ảnh hưởng đến Y. Vậy tại sao không tìm cách đưa vào tất cả các biến số càng nhiều càng tốt? Sự mơ hồ của lý thuyết: Chúng ta thường không có cơ sở chắc chắn để biết hết những biến số nào sẽ ảnh hưởng đến Y. Dữ liệu không có sẵn: Cho dù khi biết chính xác biến nào tác động đến Y nhưng việc thu thập số liệu lại gặp khó khăn. Một số biến có tác động không đáng kể và việc đưa vào sẽ làm giảm hiệu quả chi phí của mô hình. Bản chất ngẫu nhiên trong hành vi con người: Tồn tại ngay cả khi đã có đầy đủ các biến số cần thiết. 30 3. Mô hình hồi quy 2 biến Ý nghĩa của nhiễu ngẫu nhiên ui (tt) Số hạng nhiễu ui thay thế cho tất cả những biến số bị bỏ ra khỏi mô hình nhưng những biến số đó lại có ảnh hưởng đến Y. Vậy tại sao không tìm cách đưa vào tất cả các biến số càng nhiều càng tốt? (tiếp theo) Các biến thay thế kém: Có một số dữ liệu không thể quan sát được trực tiếp mà phải dùng các biến thay thế và hầu hết các biến thay thế không đủ tính đại diện. Nguyên tắc chi li: mục tiêu tiên quyết là giữ cho mô hình càng đơn giản càng tốt. Dạng hàm sai: tuyến tính hay phi tuyến? 31 3. Mô hình hồi quy 2 biến 3.4. Mô hình hồi quy mẫu (SRF) Chúng ta đã xem xét hàm hồi qui tổng thể với các giá trị tổng thể của Y. Nhưng trên thực tế cái chúng ta có chỉ thường là một mẫu các giá trị của Y tương ứng với một số X không đổi. Mẫu ngẫu nhiên 1 Y X 70 80 65 100 90 120 95 140 110 160 115 180 120 200 140 220 155 240 150 260 Mẫu ngẫu nhiên 2 Y X 55 80 88 100 90 120 80 140 118 160 120 180 145 200 175 220 32 3. Mô hình hồi quy 2 biến 3.4. Mô hình hồi quy mẫu (SRF) (tt) 33 3. Mô hình hồi quy 2 biến 3.4. Mô hình hồi quy mẫu (SRF) (tt) Nhiệm vụ là phải tính toán PRF trên cơ sở thông tin mẫu nhưng liệu chúng ta có thể thực sự tính toán được PRF từ những dữ liệu mẫu đó không? Câu trả lời thường là KHÔNG vì có sai số trong việc lấy mẫu. 34 Hàm hồi qui mẫu có dạng Trong đó = ước lượng điểm của E(Y| Xi) = ước lượng điểm của β1 = ước lượng điểm của β2 ei (hay , phần dư) = ước lượng điểm của ui Dưới dạng ngẫu nhiên Đối với X=Xi, ta có một quan sát (mẫu) Y=Yi. Theo SRF Theo PRF ( )i i iY E Y X u= + ii XY 21 ββ ))) += iii eXY ++= 21 ββ )) iii eYY += ) 3. Mô hình hồi quy 2 biến 3.4. Mô hình hồi quy mẫu (SRF) (tt) 1 ˆβ 2 ˆβ iYˆ iu ) 35 iu ) Mô hình hồi quy tổng thể và mẫu tuyến tính 60 80 100 120 140 50 100 150 200 250 C H I T I Ê U CHI TIÊU vs. THU NHẬP THU NHẬP PRF: iu ) iYˆ SRF: ii XY 21 ββ ))) += iii uXY ++= 21 ββ iu iYˆ iY 36
File đính kèm:
- bai_giang_kinh_te_luong_chuong_1_mo_hinh_hoi_qui_hai_bien_ph.pdf