Bài giảng Kinh tế lượng - Chương 2: Mô hình hồi quy hai biến - Đinh Thị Thanh Bình

Khái niệm về phân tích hồi qui

• Thuật ngữ hồi qui là «regression to mediocrity» nghĩa

là « quy về giá trị trung bình »

• Thuật ngữ này ra đời khi Galton (1886) nghiên cứu sự

phụ thuộc chiều cao của các con trai vào chiều cao của

các ông bố.

• Ông đã xây dựng được đồ thị chỉ ra phân bố chiều cao

của các con trai ứng với chiều cao của người cha.

Qua đồ thị phân bố, có thể thấy:

• Với chiều cao của người cha cho trước, thì chiều cao của

con trai sẽ là một khoảng dao động quanh một giá trị trung

bình.

• Chiều cao của cha tăng thì chiều cao của con trai cũng

tăng.

• Các vòng tròn trên đồ thị chỉ ra giá trị TB của chiều cao

con trai so với chiều cao của những ông bố.

• Nếu nối các điểm giá trị TB này, ta sẽ nhận được một

đường thẳng như trong hình vẽ.

• Đường thẳng này được gọi là đƣờng hồi quy- mô tả trung

bình sự gia tăng chiều cao các con trai so với bố.

pdf 93 trang kimcuc 18840
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Kinh tế lượng - Chương 2: Mô hình hồi quy hai biến - Đinh Thị Thanh Bình", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Bài giảng Kinh tế lượng - Chương 2: Mô hình hồi quy hai biến - Đinh Thị Thanh Bình

Bài giảng Kinh tế lượng - Chương 2: Mô hình hồi quy hai biến - Đinh Thị Thanh Bình
CHƯƠNG II. MÔ HÌNH HỒI QUY HAI BIẾN 
TS. Đinh Thị Thanh Bình 
Khoa Kinh Tế Quốc Tế- Đại học Ngoại Thƣơng 
1 
 1. Giới thiệu mô hình hồi qui 
1.1. Khái niệm về phân tích hồi qui 
1.2. Sự khác nhau giữa các dạng quan hệ 
2 
 1.1. Khái niệm về phân tích hồi qui 
• Thuật ngữ hồi qui là «regression to mediocrity» nghĩa 
là « quy về giá trị trung bình » 
• Thuật ngữ này ra đời khi Galton (1886) nghiên cứu sự 
phụ thuộc chiều cao của các con trai vào chiều cao của 
các ông bố. 
• Ông đã xây dựng được đồ thị chỉ ra phân bố chiều cao 
của các con trai ứng với chiều cao của người cha. 
3 
 1.1. Khái niệm về phân tích hồi qui 
75
70
65
60
60 65 70 75
C
h
iề
u
 c
ao
 c
ủ
a 
co
n
 t
ra
i 
(i
n
ch
es
)
Chiều cao của bố (inches)
 Giá trị trung bình
4 
Hình 2.01. Đồ thị phân bố chiều cao của các cháu trai ứng với 
chiều cao của người cha 
 1.1. Khái niệm về phân tích hồi qui 
Qua đồ thị phân bố, có thể thấy: 
• Với chiều cao của người cha cho trước, thì chiều cao của 
con trai sẽ là một khoảng dao động quanh một giá trị trung 
bình. 
• Chiều cao của cha tăng thì chiều cao của con trai cũng 
tăng. 
• Các vòng tròn trên đồ thị chỉ ra giá trị TB của chiều cao 
con trai so với chiều cao của những ông bố. 
• Nếu nối các điểm giá trị TB này, ta sẽ nhận được một 
đường thẳng như trong hình vẽ. 
• Đường thẳng này được gọi là đƣờng hồi quy- mô tả trung 
bình sự gia tăng chiều cao các con trai so với bố. 
5 
 1.1. Khái niệm về phân tích hồi qui 
• Như vậy, nghiên cứu giúp giải thích được câu hỏi: mặc 
dù có xu hướng bố cao đẻ con cao, bố thấp đẻ con thấp 
nhưng chiều cao trung bình của những người con có 
xu hướng tiến tới (hồi quy) về chiều cao trung bình 
của toàn bộ dân số, và xu hướng đó gọi là hồi quy. 
• Từ đó, nghiên cứu giúp dự báo chiều cao trung bình 
của các con trai thông qua chiều cao cho trước của cha 
chúng. 
6 
 1.1. Khái niệm về phân tích hồi qui 
 Bản chất của phân tích hồi quy là nghiên cứu mối 
liên hệ phụ thuộc của một biến (gọi là biến phụ thuộc 
hay biến được giải thích) với một hay nhiều biến khác 
(gọi là biến độc lập hay biến giải thích). 
 Phân tích hồi quy tập trung giải quyết các vấn đề sau : 
• Ước lượng giá trị trung bình của biến phụ thuộc với 
các giá trị đã cho của các biến độc lập. 
• Kiểm định giả thuyết về bản chất của sự phụ thuộc 
đó. 
7 
1.2. Sự khác nhau giữa các dạng quan hệ 
1.2.1. Hồi quy và quan hệ nhân quả 
1.2.2. Hồi quy và tương quan 
8 
 1.2.1. Hồi quy và quan hệ nhân quả 
• Phân tích hồi quy nghiên cứu quan hệ giữa một biến 
phụ thuộc với một hoặc nhiều biến độc lập khác. 
 Điều này không đòi hỏi giữa biến độc lập và các 
biến phụ thuộc có mối quan hệ nhân quả. 
9 
 1.2.1. Hồi quy và quan hệ nhân quả 
• Ví dụ: chúng ta có thể dự đoán sản lượng dựa vào 
lượng mưa và các biến khác nhưng không thể chấp 
nhận được việc dự báo lượng mưa dựa vào sự thay đổi 
của sản lượng. 
 Vì vậy, trước khi phân tích hồi quy, chúng ta phải 
nhận định chính xác mối quan hệ nhân quả. 
10 
 1.2.1. Hồi quy và quan hệ nhân quả 
• Một sai lầm phổ biến nữa trong phân tích KTL là quy 
kết mối quan hệ nhân quả giữa hai biến số trong khi 
thực tế chúng đều là hệ quả của một nguyên nhân 
khác. 
• Ví dụ: ta phân tích hồi quy số giáo viên với số phòng 
học trong toàn ngành giáo dục. Sự thực là cả số giáo 
viên và số phòng học đều phụ thuộc vào số học sinh. 
11 
1.2.2. Hồi quy và tương quan 
• Hồi quy và tương quan khác nhau về : mục đích 
và kỹ thuật. 
• Về mục đích, phân tích tương quan đo mức độ 
kết hợp tuyến tính giữa hai biến. Ví dụ mức độ 
quan hệ giữa nghiện thuốc lá và ung thư phổi, 
giữa kết quả thi môn thống kê và môn toán. 
Nhưng phân tích hồi quy lại ước lượng hoặc dự 
báo một biến trên cơ sở giá trị đã cho của các 
biến khác. 
12 
1.2.2. Hồi quy và tương quan 
• Về kỹ thuật trong phân tích hồi quy, các biến 
không có tính chất đối xứng. Biến phụ thuộc là 
đại lượng ngẫu nhiên còn giá trị của các biến giải 
thích đã được xác định. Trong phân tích tương 
quan, không có sự phân biệt giữa các biến, chúng 
có tính chất đối xứng. 
13 
2. Hàm hồi quy tổng thể và hàm hồi quy mẫu 
2.1. Khái niệm về hàm hồi quy tổng thể (PRF) 
2.2. Sai số ngẫu nhiên và bản chất của nó 
2.3. Hàm hồi quy mẫu (SRF) 
14 
 2.1. Khái niệm về hàm hồi quy tổng thể (PRF) 
• Hàm hồi quy tổng thể là hàm hồi quy được xây dựng 
dựa trên kết quả nghiên cứu khảo sát tổng thể. 
• Ví dụ: Giả sử ở một địa phương chỉ có cả thảy 60 gia 
đình, 60 gia đình này được chia thành 10 nhóm, chênh 
lệch về thu nhập của các nhóm gia đình từ nhóm này 
sang nhóm tiếp theo đều bằng nhau. 
15 
 2.1. Khái niệm về hàm hồi quy tổng thể (PRF) 
Bảng 2.01. Số liệu về thu nhập và chi tiêu của 60 hộ gia đình 
X 80 100 120 140 160 180 200 220 240 260 
Y 55 65 79 80 102 110 120 135 137 150 
Y 60 70 84 93 107 115 136 137 145 152 
Y 65 74 90 95 110 120 140 140 155 175 
Y 70 80 94 103 116 130 144 152 165 178 
Y 75 85 98 108 118 135 145 157 175 180 
Y - 88 - 113 125 140 - 160 189 185 
Y - - - 115 - - - 162 - 191 
Tổng 325 462 445 707 678 750 685 1043 966 1211 
16 
• X= thu nhập sau thuế/hộ gia đình (USD) 
• Y= Chi tiêu/hộ gia đình/tuần (USD) 
 2.1. Khái niệm về hàm hồi quy tổng thể (PRF) 
• Các số ở bảng trên có nghĩa là : với thu nhập trong một 
tuần chẳng hạn là X= 100$ thì có 6 gia đình mà chi tiêu 
trong tuần nằm giữa 65 và 88. 
• Hay nói khác đi, ở mỗi cột của bảng cho ta phân bố xác 
suất của số chi tiêu trong tuần Y với mức thu nhập đã cho 
X, đó chính là phân bố xác suất có điều kiện của Y với giá 
trị X đã cho. 
• Vì bảng 2.01 là tổng thể nên ta dễ dàng tìm P(Y/X). Chẳng 
hạn, P(Y=85/X=100)= 1/6. Ta có bảng xác suất có điều 
kiện sau đây : 
17 
 2.1. Khái niệm về hàm hồi quy tổng thể (PRF) 
Bảng 2.02 Xác suất có điều kiện của chi tiêu/thu nhập của 60 hộ gia đình 
X 80 100 120 140 160 180 200 220 240 260 
P(Y/X) 1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7 
P(Y/X) 1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7 
P(Y/X) 1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7 
P(Y/X) 1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7 
P(Y/X) 1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7 
P(Y/X) - 1/6 - 1/7 1/6 1/6 - 1/7 1/6 1/7 
P(Y/X) - - - 1/7 - - - 1/7 - 1/7 
E(Y/Xi) 65 77 89 101 113 125 137 149 161 173 
18 
)/()/( ij
j
ji XXYYPYXYE 
2.1. Khái niệm về hàm hồi quy tổng thể (PRF) 
• Chẳng hạn : 
= 65*1/6+ 70*1/6+ 74*1/6+ 80*1/6+ 85*1/6+ 88*1/6= 77 
 Biểu diễn các điểm của bảng 2.01 và các trung 
bình E(Y/Xi) với i = 1,,10 lên hệ tọa độ, ta được đồ thị 
sau đây : 
19 
)100/()100/(  XYYPYYE j
j
j
 2.1. Khái niệm về hàm hồi quy tổng thể (PRF) 
Hình 2.02. Biểu đồ phân tán Y theo X và giá trị trung bình của Y theo X 
200
150
100
50 80 100 120 140 160 180 200 220 240 26020 
Y (chi tiêu) 
X (thu nhập) 
 2.1. Khái niệm về hàm hồi quy tổng thể (PRF) 
Biểu đồ 2 cho thấy: 
• Mỗi »chấm » trên biểu đồ minh họa cho 1 quan 
sát thực tế, chính là tọa độ của cặp giá trị (Xi, Yi) 
• Nếu xét riêng từng hộ GĐ không thấy rõ xu hướng 
thay đổi của chi tiêu theo thu nhập. 
• Nếu xét theo nhóm hộ gia đình, ta thấy: 
• ứng với cùng một mức thu nhập, có nhiều mức chi 
tiêu khác nhau 
• nếu chỉ quan tâm đến chi tiêu trung bình (E(Y/Xi) thì 
thấy xu hướng tăng theo thu nhập. 
21 
 2.1. Khái niệm về hàm hồi quy tổng thể (PRF) 
 Vậy có thể xem E(Y/Xi) là một hàm nào đó của biến giải 
thích Xi và biểu diễn như sau: 
E(Y/Xi)= f(Xi) [1] 
• Phương trình [1] gọi là hàm hồi quy tổng thể- 
Population regression function (PRF). 
• PRF cho biết giá trị trung bình của Y sẽ thay đổi như 
thế nào khi X nhận các giá trị khác nhau. 
• Nếu PRF có một biến độc lập thì gọi là hồi quy đơn 
(hồi quy hai biến), PRF có từ hai biến độc lập trở 
lên thì gọi là hồi quy bội (hồi quy nhiều biến). 
22 
 2.1. Khái niệm về hàm hồi quy tổng thể (PRF) 
• Giả sử PRF E(Y/Xi) là hàm tuyến tính thì : 
E(Y/Xi)= β0+ β1Xi [2] 
β0, β1= hệ số hồi quy 
β0= hệ số chặn 
β1= hệ số góc 
• Phương trình [2] được gọi là phƣơng trình hồi quy 
tuyến tính đơn. 
23 
 2.1. Khái niệm về hàm hồi quy tổng thể (PRF) 
• Thuật ngữ “tuyến tính” được hiểu theo hai nghĩa: 
• Tuyến tính đối với tham số. 
Ví dụ: E(Y/Xi)= β0+ β1Xi
2 là hàm tuyến tính đối với 
tham số nhưng phi tuyến đối với biến. 
• Tuyến tính đối với biến. 
Ví dụ: E(Y/Xi)= β0+ Xi là hàm tuyến tính đối với 
biến nhưng phi tuyến với tham số. 
 Trong phạm vi của môn học, hàm hồi quy tuyến tính 
được hiểu là hồi quy tuyến tính đối với các tham số 
24 
1
2.2. Sai số ngẫu nhiên và bản chất của nó 
• Giả sử ta có hàm hồi quy tổng thể E(Y/Xi), vì E(Y/Xi) là 
giá trị trung bình của biến Y với giá trị Xi đã biết, cho nên 
các giá trị cá biệt Yi không phải bao giờ cũng trùng với 
E(Y/Xi), mà chúng xoay quanh E(Y/Xi). 
• Kí hiệu ui là chênh lệch giữa giá trị cá biệt Yi và E(Y/Xi), 
ta có : 
 ui= Yi- E(Y/Xi) [3] 
• Hay : Yi= E(Y/Xi)+ ui [4] 
 ui được gọi là biến ngẫu nhiên hay yếu tố ngẫu nhiên 
(hoặc nhiễu). 
25 
2.2. Sai số ngẫu nhiên và bản chất của nó 
• Vậy các biến ngẫu nhiên ảnh hưởng đến mô 
hình là các biến nào và có thể đưa vào mô hình 
được không ? 
• Câu trả lời là chúng ta có thể đưa nhiều biến 
ngẫu nhiên vào mô hình thông qua mô hình hồi 
quy bội, nhưng dù chúng ta có đưa vào bao 
nhiêu biến chăng nữa thì Ui vẫn tồn tại. (Vì 
sao?) 
26 
2.2. Sai số ngẫu nhiên và bản chất của nó 
• Không thể biết rõ hết tất cả các yếu tố tác động đến 
biến phụ thuộc Y Ui được sử dụng như yếu tố đại 
diện cho tất cả các biến tác động đến Y nhưng không 
có trong mô hình. 
• Không phải lúc nào ta cũng tìm được số liệu của các 
biến tác động đến biến Y phải loại các biến này 
khỏi mô hình. 
27 
2.2. Sai số ngẫu nhiên và bản chất của nó 
• Có một số biến giải thích cho biến phụ thuộc Y nhưng 
những tác động của chúng tới biến Y là không đáng kể 
 không đưa các biến này vào mô hình. Ui sẽ đại diện 
cho chúng. 
• Cần XĐ mục tiêu nghiên cứu sẽ có sự chọn lọc các 
biến đưa vào mô hình và làm nổi bật vai trò giải thích 
của các biến này đến biến phụ thuộc thay vì đưa vào 
mô hình một loạt các biến nhưng không tường minh. 
28 
2.3. Hàm hồi quy mẫu (SRF) 
• Trong thực tế, ta không có điều kiện để khảo sát toàn 
bộ tổng thể ta không thể xây dựng đƣợc hàm hồi 
quy tổng thể (PRF). 
• Khi đó ta chỉ có thể ước lượng giá trị trung bình của 
biến phụ thuộc, hay nói cách khác, ước lượng hàm 
PRF từ một hoặc một số mẫu lấy ra từ tổng thể 
• Tất nhiên, giá trị PRF mà ta ước lượng được khi đó 
không thể chính xác một cách tuyệt đối. 
• Hàm hồi quy đƣợc xây dựng trên cơ sở một mẫu 
đƣợc gọi là hàm hồi quy mẫu- SRF (Sample 
Regression Function). 
29 
2.3. Hàm hồi quy mẫu (SRF) 
• Ví dụ: Từ tổng thể 60 hộ gia đình, ta lấy ra ngẫu nhiên 
hai mẫu từ tổng thể này như sau : 
30 
Bảng 2.03. Mẫu thứ nhất- SRF1 
X 80 100 120 140 160 180 200 220 240 260 
Y 55 88 90 80 118 120 145 135 145 175 
Bảng 2.04. Mẫu thứ hai- SRF2 
X 80 100 120 140 160 180 200 220 240 260 
Y 70 65 90 95 110 115 120 140 155 150 
2.3. Hàm hồi quy mẫu (SRF) 
Hình 2.03. Biểu đồ phân tán và đƣờng hồi quy của hai mẫu SRF1 và SRF2 
31 
2.3. Hàm hồi quy mẫu (SRF) 
• Mỗi dấu “chấm” trên hình 2.03 minh họa cho một 
quan sát thực tế, là tọa độ của một cặp giá trị (Xi, Yi) 
• Từ sự phân tán của các cặp giá trị, chúng ta phác họa 
được đường SRF. 
• Đƣờng hồi quy của mẫu nào « gần » với đƣờng hồi 
quy tổng thể hơn ? 
• Ta chỉ có thể biết đường nào tốt hơn khi có đường hồi 
quy tổng thể, tuy nhiên, trên thực tế, điều này không 
có đƣợc do ta không thể khảo sát toàn bộ tổng thể. 
32 
2.3. Hàm hồi quy mẫu (SRF) 
• Mặc dù vậy, từ tổng thể, ta có thể rút ra được nhiều 
mẫu khác nhau và xây dựng được các đường hồi 
quy khác nhau. 
• Những đường hồi quy mẫu này đều là ước lượng 
xấp xỉ cho đường hồi quy tổng thể 
• Việc xem xét hàm hồi quy mẫu nào là xấp xỉ tốt 
cho hàm hồi quy tổng thể được xác định dựa theo 
một số tiêu chuẩn mà ta sẽ đề cập ở các phần sau. 
33 
2.3. Hàm hồi quy mẫu (SRF) 
• Hàm hồi quy mẫu được biểu diễn theo hàm hồi quy tổng 
thể tương ứng. 
• Ví dụ PRF có dạng : 
thì SRF được trình bày ở dạng tương ứng như sau : 
với là ước lượng của E(Y/Xi) ; , là ước lượng của β0, 
β1; là ước lượng của ui và được gọi là phần dư 
(residuals). 
34 
0 1
0 1
( / )
( / )
i i
i i i i i
E Y X X
Y E Y X u X u
 
 
0 1
0 1
ˆ ˆˆ
ˆ ˆˆ ˆ ˆ
i i
i i i i i
Y X
Y Y u X u
 
 
iYˆ 0ˆ 1ˆ
iuˆ
Mối liên hệ giữa SRF và PRF 
Hình 2.04. Đƣờng hồi quy tổng thể và đƣờng hồi quy mẫu 
35 
ii XYSRF 21
ˆˆˆ:  
ii XXYEPRF 21)/(:  
)/( iXYE )/( iXYE
iYˆ iYˆ
iY
iY
iU
iUˆ
X
iX
Y
Mối liên hệ giữa SRF và PRF 
• Đồ thị 2.04 cho thấy mối liên hệ giữa SRF và PRF. 
Với X= Xi, ta có một mẫu quan sát là Y= Yi. 
• Dưới dạng hàm hồi quy mẫu SRF, giá trị quan sát Yi 
được biểu diễn như sau : 
• Dưới dạng hàm hồi quy tổng thể PRF, Yi được viết như 
sau : 
Yi= E(Y/Xi)+ ui 
36 
iii uYY ˆ
ˆ 
Mối liên hệ giữa SRF và PRF 
• Bây giờ, ta có thấy rằng, ước lượng « trên » giá trị 
thực của E(Y/Xi) đối với những giá trị Xi nằm bên phải 
điểm A. Tương tự, ước lượng « dưới » giá trị thực 
của E(Y/Xi) đối với những giá trị Xi nằm bên trái điểm A. 
• Cần hiểu rằng việc ước lượng « trên » hay « dưới » giá trị 
thực là không thể tránh khỏi do có sự dao động 
(fluctuations) của việc lấy mẫu. 
37 
iYˆ
iYˆ
Mối liên hệ giữa SRF và PRF 
• Vậy có quy tắc hay phương pháp nào để tìm ra hàm 
hồi quy mẫu « gần » với hàm hồi quy tổng thể nhất 
không ? 
• Nói cách khác, làm thế nào để xác định được giá trị 
của các tham số , gần với giá trị thực của β1, β2 
nhất không, mặc dù trên thực tế, ta không bao giờ biết 
được các giá trị thực này. 
• Phương pháp được áp dụng để ước lượng , là 
phương pháp bình phương nhỏ nhất (Ordinary Least 
Square – OLS) 
38 
1ˆ 2ˆ
1ˆ 2ˆ
3. Phương pháp bình phương nhỏ nhất (OLS) 
• Phương pháp OLS (Ordinary Least Square) do nhà 
toán học Đức Carl Friedrich Gauss đưa ra. 
• Sử dụng phương pháp này kèm theo một vài giả thiết, 
các ước lượng thu được sẽ có một số tính chất đặc biệt, 
nhờ đó mà phương pháp này trở thành phương pháp 
mạnh nhất và phổ biến nhất trong phân tích hồi quy. 
39 
3.1. Nội dung phương pháp bình phương nhỏ nhất 
• Giả sử hàm hồi quy tổng thể xác định hai biến có dạng 
như sau : 
PRF: Yi= β0+ β1Xi+ ui [3.01] 
• Do không thể trực tiếp ước lượng hàm PRF nên ta sẽ 
ước lượng nó thông qua hàm hồi quy mẫu có dạng : 
 SRF: [3.02] 
Trong đó là giá trị dự đoán của Yi. 
40 
iYˆ
0 1 ii ii iY X u Y u  
3.1. Nội dung phương pháp bình phương nhỏ nhất 
Từ [3.02], ta có: 
[3.03] 
 [3.03] cho thấy ước lượng của biến ngẫu nhiên là 
chênh lệch giữa giá trị thực và giá trị dự đoán của Yi. 
 Nếu càng nhỏ thì chênh lệch giữa Yi và ước 
lượng càng nhỏ. Khi đó, giá trị của ước lượng 
càng gần với giá trị thực Yi. 
41 
ˆ ii iu Y Y 
iuˆ
iuˆ
iYˆiYˆ
3.1. Nội dung phương pháp bình phương nhỏ nhất 
• Giả sử có n cặp quan sát giữa Y và X, ta sẽ thử đi tìm 
giá trị của hàm SRF sao cho gần với giá trị thực 
của Y nhất có thể. 
• Để làm điều đó, ta sẽ áp dụng tiêu chuẩn: chọn hàm 
SRF nào có tổng các phần dư: 
 đạt cực tiểu. 
• Tuy nhiên, một cách trực quan, ta có thể thấy rằng đây 
không phải là phương pháp tối ưu vì các lý do sau đây. 
42 
)ˆ(ˆ
11
i
n
i
i
n
i
i YYu 
iY
3.1. Nội dung phương pháp bình phương nhỏ nhất 
Hình 3.01. Tiêu chuẩn bình phương nhỏ nhất 
43 
1ˆu
2uˆ
3uˆ
4uˆ
1X 2X 3X 4X X
Y
ii XY 21
ˆˆˆ  
SRF
iY
3.1. Nội dung phương pháp bình phương nhỏ nhất 
• Nếu áp dụng tiêu chuẩn cực tiểu hóa tổng các phần dư 
thì đồ thị 2.05 chỉ ra rằng các phần dư và tốt hơn 
các phần dư và vì chúng mang dấu âm (-). 
• Vai trò của tất cả các phần dư mà ta nhận được bị đồng 
nhất hóa bất kể giá trị của chúng « gần » hay « xa » 
với các giá trị quan sát phân tán xung quanh đường 
SRF. 
• Triệt tiêu ảnh hưởng của dấu 
44 
2uˆ 4uˆ
1ˆu 3uˆ
3.1. Nội dung phương pháp bình phương nhỏ nhất 
Chúng ta có thể khắc phục được tình trạng này bằng 
cách tìm giá trị của SRF sao cho : 
 [3.04] 
đạt giá trị cực tiểu. Trong đó, là tổng bình phương 
các phần dư. 
45 
2 2 2
0 1
1 1 1
ˆ ˆˆˆ ( ) ( )
n n n
i i i i i
i i i
u Y Y Y X 
   

n
i
iu
1
2ˆ
3.1. Nội dung phương pháp bình phương nhỏ nhất 
• Phương pháp này cho phép vai trò của của ; và 
và , ở trong ví dụ trên là như nhau. 
• Với tiêu chuẩn cực tiểu tổng các phần dư thì tổng giá 
trị các phần dư có thể rất nhỏ mặc dù chúng phân tán 
xa SRF đến đâu. Nhưng điều này lại không thể xảy ra 
trong quy trình bình phương tối thiểu vì nếu (giá trị 
tuyệt đối) càng lớn thì càng lớn. 
• Các có cùng độ lớn mà khác dấu sẽ không bị triệt 
tiêu nếu tính 
46 

n
i
iu
1
2ˆ
iuˆ
1ˆu 4uˆ
2uˆ 3uˆ
iuˆ

n
i
iu
1
2ˆ
3.1. Nội dung phương pháp bình phương nhỏ nhất 
Từ phương trình [3.03] ta có là một hàm của và 
47 

n
i
iu
1
2ˆ
0ˆ 1ˆ
2 2
0 1 0 1
1 1
ˆ ˆ ˆ ˆˆ ( , ) ( )
n n
i i i
i i
u f Y X   
  
• Ta biết rằng một hàm số f(X) đạt cực tiểu 
 ↔ 
48 
0)(''
0)('
Xf
Xf
3.1. Nội dung phương pháp bình phương nhỏ nhất 
3.1. Nội dung phương pháp bình phương nhỏ nhất 
• nên suy ra nếu coi là một hàm số thì đạt cực 
tiểu khi: 
49 

n
i
iu
1
2ˆ 
n
i
iu
1
2ˆ
0)(''
0)('
uf
uf
3.1. Nội dung phương pháp bình phương nhỏ nhất 
• Do đó, ta có và là nghiệm của hệ thống phương 
trình sau: 
50 
0ˆ 1ˆ
0 1
0 1
10
ˆ ˆ( , ) ˆ ˆ2( )( 1) 0
ˆ
n
i i
i
f
Y X
 
 
 



0 1
1 1
ˆ ˆ
n n
i i
i i
n X Y 
  
3.1. Nội dung phương pháp bình phương nhỏ nhất 
51 
0 1
0 1
11
ˆ ˆ( , ) ˆ ˆ2( )( ) 0
ˆ
n
i i i
i
f
Y X X
 
 
 



2
0 1
1 1 1
ˆ ˆ
n n n
i i i i
i i i
X X Y X 
   
3.1. Nội dung phương pháp bình phương nhỏ nhất 
• Như vậy, và được tìm từ hệ phương trình: 
• [3.05] 
• Hệ phương trình [3.05] được gọi là hệ phương trình 
chuẩn trong đó n là kích thước mẫu (hay chính là số 
lượng các quan sát). Giải hệ phương trình trên ta được: 
52 
0ˆ 1ˆ
0 1
1 1
ˆ ˆ
n n
i i
i i
n X Y 
  
2
0 1
1 1 1
ˆ ˆ
n n n
i i i i
i i i
X X Y X 
   
3.1. Nội dung phương pháp bình phương nhỏ nhất 
 [3.06] 
•Trong đó : và là giá trị trung bình mẫu của X và Y; 
53 
1 1 1 1
1
2 2 2
1 1 1
( )( )
ˆ
( ) ( )
n n n n
i i i i i i
i i i i
n n n
i i i
i i i
n X Y X Y X X Y Y
n X X X X
 
   
  
X Y
3.1. Nội dung phương pháp bình phương nhỏ nhất 
Thay vào hệ phương trình [3.05] ta sẽ thu được có 
giá trị là: 
 [3.07] 
 và là các ước lượng của β0 và β1 được tính bằng 
phương pháp OLS và được gọi là các ƣớc lƣợng bình 
phƣơng nhỏ nhất. 
54 
1ˆ 0ˆ
2
1 1 1 1
0 1
2 2
1 1
ˆ ˆ
( )
n n n n
i i i i i
i i i i
n n
i i
i i
X Y X X Y
Y X
n X X
  
   
 
0ˆ
1ˆ
X 80 100 120 140 160 180 200 220 240 260 
Y 55 65 79 80 102 110 120 135 137 150 
55 
Cho 1 mẫu ngẫu nhiên nhƣ sau: 
X: Thu nhập của cá nhân trong 1 ngày, tính bằng 1000 đồng 
Y: Chi tiêu của cá nhân trong 1 ngày, tính bằng 1000 đồng 
a. Tính các đặc trưng của X và Y 
b. Ước lượng các tham số của mô hình hồi quy trên. 
c. Viết phương trình hàm hồi quy mẫu. 
 3.2. Các tính chất của SRF theo OLS 
Tính chất của các tham số ƣớc lƣợng 
• 1) và là các ước lượng duy nhất ứng với 1 mẫu 
xác định gồm n quan sát (Xi, Yi) 
• 2) và là các ước lượng điểm của β1 và β2 
• 3) là các đại lượng ngẫu nhiên. Với các mẫu 
khác nhau chúng sẽ có giá trị khác nhau. 
56 
0ˆ 1ˆ
0ˆ 1ˆ
^ ^
0 1
àv 
 3.2. Các tính chất của SRF theo OLS 
Tính chất của đƣờng SRF: 
1. SRF đi qua điểm trung bình của dữ liệu mẫu 
2. Giá trị trung bình của bằng giá trị trung bình của 
các quan sát: 
3. Tổng các phần dư bằng 0: 
57 
iYˆ
YY ˆ
0ˆ
1
 
n
i
iu
( , )X Y
 3.2. Các tính chất của SRF theo OLS 
4. Các phần dư không tương quan với giá trị ước 
lượng : 
5. Các phần dư không tương quan với Xi: 
58 
iuˆ
iYˆ 0ˆˆ
1
 
n
i
iiuY
iuˆ 0ˆ
1
 
i
n
i
i Xu
59 
• SST (Total Sum of Squares - Tổng bình phương sai số 
tổng cộng) 
• SSE: (Explained Sum of Squares - Bình phương sai số 
được giải thích) 
• SSR: (Residual Sum of Squares - Tổng bình phương các 
phần dư) 
3.3. CÁC TỔNG BÌNH PHƢƠNG ĐỘ LỆCH 
2( )iSST Y Y 
2ˆ( )iSSE Y Y 
2
2
1
n
i
i
SSR ui iY Y
  
SSE 
SSR 
SRF 
SST 
Y 
X 
Yi 
Xi 
iYˆ
Hình 2.3: Ý nghĩa hình học của SST, SSR và SSE 
3.3. CÁC TỔNG BÌNH PHƢƠNG ĐỘ LỆCH 
60 
3.4. HỆ SỐ XÁC ĐỊNH R2 
1
SSE SSR
SST SST
61 
Ta chứng minh được: SST = SSE + SSR 
62 
Trong mô hình 2 biến: 
2
2
1
2 1
2
1
ˆ ( )
( )
n
i
n
i
i
R
i
XX
YY

 
 
3.4. HỆ SỐ XÁC ĐỊNH R2 
2 1
SSE SSR
R
SST SST
Hệ số xác định R2: đo mức độ phù hợp của hàm hồi quy 
mẫu. 
Nhược điểm: R2 tăng khi số biến X đưa vào mô 
hình tăng, dù biến đưa vào không có ý nghĩa. 
=>Sử dụng R2 điều chỉnh (adjusted R2 ,R2) để 
quyết định đưa thêm biến vào mô hình. 
TÍNH CHẤT CỦA HỆ SỐ XÁC ĐỊNH R2 
63 
0≤ R2≤1 
Cho biết % sự biến động của Y được giải thích 
bởi các biến số X trong mô hình. 
R2 =1: đường hồi quy phù hợp hoàn hảo 
R2 =0: X và Y không có quan hệ 
3.5. HỆ SỐ XÁC ĐỊNH ĐIỀU CHỈNHR2 
kn
n
)R(R
1
11 2
2
64 
• Khi đưa thêm biến vào mô hình màR2 tăng 
thì nên đưa biến vào và ngược lại. 
65 
Hệ số tƣơng quan r: đo mức độ chặt chẽ của quan hệ 
tuyến tính giữa 2 đại lượng X và Y. 
3.6. HỆ SỐTƢƠNG QUAN r 
1 1 1
,
2 2 2 2
1 1 1 1
cov( , )
( ) ( )
n n n
i i i i
i i i
X Y
n n n n
X Y
i i i i
i i i i
n X Y X Y
X Y
r
n X X n Y Y
 
  
   
66 
Các tính chất của hệ số tương quan r 
• r có thể âm hoặc dương, dấu của r phụ thuộc vào dấu 
của tử số, đó chính là dấu của cov(X,Y). 
• r nằm giữa -1 và 1, tức là -1 ≤ rx,y ≤ 1. 
• Nếu rx,y tiệm cận 1 các biến tương quan cùng 
chiều 
• Nếu rx,y tiệm cận -1 các biến tương quan ngược 
chiều 
• Nếu rx,y tiệm cận 0 các biến không tương quan 
67 
• r có tính chất đối xứng : r(x,y)= r(y,x) 
• r chỉ đo độ phụ thuộc tuyến tính giữa biến x và y, còn 
không có ý nghĩa trong các quan hệ phi tuyến. Đây là 
một hạn chế của hệ số tương quan r. 
• Quan hệ tương quan mà r đo lường giữa x và y không 
nhất thiết phải là quan hệ nhân quả. Đây là hạn chế thứ 
hai của hệ số tương quan r. 
68 
và r cùng dấu với 
VD: 
Với R2 = 0,81 => r = 0,9 
ii XY 75,025,6
ˆ 
1ˆ
Trong hồi qui đơn biến: 
2Rr 
3.7. Các giả thiết cơ bản của phương pháp OLS 
Giả thiết 1: Trong mô hình tổng thể Y có mối quan hệ 
với X và u: 
Giả thiết 2: Mẫu điều tra là mẫu ngẫu nhiên, kích cỡ n. 
Giả thiết 3: X có các giá trị không đồng nhất. 
69 
0 1
Y X u  
70 
Định lý 1: Ƣớc lƣợng không chệch của các tham số 
Với các giả thiết trên, ta có: 
Nghĩa là, là ước lượng không chệch của 
0 0 1 1
( ) , à ( )E v E    
0 1
àv  0 1àv 
Giả thiết 4: Các ui có phương sai thuần nhất 
(homoskedasticity), tức là các ui có phương sai giống 
nhau với bất kỳ giá trị nào của Xi 
 var (ui/Xi)= E[ui- E(ui/Xi)]
2= E(ui
2/Xi)= σ
2 
 Phương sai của nhiễu thực chất phản ánh mức độ dao động hay 
phân tán của biến phụ thuộc Y quanh giá trị trung bình có điều 
kiện. 
 Giả thiết 5 có nghĩa là Y dao động quanh giá trị trung bình 
E(Y/Xi) ứng với một giá trị của biến độc lập X nào đó với biên độ 
bằng nhau và không đổi. Tức là giá trị phƣơng sai có điều kiện 
của Y không thay đổi theo giá trị của X. 
71 
Hình 3.04. Phƣơng sai thuần nhất của nhiễu 
72 
f(u)
X1 X2 Xi X
Y
ii XYPRF 21:  
M
ậ
t 
đ
ộ
 x
á
c 
su
ấ
t 
củ
a
 u
i
• Trong thực tế, giả thiết 5 không phải lúc nào cũng thỏa mãn. 
• Ví dụ, chi tiêu của những nhóm người có thu nhập thấp và 
thu nhập cao thường có khuynh hướng khác nhau. 
• Đối với nhóm thu nhập thấp, chi tiêu thường tập trung vào 
những hàng hóa thiết yếu. 
• Đối với nhóm thu nhập cao, ngoài các mặt hàng thiết yếu, còn 
có khoản chi cho các mặt hàng xa xỉ hoặc giải trí 
• có sự không đồng đều về chi tiêu giữa các nhóm thu 
nhập khác nhau giá trị phương sai có điều kiện của Y 
thay đổi theo giá trị của X hiện tượng phương sai không 
thuần nhất hoặc phương sai sai số thay đổi 
(heteroscedasticity). 
73 
Hình 3.05. Phƣơng sai không thuần nhất của nhiễu 
74 
f(u)
X1 X2 Xi X
Y
ii XYPRF 21:  
M
ậ
t 
đ
ộ
 x
á
c
 s
u
ấ
t 
c
ủ
a
 u
i
Định lý 2: Phƣơng sai của các ƣớc lƣợng 
Với các giả thiết trên, ta có: 
σ2 = var(u/x )= phƣơng sai sai số 
22
1 2
1
ˆvar( )
n
x
i
i
SSTXX

 
 
2 1 2
1
0 2
1
ˆvar( )
n
i
i
n
i
X
i
n
XX



 
76 
Định lý 3: Ƣớc lƣợng không chệch của phƣơng sai sai 
số của tổng thể: 
Với các giả thiết 1-5, ta có: 
2 2
( )E  
3.8. Độ chính xác của các ước lượng OLS 
• Vì phƣơng sai hay độ lệch chuẩn đặc trưng cho độ 
phân tán của đại lượng ngẫu nhiên so với giá trị trung 
bình của chúng, nên ta dùng chúng làm thước đo cho 
chất lƣợng của ƣớc lƣợng. 
77 
3.8. Độ chính xác của các ước lượng OLS 
Phƣơng sai (var) và độ lệch chuẩn của các ƣớc lƣợng 
(sd) được cho bởi các công thức sau : 
• [3.08] [3.10] 
• [3.09] [3.11] 
σ2 = var(ui)= phƣơng sai sai số, sd: độ lệch chuẩn 
2
1 2
1
ˆvar( )
( )
n
i
i XX


 
1
2
1
ˆ( )
( )
n
i
sd
i XX


 
2
1
0 2
1
ˆ( )
( )
n
i
i
n
i
X
sd
n
i XX
  

 
2
21
0 2
1
ˆvar( )
( )
n
i
i
n
i
X
n
i XX
  

 
3.8. Độ chính xác của các ước lượng OLS 
• Vì σ2 khó biết được giá trị σ2 được ước lượng không 
chệch bằng công thức sau đây: 
 [3.12] 
• = ƣớc lƣợng không chệch của σ2 
• n- 2 = số bậc tự do (number of degrees of freedom- df) 
• = tổng bình phương các phần dư (residual sum of 
squares- RSS) 
79 
2
ˆ
ˆ 1
2
2

n
u
n
i
i

2ˆ

n
i
iu
1
2ˆ
3.8. Độ chính xác của các ước lượng OLS 
• Lắp giá trị của vào 3.08 và 3.09, ta có ước lượng 
không chệch của 
• Để có được ước lượng không chệch của , ta 
cần tính ước lượng của 
 [3.13] 
• 
• là sai số chuẩn của hồi quy 
80 
2ˆ
2
2 1
ˆ
ˆ
2 2
n
i
i
u
SSR
n n
  

1
0
ar à arV v V 
1
0
( ) à ( )sd v sd 


• [3.14] 
• là sai số chuẩn của 
3.8. Độ chính xác của các ước lượng OLS 
1
2
1
ˆ( )
( )
n
x
i
sd
i
SSTXX
 

 
1
( )
x
se
SST

 
1

1
( )se 
• = var(u/x) = var(y/x): phương sai sai số (error 
variance) 
• : độ lệch chuẩn của sai số. càng lớn sự phân tán 
của các giá trị ko quan sát được mà ảnh hưởng đến y càng 
lớn. 
• là phương sai của ước lượng 
• là độ lệch chuẩn của ước lượng 
• là ước lượng của 
• là ước lượng của , sai số chuẩn của hồi quy. 
• là sai số chuẩn của ước lượng 
82 
2

 
0 1
ar( ) à var( )v v 
0 1
( ) à ( )sd v sd 
2

2

2
  
0 1
( ) à ( )se v se 
3.9. Đơn vị đo 
• Ảnh hưởng của việc thay đổi đơn vị đo của biến phụ 
thuộc và biến độc lập đến giá trị ước lượng OLS 
• Ví dụ với bộ số liệu “CEO Salary and Return on Equity” 
Salary: lương hàng năm theo ngàn usd của CEO 
Roe (average return on equity): lợi nhuận trung bình từ 
đầu tư của công ty trong 3 năm trước, % 
 [1] 
Khi roe tăng 1%, lương được dự đoán là tăng 18501usd 
83 
963,191 18,501salary roe 
3.9. Đơn vị đo 
• Khi lương được tính theo usd salarydol = 1000salary 
• Đơn vị đo của roe không đổi 
• [2] 
 Khi đơn vị đo của biến độc lập ko đổi, đơn vị đo của 
biến phụ thuộc nhân hay chia một hằng số c khác 0 
 giá trị của các hệ số ƣớc lƣợng cũng nhân hoặc 
chia cho c. 
84 
963191 18501salarydol roe 
3.9. Đơn vị đo 
• Khi đơn vị đo của salary không đổi 
• Đơn vị đo của roedec = roe/100 
• [3] 
• Hệ số của roedec gấp 100 lần hệ số của roe ở [1] 
 Khi đơn vị đo của biến phụ thuộc giữ nguyên, đơn 
vị đo của biến độc lập nhân hay chia với hằng số 
sẽ chia hay nhân với c; nhƣng không đổi. 
Đơn vị đo của Y và X thay đổi ko ảnh hƣởng đến 
85 
963,191 1850,1salary roedec 
1

0

2
R
3.10. Dạng hàm 
Mô hình 
Biến phụ 
thuộc 
Biến độc 
lập 
Cách giải 
thích 
Lin - lin y x 
Lin-log y log(x) 
Log-lin log(y) x 
Log-log log(y) log(x) 
86 
1

1
y x 
1
( /100)%y x 
1
% (100 )y x 
1
% %y x 
3.10. Dạng hàm 
Xem số liệu về “Wage and Education” 
Wage: lương được đo bằng usd/1 giờ vào năm 1976 tại Mỹ 
Educ: số năm học tại trường 
1. Lin-lin: 
• Mỗi năm học tăng thêm được dự đoán làm tăng mức 
lương theo giờ là 54 cent. 
• Vì wage và educ có mối quan hệ tuyến tính mức ảnh 
hưởng đến lương của mỗi năm học lên cao đều bằng 54 
cent mức ảnh hưởng của năm học lên cao thứ nhất = 
năm học lên cao thứ 20. 
87 
w 0,90 0,54age educ 
3.10. Dạng hàm 
2. Log-lin: 
• Cách giải thích: 
• Mỗi năm học tăng thêm sẽ làm tăng lương ở một mức 
% cố định sự thay đổi về lương tăng khi số năm 
theo học tăng lợi ích tăng dần của việc học 
(increasing return to education) 
• Mỗi một năm học lên cao sẽ làm tăng lương 8.3%. 
• Học càng lên cao, giá trị càng lớn hơn 
88 
logw 0,584 0,083age educ 
1
% (100 )y x 
3.10. Dạng hàm 
89 
wage 
educ 
0 1 0 1
log(wage)= + educ+u w exp( )age educ u    
1
0, 0u  
3.10. Dạng hàm 
3. Lin-log: 
• Cách giải thích: 
• Khi giá hàng hóa X tăng 1% thì lượng cầu của loại 
hàng này giảm 0,94 ngàn chiếc. 
• (don vi: nghin chiec) 
90 
0,584 94,3log( )demand price 
1
/100)%(y x 
3.10. Dạng hàm 
4. Log-log: 
• Cách giải thích: 
• Khi giá hàng hóa X tăng 1% thì lượng cầu của loại 
hàng này giảm 0.25% 
91 
log(demand) 0,584 0,253log( )price 
1
% )%(y x 
• Giả thiết 4: Đại lượng sai số ngẫu nhiên (nhiễu) có kỳ 
vọng bằng 0, tức là: E(u/X)=0. 
 Giả thiết này có nghĩa là các yếu tố không có trong mô hình mà 
Ui đại diện cho chúng không có ảnh hưởng hệ thống đến giá trị 
trung bình của Y. Về mặt hình học, giả thiết này được mô tả bằng 
đồ thị (hình 3.03) 
 Đồ thị chỉ ra rằng với mỗi giá trị của X, các giá trị có thể có của 
Y xoay quanh giá trị trung bình. Phân bố của phần lớn hơn hay 
nhỏ hơn giá trị trung bình chính là các nhiễu ui mà theo giả thiết 
này trung bình của các chênh lệch này phải bằng 0. 
92 
Hình 3.03. Phân phối có điệu kiện của các nhiễu ui 
93 
X1 X2 X3 X4
ii XYPRF 21:  
iu 
iu 
Y
X
Giá trị trung bình

File đính kèm:

  • pdfbai_giang_mon_kinh_te_luong_chuong_2_mo_hinh_hoi_quy_hai_bie.pdf