Giải pháp lựa chọn mô hình hồi quy đơn biến

Trong nhiều nghiên cứu, các nhà khoa học đã thực hiện phân tích hồi quy đơn biến để xem xét sự phụ thuộc của một

biến (biến phụ thuộc) vào một biến khác (biến giải thích) để ước lượng hay dự đoán giá trị trung bình của biến phụ thuộc

trên cơ sở giá trị biết trước của các biến giải thích. Đây là việc làm thường xuyên của các nhà khoa học, tuy nhiên họ chưa

đưa ra những căn cứ khoa học lựa cho việc lựa chọn mô hình của mình. Tác giả đã tìm hiểu và giới thiệu 11 dạng mô hình

hồi quy đơn biến, đồng thời cung cấp những cơ sở khoa học giúp các nhà khoa học, học viên lựa chọn mô hình hồi quy đơn

biến phù hợp nhất cho nghiên cứu của mình.

pdf 5 trang kimcuc 17740
Bạn đang xem tài liệu "Giải pháp lựa chọn mô hình hồi quy đơn biến", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Giải pháp lựa chọn mô hình hồi quy đơn biến

Giải pháp lựa chọn mô hình hồi quy đơn biến
Tạp chí Khoa học - Công nghệ Thủy sản Số 2/2015
194 • TRƯỜNG ĐẠI HỌC NHA TRANG
VAÁN ÑEÀ TRAO ÑOÅI
GIẢI PHÁP LỰA CHỌN MÔ HÌNH HỒI QUY ĐƠN BIẾN
SOLUTION FOR SELECTING UNIVARIATE REGRESSION MODEL
Phạm Văn Thông1
Ngày nhận bài: 27/8/2014; Ngày phản biện thông qua: 27/11/2014; Ngày duyệt đăng: 10/6/2015
TÓM TẮT
Trong nhiều nghiên cứu, các nhà khoa học đã thực hiện phân tích hồi quy đơn biến để xem xét sự phụ thuộc của một 
biến (biến phụ thuộc) vào một biến khác (biến giải thích) để ước lượng hay dự đoán giá trị trung bình của biến phụ thuộc 
trên cơ sở giá trị biết trước của các biến giải thích. Đây là việc làm thường xuyên của các nhà khoa học, tuy nhiên họ chưa 
đưa ra những căn cứ khoa học lựa cho việc lựa chọn mô hình của mình. Tác giả đã tìm hiểu và giới thiệu 11 dạng mô hình 
hồi quy đơn biến, đồng thời cung cấp những cơ sở khoa học giúp các nhà khoa học, học viên lựa chọn mô hình hồi quy đơn 
biến phù hợp nhất cho nghiên cứu của mình.
Từ khóa: Hồi quy đơn biến
ABSTRACT 
In many studies, scientists have conducted univariate regression analyses to examine the dependence of a variable (a 
dependent variable) on another variable (an explanatory variable). Then they can estimate or predict the average value of 
dependent variables basing on known-value of the explanatory variables. Scientists have carried out in this way frequently; 
however, they have not shown scientifi c foundations of their univariate regression models. The author have studied and 
introduced 11 types of univariate regression models, and provided scientifi c foundations in order to help scientists and 
students choose the best univariate regression models in their researches . 
Keyword: Univariate Regression
1 ThS. Phạm Văn Thông: Viện Khoa học và Công nghệ khai thác thủy sản - Trường Đại học Nha Trang
I. MỞ ĐẦU
Hồi quy đơn biến là mô hình thống kê được sử dụng 
để dự đoán giá trị của biến phụ thuộc (dependence 
variable) hay còn gọi là biến kết quả dựa vào những 
giá trị của một biến độc lập (independence variable) 
hay còn gọi là biến nguyên nhân.
Hiện nay, các nhà nghiên cứu, các học viên cao 
học thường hồi quy theo mô hình đường thẳng 
(linear) mà chưa đưa ra được cơ sở lý luận khoa 
học để giải thích vì sao chọn mô hình đường thẳng 
hay bất kỳ dạng mô hình nào khác. Một số khác đưa 
ra dẫn chứng chưa thuyết phục như dạng mô hình 
này đơn giản, dễ tính toán.
Bài báo này cung cấp cho các nhà nghiên cứu, 
các học viên cao học và độc giả nói chung cơ sở lý 
luận khoa học đúng đắn giải thích cho việc lựa mô 
hình hồi quy của mình.
II. NỘI DUNG
1. Phân tích các dạng mô hình
Với sự phát triển mạnh mẽ của công nghệ 
thông tin, việc hồi quy không cần nhiều thời gian 
tính toán như trước mà nó được trợ giúp bởi rất 
nhiều phần mềm từ đơn giản như Microsoft Excel 
đến phần mềm PASW Statistics 18 hay phần mềm 
R, phần mềm Eview, phần mềm Stata Tuy nhiên 
trong bài báo này tôi muốn đề cập một số khía cạnh 
của hai phần mềm đơn giản và thông dụng hiện nay 
là Microsoft Excel 2010 và PASW Statistics 18.
- Microsoft Excel 2010 là công cụ phổ thông, 
đơn giản trong tính toán, có hỗ trợ hồi quy đơn biến, 
tuy nhiên số lượng mô hình mà Excel 2010 đưa ra ít 
(chỉ 6 dạng mô hình). Khi hồi quy từ Excel 2010, kết 
quả chỏ có phương trình hồi quy với hệ số tương 
quan giữa biến độc lập và biến phụ thuộc mà chưa 
cung cấp được các chỉ số để đánh giá mô hình 
Tạp chí Khoa học - Công nghệ Thủy sản Số 2/2015
TRƯỜNG ĐẠI HỌC NHA TRANG • 195
hồi quy hay các chỉ số tồn tại trong phương trình 
hồi quy.
Các dạng mô hình hồi quy mà Excel 2010 cung 
cấp như sau [4]:
1. Linear: Y = b0 + (b1 * X)
2. Logarithmic: Y = b0 + (b1 * ln(X))
3. Polynomial: Y = b0 + (b1 * X) + (b2 * X
2) (dạng bậc 2)
Dạng bậc 3: Y = b0 + (b1 * X) + (b2 * X
2) + (b3 * X
3)
4. Power: Y = b0 * (X
b1) hoặc ln(Y) = ln(b0) + (b1 * ln(X))
5. Exponentail: Y = b0 * (e
(b1 * X)) hoặc ln(Y) = ln(b0) + (b1 * X)
6. Moving Average: Không có dạng phương trình.
- Trong khi đó phần mềm PASW Statistics 18 
cung cấp nhiều dạng mô hình hồi quy (11 dạng mô 
hình), đồng thời cung cấp các tham số số như R2 
điều chỉnh, giá trị Sig trong bảng Anova để đánh 
giá sự phù hợp của mô hình, giá trị Sig trong bảng 
Coeffi cients để đánh giá các tham số hồi quy có ý 
nghĩa không, đồng thời cũng cho biết giá trị hệ số 
tương quan giữa biến độc lập và biến phụ thuộc.
Các dạng mô hình hồi quy mà PASW Statistics 
18 cung cấp như sau [5,6]:
1. Linear: Y = b0 + (b1 * X)
2. Logarithmic: Y = b0 + (b1 * ln(X))
3. Inverse: Y = b0 + (b1 / X)
4. Quadratic: Y = b0 + (b1 * X) + (b2 * X
2)
5. Cubic: Y = b0 + (b1 * X) + (b2 * X
2) + (b3 * X
3)
6. Power: Y = b0 * (X
b1) hoặc ln(Y) = ln(b0) + (b1 * ln(X))
7. Compound: Y = b0 * (b1
X) hoặc ln(Y) = ln(b0) + (ln(b1) * X)
8. S-curve: Y = e(b0 + (b1/X)) hoặc ln(Y) = b0 + (b1/X)
9. Logistic: Y = 1 / (1/u + (b0 * (b1
X)) hoặc ln(1/y-1/u)= 
ln (b0) + (ln(b1)*X). u là giá trị giới hạn trên, nó mang 
giá trị dương và lớn hơn giá trị lớn nhất của biến 
phụ thuộc. Ví dụ giá trị lớn nhất của biến phụ thuộc 
là 100 thì u chọn là 101 (u=101).
10. Growth: Y = e(b0 + (b1 * X)) hoặc ln(Y) = b0 + (b1 * X)
11. Exponential: Y = b0 * (e
(b1 * X)) hoặc ln(Y) = ln(b0) + (b1 * X)
Chú giải: b0 là các hằng số; b1 là hệ số hồi quy 
được; X là biến độc lập; Y là biến phụ thuộc.
Tiêu chí đánh giá [1,2]:
- Tham số R bình phương hiệu chỉnh (adjusted 
R square) cho biết mức độ % sự biến thiên của biến 
phụ thuộc được giải thích bởi biến độc lập. R bình 
phương hiệu chỉnh càng cao càng tốt vì biến độc lập 
giải thích được nhiều cho biến phụ thuộc.
- Giá trị Sig (P-value) của bảng anova dùng để 
đánh giá sự phù hợp (tồn tại) của mô hình. Giá trị 
Sig nhỏ (thường <5%) thì mô hình tồn tại trong điều 
kiện độ tin cậy chấp nhận là 5%.
- Gía trị Sig trong bảng coeffi cients cho biết các 
tham số hồi quy có ý nghĩa hay không, với độ tin cậy 
95% thì Sig<5% là có ý nghĩa.
- Hệ số tương quan cho biết mức độ tương 
quan giữa biến phụ thuộc và biến độc lập (thường 
sử dụng hệ số tương quan pearson).
Với những hạn chế của Excel nói chung, nên 
tôi chọn SPSS để thực hiện đồng loạt các mô hình 
này. Tôi sử dụng chức năng đường cong ước lượng 
(curve estimation) trong SPSS.
Bảng 1. Số liệu dùng để phân tích curve estimation trong PASW Statistics 18 
TT Kn SL TT Kn SL TT Kn SL
1 7 5.500 21 12 8.000 41 16 9.500
2 5 3.000 22 10 9.000 42 9 7.500
3 7 5.000 23 11 8.500 43 10 9.500
4 6 4.500 24 14 8.000 44 13 8.000
5 5 4.000 25 12 7.000 45 15 9.500
6 7 5.500 26 12 7.000 46 12 8.000
7 6 4.500 27 8 6.500 47 15 9.000
8 10 5.500 28 9 5.500 48 14 10.000
9 7 4.000 29 13 10.000 49 14 8.500
10 8 4.500 30 8 5.500 50 15 8.500
11 9 5.000 31 8 5.500 51 13 10.000
12 11 7.500 32 8 4.500 52 13 8.000
13 9 7.000 33 11 9.000 53 10 7.500
14 8 6.500 34 10 7.000 54 15 9.000
15 10 7.500 35 9 7.000 55 11 8.500
16 10 7.500 36 12 7.500 56 15 8.500
17 9 8.000 37 14 9.500 57 14 9.500
18 11 8.500 38 17 10.000 58 12 10.000
19 10 8.000 39 13 7.500 59 12 10.000
20 7 5.500 40 13 7.500 60 14 7.500
Chú giải: - Kn-Kinh nghiệm thuyền trưởng, đơn vị tính là năm; SL- Sản lượng khai thác của nghề lưới kéo ven bờ tại thành phố Nha Trang, 
 đơn vị tình là kg.
 - Số liệu trong bảng 1 được lấy ngẫu nhiên bằng hàm randbetween(min, max) trong excel.
Tạp chí Khoa học - Công nghệ Thủy sản Số 2/2015
196 • TRƯỜNG ĐẠI HỌC NHA TRANG
2. Kết quả
Hình 1. Chọn các mô hình hồi quy trong PASW Statistics 18 
Bảng 2. Tổng hợp các tham số để đánh giá mô hình hồi quy
TT Dạng mô hình R2 điều chỉnh Sig. (Anova) Sig. (Coeffi cients)
1 Linear 0,673 0,000
Kn
Hằng số
0,000
0,001
2 Logarithmic 0,715 0,000 KnHằng số
0,000
0,000
3 Inverse 0,713 0,000 1/ KnHằng số
0,000
0,000
4 Quadratic 0,722 0,000
Kn
Kn2
Hằng số
0,000
0,000
0,052
5 Cubic 0,717 0,000
Kn
Kn2
Kn3
Hằng số
0,165
0,518
0,767
0,336
6 Power 0,737 0,000 Ln(Kn)Hằng số
0,000
0,000
7 Compound 0,668 0,000 KnHằng số
 0,000
0,000
8 S-curve 0,764 0,000 1/KnHằng số
0,000
0,000
9 Logistic 0,276 0,000 KnHằng số
0,000
0,374
10 Growth 0,668 0,000 KnHằng số
 0,000
0,000
11 Exponential 0,668 0,000 KnHằng số
0,000
0,000
Tạp chí Khoa học - Công nghệ Thủy sản Số 2/2015
TRƯỜNG ĐẠI HỌC NHA TRANG • 197
Từ bảng 2 cho thấy: 
- R bình phương hiệu chỉnh nhỏ nhất (0,276) ở 
mô hình Logistic và R bình phương hiệu chỉnh cao 
nhất ở mô hình S-curve (0,764).
- Các mô hình hồi quy đều phù hợp ở độ tin cậy 
95% bởi giá trị Sig ở bảng anova đều nhỏ hơn 5% 
(Sig=0,000<0,05).
- Các mô hình Quadratic, Cubic và Logistic khi 
hồi quy cho ra giá trị Sig ở bảng coeffi cients lớn hơn 
5% nên các tham số hồi quy không có ý nghĩa ở độ 
tin cậy 95%. Do vậy các dạng mô hình hồi quy này 
sẽ bị loại, không được xem xét lựa chọn.
Bảng 3. Hệ số tương quan giữa Kn và SL
Correlations
Kn SL
Kn Pearson Correlation 1 0,824**
Sig. (2-tailed) 0,000
N 60 60
SL Pearson Correlation 0,824** 1
Sig. (2-tailed) 0,000
N 60 60
**. Correlation is signifi cant at the 0.01 level (2-tailed).
Từ bảng 3 cho thấy, SL và Kn có mối tương quan rất cao [3] với r2=0,824.
Bảng 4. Phương trình hồi quy đơn biến giữa biến Kn và SL
TT Dạng mô hình Phương trình hồi quy đơn biến
1 Linear SL=1855,832+511,680Kn
2 Logarithmic SL= -5003,975+ 5293,777ln(Kn)
3 Inverse SL= 12231,766-(48097,374/Kn)
4 Quadratic SL= -3073,072+1496,439Kn-45,616Kn2
5 Cubic SL= -4314,503+1886,414Kn-83,898Kn2+1,187Kn3
6 Power SL= 1039,758+Kn 0,822
7 Compound SL= 3064,606+1,081Kn
8 S-curve SL= e (9,639-(7,620/Kn))
9 Logistic SL= 1/(1/10001+(0,003*(0,619Kn)))
10 Growth SL= e (8,028+(,078*Kn))
11 Exponential SL= 3064,606*(e (0,078*Kn))
Hình 2. Biểu diễn các dạng mô hình hồi quy
Tạp chí Khoa học - Công nghệ Thủy sản Số 2/2015
198 • TRƯỜNG ĐẠI HỌC NHA TRANG
So sánh các điều kiện lựa chọn mô hình hồi 
quy phù hợp [1, 2], từ kết quả bảng 2, 3 và 4, tôi 
chọn mô hình S-curve cho hồi quy của mình. Kết 
quả phương trình hồi quy thu được SL= e (9,639-(7,620/
Kn)). Có tới 76% sự biến thiên của biến SL được giải 
thích bởi biến Kn, cao hơn so với các mô hình khác, 
đồng thời mô hình và các tham số hồi quy đều tồn 
tại và phù hợp.
III. KẾT LUẬN 
SL và Kn có mối tương quan rất cao.
Mô hình hồi quy phù hợp để hồi quy số liệu trên 
là mô hình S-curve.
Để áp dụng và giải quyết tốt hơn mục tiêu đề ra 
ta cần áp dụng phương pháp này trong từng nghiên 
cứu cụ thể và so sánh đối chiếu với thực tiễn.
TÀI LIỆU THAM KHẢO
 Tiếng Việt
1. Nguyễn Văn Chức (2013). Phân tích hồi quy tuyến tính với SPSS. Diễn đàn giải pháp kinh doanh thông minh (BIS) (http://
bis.net.vn/forums/p/722/1565.aspx).
2. Hoàng Trọng và Chu Nguyễn Mộng Ngọc (2005). Phân tích dữ liệu nghiên cứu với SPSS. NXB Thống kê.
3. Nguyễn Văn Tuấn (2007). Chương trình huấn luyện y hoa - ykhoa.net.
 Tiếng Anh
4. Information Technology Services. Excel 2010-Basic learning guide. Tufts University.
5. PASW Statistics 18 Core System User’s Guide.
6. Thomas, M. S. C., Annaz, D., Ansari, D., Serif, G., Jarrold, C., & Karmiloff-Smith, A. (2009). Using developmental trajectories 
to understand developmental disorders. Journal of Speech, Language, and Hearing Research, 52, 336-358. 

File đính kèm:

  • pdfgiai_phap_lua_chon_mo_hinh_hoi_quy_don_bien.pdf