Giải pháp lựa chọn mô hình hồi quy đơn biến
Trong nhiều nghiên cứu, các nhà khoa học đã thực hiện phân tích hồi quy đơn biến để xem xét sự phụ thuộc của một
biến (biến phụ thuộc) vào một biến khác (biến giải thích) để ước lượng hay dự đoán giá trị trung bình của biến phụ thuộc
trên cơ sở giá trị biết trước của các biến giải thích. Đây là việc làm thường xuyên của các nhà khoa học, tuy nhiên họ chưa
đưa ra những căn cứ khoa học lựa cho việc lựa chọn mô hình của mình. Tác giả đã tìm hiểu và giới thiệu 11 dạng mô hình
hồi quy đơn biến, đồng thời cung cấp những cơ sở khoa học giúp các nhà khoa học, học viên lựa chọn mô hình hồi quy đơn
biến phù hợp nhất cho nghiên cứu của mình.
Bạn đang xem tài liệu "Giải pháp lựa chọn mô hình hồi quy đơn biến", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
Tóm tắt nội dung tài liệu: Giải pháp lựa chọn mô hình hồi quy đơn biến
Tạp chí Khoa học - Công nghệ Thủy sản Số 2/2015 194 • TRƯỜNG ĐẠI HỌC NHA TRANG VAÁN ÑEÀ TRAO ÑOÅI GIẢI PHÁP LỰA CHỌN MÔ HÌNH HỒI QUY ĐƠN BIẾN SOLUTION FOR SELECTING UNIVARIATE REGRESSION MODEL Phạm Văn Thông1 Ngày nhận bài: 27/8/2014; Ngày phản biện thông qua: 27/11/2014; Ngày duyệt đăng: 10/6/2015 TÓM TẮT Trong nhiều nghiên cứu, các nhà khoa học đã thực hiện phân tích hồi quy đơn biến để xem xét sự phụ thuộc của một biến (biến phụ thuộc) vào một biến khác (biến giải thích) để ước lượng hay dự đoán giá trị trung bình của biến phụ thuộc trên cơ sở giá trị biết trước của các biến giải thích. Đây là việc làm thường xuyên của các nhà khoa học, tuy nhiên họ chưa đưa ra những căn cứ khoa học lựa cho việc lựa chọn mô hình của mình. Tác giả đã tìm hiểu và giới thiệu 11 dạng mô hình hồi quy đơn biến, đồng thời cung cấp những cơ sở khoa học giúp các nhà khoa học, học viên lựa chọn mô hình hồi quy đơn biến phù hợp nhất cho nghiên cứu của mình. Từ khóa: Hồi quy đơn biến ABSTRACT In many studies, scientists have conducted univariate regression analyses to examine the dependence of a variable (a dependent variable) on another variable (an explanatory variable). Then they can estimate or predict the average value of dependent variables basing on known-value of the explanatory variables. Scientists have carried out in this way frequently; however, they have not shown scientifi c foundations of their univariate regression models. The author have studied and introduced 11 types of univariate regression models, and provided scientifi c foundations in order to help scientists and students choose the best univariate regression models in their researches . Keyword: Univariate Regression 1 ThS. Phạm Văn Thông: Viện Khoa học và Công nghệ khai thác thủy sản - Trường Đại học Nha Trang I. MỞ ĐẦU Hồi quy đơn biến là mô hình thống kê được sử dụng để dự đoán giá trị của biến phụ thuộc (dependence variable) hay còn gọi là biến kết quả dựa vào những giá trị của một biến độc lập (independence variable) hay còn gọi là biến nguyên nhân. Hiện nay, các nhà nghiên cứu, các học viên cao học thường hồi quy theo mô hình đường thẳng (linear) mà chưa đưa ra được cơ sở lý luận khoa học để giải thích vì sao chọn mô hình đường thẳng hay bất kỳ dạng mô hình nào khác. Một số khác đưa ra dẫn chứng chưa thuyết phục như dạng mô hình này đơn giản, dễ tính toán. Bài báo này cung cấp cho các nhà nghiên cứu, các học viên cao học và độc giả nói chung cơ sở lý luận khoa học đúng đắn giải thích cho việc lựa mô hình hồi quy của mình. II. NỘI DUNG 1. Phân tích các dạng mô hình Với sự phát triển mạnh mẽ của công nghệ thông tin, việc hồi quy không cần nhiều thời gian tính toán như trước mà nó được trợ giúp bởi rất nhiều phần mềm từ đơn giản như Microsoft Excel đến phần mềm PASW Statistics 18 hay phần mềm R, phần mềm Eview, phần mềm Stata Tuy nhiên trong bài báo này tôi muốn đề cập một số khía cạnh của hai phần mềm đơn giản và thông dụng hiện nay là Microsoft Excel 2010 và PASW Statistics 18. - Microsoft Excel 2010 là công cụ phổ thông, đơn giản trong tính toán, có hỗ trợ hồi quy đơn biến, tuy nhiên số lượng mô hình mà Excel 2010 đưa ra ít (chỉ 6 dạng mô hình). Khi hồi quy từ Excel 2010, kết quả chỏ có phương trình hồi quy với hệ số tương quan giữa biến độc lập và biến phụ thuộc mà chưa cung cấp được các chỉ số để đánh giá mô hình Tạp chí Khoa học - Công nghệ Thủy sản Số 2/2015 TRƯỜNG ĐẠI HỌC NHA TRANG • 195 hồi quy hay các chỉ số tồn tại trong phương trình hồi quy. Các dạng mô hình hồi quy mà Excel 2010 cung cấp như sau [4]: 1. Linear: Y = b0 + (b1 * X) 2. Logarithmic: Y = b0 + (b1 * ln(X)) 3. Polynomial: Y = b0 + (b1 * X) + (b2 * X 2) (dạng bậc 2) Dạng bậc 3: Y = b0 + (b1 * X) + (b2 * X 2) + (b3 * X 3) 4. Power: Y = b0 * (X b1) hoặc ln(Y) = ln(b0) + (b1 * ln(X)) 5. Exponentail: Y = b0 * (e (b1 * X)) hoặc ln(Y) = ln(b0) + (b1 * X) 6. Moving Average: Không có dạng phương trình. - Trong khi đó phần mềm PASW Statistics 18 cung cấp nhiều dạng mô hình hồi quy (11 dạng mô hình), đồng thời cung cấp các tham số số như R2 điều chỉnh, giá trị Sig trong bảng Anova để đánh giá sự phù hợp của mô hình, giá trị Sig trong bảng Coeffi cients để đánh giá các tham số hồi quy có ý nghĩa không, đồng thời cũng cho biết giá trị hệ số tương quan giữa biến độc lập và biến phụ thuộc. Các dạng mô hình hồi quy mà PASW Statistics 18 cung cấp như sau [5,6]: 1. Linear: Y = b0 + (b1 * X) 2. Logarithmic: Y = b0 + (b1 * ln(X)) 3. Inverse: Y = b0 + (b1 / X) 4. Quadratic: Y = b0 + (b1 * X) + (b2 * X 2) 5. Cubic: Y = b0 + (b1 * X) + (b2 * X 2) + (b3 * X 3) 6. Power: Y = b0 * (X b1) hoặc ln(Y) = ln(b0) + (b1 * ln(X)) 7. Compound: Y = b0 * (b1 X) hoặc ln(Y) = ln(b0) + (ln(b1) * X) 8. S-curve: Y = e(b0 + (b1/X)) hoặc ln(Y) = b0 + (b1/X) 9. Logistic: Y = 1 / (1/u + (b0 * (b1 X)) hoặc ln(1/y-1/u)= ln (b0) + (ln(b1)*X). u là giá trị giới hạn trên, nó mang giá trị dương và lớn hơn giá trị lớn nhất của biến phụ thuộc. Ví dụ giá trị lớn nhất của biến phụ thuộc là 100 thì u chọn là 101 (u=101). 10. Growth: Y = e(b0 + (b1 * X)) hoặc ln(Y) = b0 + (b1 * X) 11. Exponential: Y = b0 * (e (b1 * X)) hoặc ln(Y) = ln(b0) + (b1 * X) Chú giải: b0 là các hằng số; b1 là hệ số hồi quy được; X là biến độc lập; Y là biến phụ thuộc. Tiêu chí đánh giá [1,2]: - Tham số R bình phương hiệu chỉnh (adjusted R square) cho biết mức độ % sự biến thiên của biến phụ thuộc được giải thích bởi biến độc lập. R bình phương hiệu chỉnh càng cao càng tốt vì biến độc lập giải thích được nhiều cho biến phụ thuộc. - Giá trị Sig (P-value) của bảng anova dùng để đánh giá sự phù hợp (tồn tại) của mô hình. Giá trị Sig nhỏ (thường <5%) thì mô hình tồn tại trong điều kiện độ tin cậy chấp nhận là 5%. - Gía trị Sig trong bảng coeffi cients cho biết các tham số hồi quy có ý nghĩa hay không, với độ tin cậy 95% thì Sig<5% là có ý nghĩa. - Hệ số tương quan cho biết mức độ tương quan giữa biến phụ thuộc và biến độc lập (thường sử dụng hệ số tương quan pearson). Với những hạn chế của Excel nói chung, nên tôi chọn SPSS để thực hiện đồng loạt các mô hình này. Tôi sử dụng chức năng đường cong ước lượng (curve estimation) trong SPSS. Bảng 1. Số liệu dùng để phân tích curve estimation trong PASW Statistics 18 TT Kn SL TT Kn SL TT Kn SL 1 7 5.500 21 12 8.000 41 16 9.500 2 5 3.000 22 10 9.000 42 9 7.500 3 7 5.000 23 11 8.500 43 10 9.500 4 6 4.500 24 14 8.000 44 13 8.000 5 5 4.000 25 12 7.000 45 15 9.500 6 7 5.500 26 12 7.000 46 12 8.000 7 6 4.500 27 8 6.500 47 15 9.000 8 10 5.500 28 9 5.500 48 14 10.000 9 7 4.000 29 13 10.000 49 14 8.500 10 8 4.500 30 8 5.500 50 15 8.500 11 9 5.000 31 8 5.500 51 13 10.000 12 11 7.500 32 8 4.500 52 13 8.000 13 9 7.000 33 11 9.000 53 10 7.500 14 8 6.500 34 10 7.000 54 15 9.000 15 10 7.500 35 9 7.000 55 11 8.500 16 10 7.500 36 12 7.500 56 15 8.500 17 9 8.000 37 14 9.500 57 14 9.500 18 11 8.500 38 17 10.000 58 12 10.000 19 10 8.000 39 13 7.500 59 12 10.000 20 7 5.500 40 13 7.500 60 14 7.500 Chú giải: - Kn-Kinh nghiệm thuyền trưởng, đơn vị tính là năm; SL- Sản lượng khai thác của nghề lưới kéo ven bờ tại thành phố Nha Trang, đơn vị tình là kg. - Số liệu trong bảng 1 được lấy ngẫu nhiên bằng hàm randbetween(min, max) trong excel. Tạp chí Khoa học - Công nghệ Thủy sản Số 2/2015 196 • TRƯỜNG ĐẠI HỌC NHA TRANG 2. Kết quả Hình 1. Chọn các mô hình hồi quy trong PASW Statistics 18 Bảng 2. Tổng hợp các tham số để đánh giá mô hình hồi quy TT Dạng mô hình R2 điều chỉnh Sig. (Anova) Sig. (Coeffi cients) 1 Linear 0,673 0,000 Kn Hằng số 0,000 0,001 2 Logarithmic 0,715 0,000 KnHằng số 0,000 0,000 3 Inverse 0,713 0,000 1/ KnHằng số 0,000 0,000 4 Quadratic 0,722 0,000 Kn Kn2 Hằng số 0,000 0,000 0,052 5 Cubic 0,717 0,000 Kn Kn2 Kn3 Hằng số 0,165 0,518 0,767 0,336 6 Power 0,737 0,000 Ln(Kn)Hằng số 0,000 0,000 7 Compound 0,668 0,000 KnHằng số 0,000 0,000 8 S-curve 0,764 0,000 1/KnHằng số 0,000 0,000 9 Logistic 0,276 0,000 KnHằng số 0,000 0,374 10 Growth 0,668 0,000 KnHằng số 0,000 0,000 11 Exponential 0,668 0,000 KnHằng số 0,000 0,000 Tạp chí Khoa học - Công nghệ Thủy sản Số 2/2015 TRƯỜNG ĐẠI HỌC NHA TRANG • 197 Từ bảng 2 cho thấy: - R bình phương hiệu chỉnh nhỏ nhất (0,276) ở mô hình Logistic và R bình phương hiệu chỉnh cao nhất ở mô hình S-curve (0,764). - Các mô hình hồi quy đều phù hợp ở độ tin cậy 95% bởi giá trị Sig ở bảng anova đều nhỏ hơn 5% (Sig=0,000<0,05). - Các mô hình Quadratic, Cubic và Logistic khi hồi quy cho ra giá trị Sig ở bảng coeffi cients lớn hơn 5% nên các tham số hồi quy không có ý nghĩa ở độ tin cậy 95%. Do vậy các dạng mô hình hồi quy này sẽ bị loại, không được xem xét lựa chọn. Bảng 3. Hệ số tương quan giữa Kn và SL Correlations Kn SL Kn Pearson Correlation 1 0,824** Sig. (2-tailed) 0,000 N 60 60 SL Pearson Correlation 0,824** 1 Sig. (2-tailed) 0,000 N 60 60 **. Correlation is signifi cant at the 0.01 level (2-tailed). Từ bảng 3 cho thấy, SL và Kn có mối tương quan rất cao [3] với r2=0,824. Bảng 4. Phương trình hồi quy đơn biến giữa biến Kn và SL TT Dạng mô hình Phương trình hồi quy đơn biến 1 Linear SL=1855,832+511,680Kn 2 Logarithmic SL= -5003,975+ 5293,777ln(Kn) 3 Inverse SL= 12231,766-(48097,374/Kn) 4 Quadratic SL= -3073,072+1496,439Kn-45,616Kn2 5 Cubic SL= -4314,503+1886,414Kn-83,898Kn2+1,187Kn3 6 Power SL= 1039,758+Kn 0,822 7 Compound SL= 3064,606+1,081Kn 8 S-curve SL= e (9,639-(7,620/Kn)) 9 Logistic SL= 1/(1/10001+(0,003*(0,619Kn))) 10 Growth SL= e (8,028+(,078*Kn)) 11 Exponential SL= 3064,606*(e (0,078*Kn)) Hình 2. Biểu diễn các dạng mô hình hồi quy Tạp chí Khoa học - Công nghệ Thủy sản Số 2/2015 198 • TRƯỜNG ĐẠI HỌC NHA TRANG So sánh các điều kiện lựa chọn mô hình hồi quy phù hợp [1, 2], từ kết quả bảng 2, 3 và 4, tôi chọn mô hình S-curve cho hồi quy của mình. Kết quả phương trình hồi quy thu được SL= e (9,639-(7,620/ Kn)). Có tới 76% sự biến thiên của biến SL được giải thích bởi biến Kn, cao hơn so với các mô hình khác, đồng thời mô hình và các tham số hồi quy đều tồn tại và phù hợp. III. KẾT LUẬN SL và Kn có mối tương quan rất cao. Mô hình hồi quy phù hợp để hồi quy số liệu trên là mô hình S-curve. Để áp dụng và giải quyết tốt hơn mục tiêu đề ra ta cần áp dụng phương pháp này trong từng nghiên cứu cụ thể và so sánh đối chiếu với thực tiễn. TÀI LIỆU THAM KHẢO Tiếng Việt 1. Nguyễn Văn Chức (2013). Phân tích hồi quy tuyến tính với SPSS. Diễn đàn giải pháp kinh doanh thông minh (BIS) (http:// bis.net.vn/forums/p/722/1565.aspx). 2. Hoàng Trọng và Chu Nguyễn Mộng Ngọc (2005). Phân tích dữ liệu nghiên cứu với SPSS. NXB Thống kê. 3. Nguyễn Văn Tuấn (2007). Chương trình huấn luyện y hoa - ykhoa.net. Tiếng Anh 4. Information Technology Services. Excel 2010-Basic learning guide. Tufts University. 5. PASW Statistics 18 Core System User’s Guide. 6. Thomas, M. S. C., Annaz, D., Ansari, D., Serif, G., Jarrold, C., & Karmiloff-Smith, A. (2009). Using developmental trajectories to understand developmental disorders. Journal of Speech, Language, and Hearing Research, 52, 336-358.
File đính kèm:
- giai_phap_lua_chon_mo_hinh_hoi_quy_don_bien.pdf