Bài giảng Học máy - Bài 2: Học có giám sát - Nguyễn Thanh Tùng
Giải thuật Học máy “Tốt nhất”
13
• Tin tồi: Không có giải thuật nào tốt nhất
– Không có giải thuật học máy nào thực hiện tốt cho mọi bài toán
• Tin tốt: Tất cả các giải thuật học máy đều tốt
– Mỗi giải thuật học máy thực hiện tốt cho một số bài toán
• Định lý “No free lunch”
– Wolpert (1996): các giải thuật thực hiện như nhau khi ta lấy
trung bình kết quả chúng thực hiện trên tất cả các bài toán
• Độ lệch vs. Phương sai
• Độ chính xác vs. Khả năng diễn giải (một tính chất của
mô hình về khả năng thấy được mối quan hệ giữa các biến)
• Độ chính xác vs. Khả năng mở rộng giải thuật
• Phạm vi kiến thức vs. Hướng dữ liệu
• Nhiều dữ liệu vs. Giải thuật tốt hơ
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Học máy - Bài 2: Học có giám sát - Nguyễn Thanh Tùng", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
Tóm tắt nội dung tài liệu: Bài giảng Học máy - Bài 2: Học có giám sát - Nguyễn Thanh Tùng
Học có giám sát Bài giảng có sử dụng hình vẽ trong cuốn sách “An Introduction to Statistical Learning with Applications in R” với sự cho phép của tác giả, có sử dụng slides các khóa học CME250 của ĐH Stanford và IOM530 của ĐH Southern California Nguyễn Thanh Tùng Khoa Công nghệ thông tin – Đại học Thủy Lợi tungnt@tlu.edu.vn CSE 445: Học máy | Học kỳ 1, 2016-2017 1 Website môn học: https://sites.google.com/a/wru.vn/cse445fall2016 Giải thuật phân lớp đơn giản (nhắc lại Bài 1) 2CSE 445: Học máy | Học kỳ 1, 2016-2017 K-Nearest Neighbor classifier (KNN) 3 • Ý tưởng: phân lớp các mẫu dựa trên “hàng xóm” các mẫu đã biết nhãn CSE 445: Học máy | Học kỳ 1, 2016-2017 K-Nearest Neighbor classifier (KNN) 4 • Bộ phân lớp: Chia không gian thuộc tính thành nhiều vùng – Mỗi vùng được gắn với 1 nhãn lớp (class label) – Ranh giới quyết định chia tách các vùng quyết định • Các phương pháp phân lớp xây dựng mô hình có dạng: CSE 445: Học máy | Học kỳ 1, 2016-2017 K-Nearest Neighbor classifier (KNN) 5 • Bộ phân lớp KNN – Việc dự đoán lớp cho mẫu X là lớp phổ biến nhất giữa K láng giềng gần nhất (trong tập học) – Mô hình phân lớp: CSE 445: Học máy | Học kỳ 1, 2016-2017 K-Nearest Neighbor classifier (KNN) 6CSE 445: Học máy | Học kỳ 1, 2016-2017 Figure 2.14, ISL 2013 Lựa chọn K (bộ phân lớp KNN) 7 • K nhỏ – Ranh giới quyết định linh hoạt hơn, tuy nhiên dễ bị overfit • K lớn – Ranh giới quyết định ít linh hoạt nhưng ít bị overfit • Overfitting: Cho kết quả tốt trên tập học nhưng kém trên tập thử nghiệm CSE 445: Học máy | Học kỳ 1, 2016-2017 Figure2.16, ISL 2013 Lựa chọn K (bộ phân lớp KNN) 8CSE 445: Học máy | Học kỳ 1, 2016-2017 Figure 2.17, ISL 2013 Lựa chọn K (bộ phân lớp KNN) 9 Tăng K, tăng sự linh hoạt Tại sao lỗi huấn luyện (trên dữ liệu học) tăng cùng K? Tại sao lỗi kiểm thử lại khác? CSE 445: Học máy | Học kỳ 1, 2016-2017 Figure 2.15, ISL 2013 Lựa chọn K (bộ phân lớp KNN) 10CSE 445: Học máy | Học kỳ 1, 2016-2017 Câu đố: 11 • Bộ phân lớp KNN là tham số hay phi tham số? – Nhắc lại: Kỹ thuật tham số phải đặt các giả định của mô hình về dữ liệu (chẳng hạn, dữ liệu theo xu hướng tuyến tính; dữ liệu tuân theo phân bố chuẩn) • Liệu ta có thể dùng kỹ thuật KNN dự đoán một giá trị số thay cho giá trị định danh (i.e. “KNN hồi quy”)? CSE 445: Học máy | Học kỳ 1, 2016-2017 Các dạng giải thuật học máy 12CSE 445: Học máy | Học kỳ 1, 2016-2017 Cluster Analysis Dimensionality Reduction Classification Regression KNN Supervised Unsupervised Yes No Do you have labeleddata? Do you want to group the data? Yes No What do you want to predict? Category Quantity PCA Logistic Regression CART LASSOSVM K-means ICA Linear Regression Giải thuật Học máy “Tốt nhất” 13 • Tin tồi: Không có giải thuật nào tốt nhất – Không có giải thuật học máy nào thực hiện tốt cho mọi bài toán • Tin tốt: Tất cả các giải thuật học máy đều tốt – Mỗi giải thuật học máy thực hiện tốt cho một số bài toán • Định lý “No free lunch” – Wolpert (1996): các giải thuật thực hiện như nhau khi ta lấy trung bình kết quả chúng thực hiện trên tất cả các bài toán CSE 445: Học máy | Học kỳ 1, 2016-2017 Trade-offs (đánhđổi) trong Học máy 14 • Độ lệch vs. Phương sai • Độ chính xác vs. Khả năng diễn giải (một tính chất của mô hình về khả năng thấy được mối quan hệ giữa các biến) • Độ chính xác vs. Khả năng mở rộng giải thuật • Phạmvi kiến thức vs. Hướngdữ liệu • Nhiều dữ liệu vs. Giải thuật tốt hơn CSE 445: Học máy | Học kỳ 1, 2016-2017 Chuẩn bị dữ liệu 15 • Các giải thuật học máy cần phải có dữ liệu! • Tiền xử lý dữ liệu để chuyển đổi dữ liệu trước khi áp dụng vào giải thuật học máy – Lấy mẫu: chọn tập con các quan sát/mẫu – Trích chọn thuộc tính: Chọn các biến đầu vào – Chuẩn hóa dữ liệu (Normalization) (standardization, scaling, binarization) – Xử lý dữ liệu thiếu và phần tử ngoại lai (missing data and outliers) • Ngoài ra, còn phụ thuộc vào giải thuật học máy – Cây quyết định có thể xử lý dữ liệu thiếu/phần tử ngoại lai – PCA yêu cầu dữ liệu đã được chuẩn hóa CSE 445: Học máy | Học kỳ 1, 2016-2017 Các câu hỏi? 16CSE 445: Học máy | Học kỳ 1, 2016-2017 Giới thiệu về Học có giám sát CSE 445: Học máy | Học kỳ 1, 2016-2017 17 Học giám sát • Xét: • Các phương pháp học giám sát: – Học bởi các ví dụ (quan sát)-“Learn by example” – Xây dựng mô hình sử dụng tập các quan sát đã được gắn nhãn CSE 445: Học máy | Học kỳ 1, 2016-2017 18 Dữ liệu học Class “A” Class “B” ? CSE 445: Học máy | Học kỳ 1, 2016-2017 19 Dữ liệu học Figure 2.2 , ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 20 Học có giám sát • Giải thuật học có giám sát – Lấy hàm ước lượng “tốt nhất” trong tập các hàm • Ví dụ: Hồi quy tuyến tính – Chọn 1 ước lượng tốt nhất từ dữ liệu học trong tập các hàm tuyến tính CSE 445: Học máy | Học kỳ 1, 2016-2017 21 Phân lớp và Hồi quy • Bài toán học có giám sát gồm 2 dạng: – Hồi quy: biến đầu ra Y là định lượng (quantitative) – Phân lớp: biến đầu ra Y là định tính/hạngmục/rời rạc CSE 445: Học máy | Học kỳ 1, 2016-2017 22 Các dạng giải thuật học máy CSE 445: Học máy | Học kỳ 1, 2016-2017 Unsupervised Yes No Do you have labeleddata? Classification Regression Supervised What do you want to predict? Category Quantity 23 Độ chính xác của mô hình CSE 445: Học máy | Học kỳ 1, 2016-2017 24 Đo hiệu năng bài toán hồi quy • Hàm tổn thất (Loss function): loại hàm dùng để đo lường sai số của mô hình • Vd: Sai số bình phương trung bình (Mean squared error - MSE) – Độ đo thông dụng dùng để tính độ chính xác bài toán hồi quy – Tập trung đo các sai số lớn hơn là các sai số nhỏ CSE 445: Học máy | Học kỳ 1, 2016-2017 25 Đo hiệu năng bài toán hồi quy • Mục tiêu: xây dựng mô hình khái quát hóa (generalizes) – Ta muốn cực tiểu hóa lỗi trên dữ liệu chưa biết, không phải trên dữ liệu học. – Vd: Dự đoán giá cổ phiếu trong tương lai vs. giá cổ phiếu trong quá khứ • Chúng ta muốn cực tiểu tổn thất kỳ vọng (expected loss) – Vấn đề: Ta không thể cực tiểu lỗi trên dữ liệu huấn luyện. CSE 445: Học máy | Học kỳ 1, 2016-2017 26 Vấn đề: Overfitting • Quá khớp (Overfitting): Học sự biến thiên ngẫu nhiên trong dữ liệu hơn là xu hướng cơ bản • Đặc điểm của overfitting: – Mô hình có hiệu năng cao trên dữ liệu học nhưng kém trên tập dữ liệu thử nghiệm. CSE 445: Học máy | Học kỳ 1, 2016-2017 27 Vấn đề: Overfitting CSE 445: Học máy | Học kỳ 1, 2016-2017 Figures 2.4 and 2.6 , ISL 2013 28 Đánh giá hiệu năng • Lỗi huấn luyện và lỗi kiểm thử thể hiện khác nhau – Tính linh hoạt của mô hình tăng lên – Lỗi huấn luyện giảm – Lỗi kiểm thử ban đầu giảm, Nhưng sau đó tăng lên vì overfitting “U-shaped” lỗi kiểm thử dạng chữ U. CSE 445: Học máy | Học kỳ 1, 2016-2017 29 Đánh giá hiệu năng CSE 445: Học máy | Học kỳ 1, 2016-2017 Figure 2.9 , ISL 2013 30 Đánh giá hiệu năng • Làm sao để ước lượng lỗi kiểm thử để tìm một mô hình tốt? • Kỹ thuật kiểm tra chéo (Cross-validation): một tập các kỹ thuật nhằm sử dụng dữ liệu huấn luyện để ước lượng lỗi tổng quát (generalization error) CSE 445: Học máy | Học kỳ 1, 2016-2017 31 Dữ liệu • Dữ liệu huấn luyện (Training data) – Tập các quan sát (bản ghi) được sử dụng để xây dựng (học) mô hình. • Dữ liệu kiểm chứng (Validation data) – Tập các quan sát dùng để ước lượng lỗi nhằm tìm tham số hoặc lựa chọn mô hình. • Dữ liệu kiểm thử (Test data) – Tập các quan sát dùng để đánh giá hiệu năng trên dữ liệu chưa biết (unseen) trong tương lai. – Dữ liệu này không sử dụng cho giải thuật học máy trong quá trình xây dựng mô hình. CSE 445: Học máy | Học kỳ 1, 2016-2017 32 Trade-off: Độ lệch vs. Phương sai • Lỗi kiểm thử đường cong hình chữ U (U-shaped) xảy ra dựa trên 2 đặc điểm của mô hình học máy: – – : Phương sai (variance) của hàm ước lượng : Độ chệch/sai lệch (bias) của hàm ước lượng CSE 445: Học máy | Học kỳ 1, 2016-2017 33 Trade-off: Độ lệch vs. Phương sai • Phương sai của hàm ước lượng – Chênh lệch giữa kết quả áp dụng mô hình với các quan sát đầu vào khác nhau. • Phương sai cao: các thay đổi nhỏ trong tập huấn luyện Các thay đổi lớn trong hàm ước lượng thống kê. – Các phương pháp càng linh hoạt Phương sai càng lớn. CSE 445: Học máy | Học kỳ 1, 2016-2017 34 Trade-off: Độ lệch vs. Phương sai CSE 445: Học máy | Học kỳ 1, 2016-2017 35 Trade-off: Độ lệch vs. Phương sai 36CSE 445: Học máy | Học kỳ 1, 2016-2017 • Độ lệch (bias) của hàm ước lượng – Bias là độ sai lệch giữa kết quả dự đoán của mô hình và thực tế, sai số xấp xỉ một hàm khi áp dụng một mô hình đơn giản. – Vd: Hồi quy tuyến tính giả định các biến phải quan hệ tuyến tính. lỗi bias xuất hiện khi hệ thống là phi tuyến. – Các phương pháp càng linh hoạt bias nhỏ. Trade-off: Độ lệch vs. Phương sai 37CSE 445: Học máy | Học kỳ 1, 2016-2017 • Phương sai thấp và bias thấp Lỗi kiểm thử cũng thấp. • Càng linh hoạt (phức tạp) Phương sai tăng, bias giảm. • Lỗi kiểm thử đường cong hình chữ U (U-shaped): – Ban đầu độ linh hoạt mô hình tăng, ta thấy bias giảm nhanh hơn tăng phương sai lỗi kiểm thử MSE giảm. – Độ linh hoạt của mô hình có ảnh hưởng nhỏ hơn đến việc giảm bias, tuy nhiên khi tăng độ linh hoạt nó ảnh hưởng lớn đến phương sai lỗi kiểm thử MSE tăng. Trade-off: Độ lệch vs. Phương sai 38CSE 445: Học máy | Học kỳ 1, 2016-2017 Figures 2.9, 2.12, ISL 2013 Trade-off: Độ lệch vs. Phương sai 39CSE 445: Học máy | Học kỳ 1, 2016-2017 • Phương pháp linh hoạt (phức tạp) – Có thể xấp xỉ sát hàm ước lượng thống kê (bias thấp), – Tuy nhiên các lỗi/rủi ro của mô hình học lại quá phụ thuộc vào dữ liệu huấn luyện (phương sai cao) • Phương pháp đơn giản hơn – Có thể xấp xỉ hàm ước lượng với độ chính xác không cao (bias cao), – Tuy nhiên chúng ít phụ thuộc vào dữ liệu huấn luyện (phương sai thấp) • TradeIoff – Dễ đạt được phương sai thấp/bias cao hoặc phương sai cao/bias thấp, – Tuy nhiên rất khó để đạt được cả phương sai và bias cùng thấp Trade-off: Độ lệch vs. Phương sai 40CSE 445: Học máy | Học kỳ 1, 2016-2017 Hồi quy: Hồi quy tuyến tính 41CSE 445: Học máy | Học kỳ 1, 2016-2017 Hồi quy tuyến tính 42 • Hồi quy tuyến tính: là phương pháp học máy có giám sát đơn giản, được sử dụng để dự đoán giá trị biến đầu ra dạng số (định lượng) – Nhiều phương pháp học máy là dạng tổng quát hóa của hồi quy tuyến tính – Là ví dụ để minh họa các khái niệm quan trọng trong bài toán học máy có giám sát CSE 445: Học máy | Học kỳ 1, 2016-2017 Hồi quy tuyến tính 43 • Tại sao dùng hồi quy tuyến tính? – Mối quan hệ tuyến tính: là sự biến đổi tuân theo quy luật hàm bậc nhất – Nhiều quan hệ là tuyến tính cục bộ (trong vùng quan tâm) – Ta có thể biến đổi các biến đầu vào để tạo ra mối quan hệ tuyến tính – Diễn giải các mối quan hệ giữa biến đầu vào và đầu ra - sử dụng cho bài toán suy diễn CSE 445: Học máy | Học kỳ 1, 2016-2017 Hồi quy tuyến tính đơn giản 44 • Biến đầu ra Y và biến đầu vào X có mối quan hệ tuyến tính giữa X và Y như sau: • Các tham số của mô hình: hệ số chặn (khi các xi=0) độ dốc CSE 445: Học máy | Học kỳ 1, 2016-2017 Hồi quy tuyến tính đơn giản 45CSE 445: Học máy | Học kỳ 1, 2016-2017 Figure 3.1 , ISL 2013 ( ) 01 ββ +== xxfy độ dốc hệ số chặn Hồi quy tuyến tính đơn giản 46 • β0 và β1 chưa biếtTa ước tính giá trị của chúng từ dữ liệu đầu vào • Lấy sao cho mô hình đạt “xấp xỉ tốt nhất” (“good fit”) đối với tập huấn luyện CSE 445: Học máy | Học kỳ 1, 2016-2017 Hồi quy tuyến tính đơn giản 47 • Chúng ta ước lượng các hệ số thế nào (“fit the model”)? • Điều gì khiến mô hình “xấp xỉ tốt nhất” đối với dữ liệu? CSE 445: Học máy | Học kỳ 1, 2016-2017 Đường thẳng phù hợp nhất Cho tập dữ liệu đầu vào, ta cần tìm cách tính toán các tham số của phương trình đường thẳng 0 2 4 6 8 10 12 14 0 2 4 6 8 10 ? ? ? CSE 445: Học máy | Học kỳ 1, 2016-2017 48 Bình phương nhỏ nhất 49 • Thông thường, để đánh giá độ phù hợp của mô hình từ dữ liệu quan sát ta sử dụng phương pháp bình phương nhỏ nhất (least squares) • Lỗi bình phương trung bình (Mean squared error): CSE 445: Học máy | Học kỳ 1, 2016-2017 Đường thẳng phù hợp nhất Rất hiếm để có 1 đường thẳng khớp chính xác với dữ liệu, do vậy luôn tồn tại lỗi gắn liền với đường thẳng Đường thẳng phù hợp nhất là đường giảm thiểu độ dao động của các lỗi này 0 2 4 6 8 10 12 14 0 2 4 6 8 10 )ˆ( ii yy − yˆ CSE 445: Học máy | Học kỳ 1, 2016-2017 50 Phần dư (lỗi) Biểu thức (yi - ) được gọi là lỗi hoặc phần dư εi = (yi- ) Đường thẳng phù hợp nhất tìm thấy khi tổng bình phương lỗi là nhỏ nhất yˆ yˆ ∑ = −= n i i yySSE 1 2)ˆ( CSE 445: Học máy | Học kỳ 1, 2016-2017 51 Ước lượng tham số 52CSE 445: Học máy | Học kỳ 1, 2016-2017 • Các ước số tính được bằng cách cực tiểu hóa MSE • Hệ số chặn của đường thẳng trong đó: và x xy SS SS =1 ˆβ ∑ = −−= n i iixy yyxxSS 1 ))(( ∑ = −= n i ix xxSS 1 2)( Ước lượng tham số Hệ số chặn của đường thẳng trong đó xy 10 ˆˆ ββ −= n y y n i i∑ = = 1 n x x n i i∑ = = 1 CSE 445: Học máy | Học kỳ 1, 2016-2017 53 Hồi quy tuyến tính đơn giản 54CSE 445: Học máy | Học kỳ 1, 2016-2017 Figure 3.1 , ISL 2013 Hồi quy tuyến tính đơn giản 55CSE 445: Học máy | Học kỳ 1, 2016-2017 Ví dụ X Y kilos giá $ 17 132 21 150 35 160 39 162 50 149 65 170 56 83.891=xySS 83.1612=xSS 83.37=x 83.153=y 533.0 83.1612 83.891 ˆ 1 === x xy SS SSβ 91.13283.37553.083.153ˆˆ 10 =×−=−= xy ββ phương trình tìm được là Y = 132.91 + 0.553*X CSE 445: Học máy | Học kỳ 1, 2016-2017 57 Diễn giải tham số Trong ví dụ trước, tham số ước lượng của độ dốc là 0.553. Điều này có nghĩa là khi thay đổi 1 kg của X, giá của Y thay đổi 0.553 $ 1 ˆβ CSE 445: Học máy | Học kỳ 1, 2016-2017 58 là hệ số chặn của Y. Nghĩa là, điểm mà đường thẳng cắt trục tung Y. Trong ví dụ này là $132.91 $132.91 Đây là giá trị của Y khi X = 0 Diễn giải tham số CSE 445: Học máy | Học kỳ 1, 2016-2017 0 ˆβ Hồi quy tuyến tính đa biến 59 • Hồi quy tuyến tính đa biến:mô hình có nhiều hơn 1 biến dùng để dự đoán biến đích CSE 445: Học máy | Học kỳ 1, 2016-2017 Hồi quy tuyến tính đa biến 60CSE 445: Học máy | Học kỳ 1, 2016-2017 Figure 3.4 , ISL 2013 Hồi quy tuyến tính đa biến 61 • Diễn giải hệ số βj : khi tăng Xj lên một đơn vịY sẽ tăng trung bình một lượng là βj CSE 445: Học máy | Học kỳ 1, 2016-2017 Bình phương nhỏ nhất 62 • Tìm các ước số bằng phương pháp bình phương nhỏ nhất • Giải phương trình để tìm : CSE 445: Học máy | Học kỳ 1, 2016-2017 Hồi quy tuyến tính đa biến 63CSE 445: Học máy | Học kỳ 1, 2016-2017 Figure 3.4 , ISL 2013 Ví dụ Cho = 2 13 5 12 9 6 y = 3 2 1 0 ˆ ˆ ˆ ˆ ˆ β β β β β = 7 1 1 0 1 7 1 3 3 1 6 1 42 943 128 134 116 193 X CSE 445: Học máy | Học kỳ 1, 2016-2017 64 Ví dụ = 944 484 315 72 448 295 53 35 315 153 38 26 72 35 26 6 1 1XX T = 598 277 203 74 yX T = 7 910 17 3 16 4 42 3 3 9 2 38 4 3 1 1 1 1 1 1 1 1 6TX CSE 445: Học máy | Học kỳ 1, 2016-2017 65 Ví dụ == 0.01406 0.00431- 0.00144- 0.13737- 0.00431- 0.01234 0.00014- 0.01962- 0.00144- 0.00014- 0.03965 0.15375- 0.13737- 0.01962- 0.15375- 2.59578 ˆ yXXX TT 1-)(β 598 277 203 74 = 0.46691 0.11162- 0.07573- .209753 20975.3ˆ0 =β 11162.0ˆ2 −=β 46691.0ˆ3 =β07573.0ˆ1 −=β 321 46691.011162.007573.020975.3ˆ xxxy +−−= CSE 445: Học máy | Học kỳ 1, 2016-2017 66 Dữ liệu định tính 67 • Xử lý dữ liệu dạng định tính (định danh, hạng mục) trong mô hình hồi quy tuyến tính – vd: biến “giới tính”: “male” hoặc “female” • Nếu chỉ có 2 khả năng trên, ta tạo biến giả (dummy variable) CSE 445: Học máy | Học kỳ 1, 2016-2017 Dữ liệu định tính 68 • Nếu có nhiều hơn 2 giá trị, ta biểu diễn biến chúng dùng nhiều biến giả – vd: biến “màu mắt”: “blue”, “green” or “brown” CSE 445: Học máy | Học kỳ 1, 2016-2017 Hồi quy tuyến tính 69 • Ưu điểm: – Mô hình đơn giản, dễ hiểu – Dễ diễn giải hệ số hồi quy – Nhận được kết quả tốt khi dữ liệu quan sát nhỏ – Nhiều cải tiến/mở rộng • Nhược điểm: – Mô hình hơi đơn giản nên khó dự đoán chính xác với dữ liệu có miền giá trị rộng – Khả năng ngoại suy (extrapolation) kém – Nhạy cảm với dữ liệu ngoại lai (outliers) – do dung phương pháp bình phương nhỏ nhất CSE 445: Học máy | Học kỳ 1, 2016-2017 Câu hỏi? 70CSE 445: Học máy | Học kỳ 1, 2016-2017 Bài toán phân lớp: Hồi quy Logit (Logistic Regression) 71CSE 445: Học máy | Học kỳ 1, 2016-2017 Phân lớp 72 • Hồi quy – dự đoán biến định lượng (liên tục) Y – Trong nhiều ứng dụng, biến đầu ra là định tính hoặc kiểu định danh/hạng mục • Phân lớp: Dự đoán biến đầu ra định tính – Gán mỗi quan sát cho một lớp/mục – vd: Bộ phân lớp K-láng giềng gần nhất trong bài học trước CSE 445: Học máy | Học kỳ 1, 2016-2017 Ví dụ về phân lớp 73 • Các giao dịch thẻ tín dụng – Có phải dịch gian lận hay không khi ta dựa trên thông tin lịch sử giao dịch của chúng? • Rủi ro vay nợ – Liệu một cá nhân có bị vỡ nợ với tài khoản tín dụng của mình không? • Thị giác máy (Computer Vision) – Hiểu được các đối tượng xuất hiện trong ảnh CSE 445: Học máy | Học kỳ 1, 2016-2017 Ví dụ về phân lớp 74 Figure 4.1 , ISL 2013* CSE 445: Học máy | Học kỳ 1, 2016-2017 Phân lớp và Hồi quy 75 • Phân lớp và Hồi quy có liên quan với nhau lớn. • Phân lớp hoạt động như hồi quy: – Dự đoán xác suất của 1 mẫu dữ liệu thuộc vào một lớp, ta gán vào 1 lớp có xác suất cao nhất CSE 445: Học máy | Học kỳ 1, 2016-2017 Câu đố: 76 • Ta dự đoán tình trạng sức khỏe của bệnh nhân dựa trên các triệu chứng.* – Giả sử ta mã 3 chẩn đoán có thể xảy ra như sau: và sử dụng hồi quy tuyến tính (bỏ qua thực tế Y là có giá trị rời rạc) để xây dựng mô hình • Liệu đó có phải là cách tiếp cận tốt không? Tại sao? • Vấn đề gì xảy ra khi sử dụng phương pháp này để dự đoán biến đầu ra dạng định tính? *Ví dụ lấy từ mục 4.2, ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 Câu đố 77 • Vấn đề gì xảy ra khi sử dụng phương pháp này để dự đoán biến đầu ra dạng định tính? – Các biến định tính chứa giá trị không có thứ tự • Khi mã hóa chúng ở dạng số sẽ tạo ra sắp xếp tùy ý • Mô hình tuyến tính (và kết quả dự đoán) phụ thuộc vào sự sắp xếp này do dùng phương pháp bình phương nhỏ nhất CSE 445: Học máy | Học kỳ 1, 2016-2017 Câu đố 78 • Vấn đề gì xảy ra khi sử dụng phương pháp này để dự đoán biến đầu ra dạng định tính? – Mã hóa biến định tính có thể phù hợp với kiểu dữ liệu có sắp xếp tự nhiên: vd. “mild”, “moderate” and “severe” – Với biến nhị phân (chỉ có 2 lớp), phương pháp này không nhạy cảm khi việc mã hóa thế nào • Ta có thể dùng ngưỡng (threshold) để phân lớp các giá trị của biến định tính phục vụ cho bài toán dự đoán • Giá trị của biến đích có thể không nằm trong đoạn [0, 1], và không thể được giải thích như là xác suất thuộc về một lớp cụ thể CSE 445: Học máy | Học kỳ 1, 2016-2017 Hồi quy Logistic 79 • Phân lớp nhị phân: Y nhận 2 giá trị (“0” hoặc “1”) với 2 lớp tương ứng • Mô hình hồi quy Logistic đối với bài toán phân lớp nhị phân – Ngưỡng để đạt được các quyết định phân lớp – Là mô hình hồi quy tuyến tính có chỉnh sửa để dự đoán xác suất trong [0, 1] 80 CSE 445: Học máy | Học kỳ 1, 2016-2017 Hồi quy Logistic 80 • Hàm Logistic (sigmoid) xấp xỉ biến đầu ra • Hàm Logistic – Đường cong chữ S – Luôn nhận giá trị trong (0, 1) xác suất hợp lệ • Mô hình hồi quy Logistic CSE 445: Học máy | Học kỳ 1, 2016-2017 Hồi quy Logistic 81 = (βO+ β1X) 1 + (βO+ β1X) CSE 445: Học máy | Học kỳ 1, 2016-2017 Hồi quy Logistic 82CSE 445: Học máy | Học kỳ 1, 2016-2017 (βO+ β1X) 1 + (βO+ β1X) = Hồi quy Logistic 83CSE 445: Học máy | Học kỳ 1, 2016-2017 = (βO+ β1X) 1 + (βO+ β1X) Hồi quy Logistic 84 • Các tham số của mô hình β0 và β1 được ước lượng từ dữ liệu huấn luyện – Trong phương pháp hồi quy tuyến tính, ta sử dụng bình phương nhỏ nhất • Tìm tham số mô hình hồi quy Logistic sử dụng phương pháp Ước lượng hợp lý cực đại (maximum likelihood estimation) CSE 445: Học máy | Học kỳ 1, 2016-2017 Hồi quy Logistic đa biến 85 • Ta có thể mở rộng hồi quy logistic với trường hợp nhiều biến đầu vào: CSE 445: Học máy | Học kỳ 1, 2016-2017 Hồi quy Logistic 86 • Ưu điểm: – Mở rộng của hồi quy tuyến tính – Không cần siêu tham số điều chỉnh mô hình • Nhược điểm: – Không thể mô hình hóa được các bài toán có hàm quyết định dạng phức tạp – Có thể bị overfit dữ liệu huấn luyện • Khắc phục được bằng cách điều chỉnh trong phương pháp hợp lý cực đại (maximum likelihood) – Chỉ giải dạng bài toán phân lớp nhị phân CSE 445: Học máy | Học kỳ 1, 2016-2017 Tóm tắt 87 • Học có giám sát (Supervised learning) – học từ các mẫu quan sát được • Hồi quy tuyến tính (Linear regression) – đơn giản, mô hình dễ diễn giải cho dự đoán biến đích dạng liên tục • Hồi quy Logistic – phương pháp hồi quy dung để dự đoán xác suất cho bài toán phân lớp nhị phân – Phương pháp hợp lý cực đại (Maximum likelihood): kỹ thuật ước lượng giá trị các tham số CSE 445: Học máy | Học kỳ 1, 2016-2017 Câu hỏi? 88CSE 445: Học máy | Học kỳ 1, 2016-2017 89CSE 445: Học máy | Học kỳ 1, 2016-2017 Maximum Likelihood • Idea: choose the most likely value of parameter given the available observations • Consider the following example – We have a distribution with parameter θ – We want to estimate θ based on training data using maximum likelihood estimation 90CSE 445: Học máy | Học kỳ 1, 2016-2017 Maximum Likelihood 91 x(1) • For fixed θ = α, we can find the probability density corresponding to a single observation x(1): p(x(1); θ = α) p(x; θ = α) p(x(1); θ = α) CSE 445: Học máy | Học kỳ 1, 2016-2017 Maximum Likelihood 92 x • The likelihood for a set of training observations is the product of the individual densities (fixed θ) p(x; θ = α) CSE 445: Học máy | Học kỳ 1, 2016-2017 Maximum Likelihood 93 x • If the value of θ is not fixed, but the set of training observations is fixed, the likelihood will change as θ changes p(x; θ = β) CSE 445: Học máy | Học kỳ 1, 2016-2017 Maximum Likelihood 94 x • If the value of θ is not fixed, but the set of training observations is fixed, the likelihood will change as θ changes p(x; θ = γ) CSE 445: Học máy | Học kỳ 1, 2016-2017 Maximum Likelihood 95 θ =β ˆ = α θ = γ • We can plot the likelihood value (y-axis) against the parameter value θ (x- axis) for a fixed training set • The maximum likelihood estimator (ˆ) for θ is the parameter values that corresponds to the highest likelihood L(θ ;ˆ x(1), , x(7)) CSE 445: Học máy | Học kỳ 1, 2016-2017 Maximum Likelihood 96 • Maximum likelihood estimation can be used to estimate multiple parameters • Likelihood function for logistic regression: – Fit parameters O and 1by maximizing this function using the training set CSE 445: Học máy | Học kỳ 1, 2016-2017
File đính kèm:
- bai_giang_hoc_may_bai_2_hoc_co_giam_sat_nguyen_thanh_tung.pdf