Bài giảng Học máy - Bài 2: Học có giám sát - Nguyễn Thanh Tùng

Giải thuật Học máy “Tốt nhất”
• Tin tồi: Không có giải thuật nào tốt nhất
– Không có giải thuật học máy nào thực hiện tốt cho mọi bài toán
• Tin tốt: Tất cả các giải thuật học máy đều tốt
– Mỗi giải thuật học máy thực hiện tốt cho một số bài toán
• Định lý “No free lunch”
– Wolpert (1996): các giải thuật thực hiện như nhau khi ta lấy
trung bình kết quả chúng thực hiện trên tất cả các bài toán
• Độ lệch vs. Phương sai
• Độ chính xác vs. Khả năng diễn giải (một tính chất của
mô hình về khả năng thấy được mối quan hệ giữa các biến)
• Độ chính xác vs. Khả năng mở rộng giải thuật
• Phạm vi kiến thức vs. Hướng dữ liệu
• Nhiều dữ liệu vs. Giải thuật tốt hơ
96 trang kimcuc 17040
Download
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Học máy - Bài 2: Học có giám sát - Nguyễn Thanh Tùng", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
Tóm tắt nội dung tài liệu: Bài giảng Học máy - Bài 2: Học có giám sát - Nguyễn Thanh Tùng

Học có giám sát
Bài giảng có sử dụng hình vẽ trong cuốn sách “An Introduction to Statistical Learning with Applications in R” với sự
cho phép của tác giả, có sử dụng slides các khóa học CME250 của ĐH Stanford và IOM530 của ĐH Southern California
Nguyễn Thanh Tùng
Khoa Công nghệ thông tin – Đại học Thủy Lợi
[email protected]
CSE 445: Học máy | Học kỳ 1, 2016-2017 1
Website môn học: https://sites.google.com/a/wru.vn/cse445fall2016
Giải thuật phân lớp đơn giản
(nhắc lại Bài 1)
2CSE 445: Học máy | Học kỳ 1, 2016-2017
K-Nearest Neighbor classiﬁer (KNN)
3
• Ý tưởng: phân lớp các mẫu dựa trên “hàng xóm” 
các mẫu đã biết nhãn
CSE 445: Học máy | Học kỳ 1, 2016-2017
K-Nearest Neighbor classiﬁer (KNN)
4
• Bộ phân lớp: Chia không gian thuộc tính thành
nhiều vùng
– Mỗi vùng được gắn với 1 nhãn lớp (class label)
– Ranh giới quyết định chia tách các vùng quyết định
• Các phương pháp phân lớp xây dựng mô hình
có dạng:
CSE 445: Học máy | Học kỳ 1, 2016-2017
K-Nearest Neighbor classiﬁer (KNN)
5
• Bộ phân lớp KNN
– Việc dự đoán lớp cho mẫu X là lớp phổ biến nhất giữa K 
láng giềng gần nhất (trong tập học)
– Mô hình phân lớp:
CSE 445: Học máy | Học kỳ 1, 2016-2017
K-Nearest Neighbor classiﬁer (KNN)
6CSE 445: Học máy | Học kỳ 1, 2016-2017
Figure 2.14, ISL 2013
Lựa chọn K (bộ phân lớp KNN)
7
• K nhỏ
– Ranh giới quyết định linh hoạt hơn, tuy nhiên dễ bị overﬁt
• K lớn
– Ranh giới quyết định ít linh hoạt nhưng ít bị overﬁt
• Overﬁtting: Cho kết quả tốt trên tập học nhưng kém trên
tập thử nghiệm
CSE 445: Học máy | Học kỳ 1, 2016-2017
Figure2.16,
ISL 2013
Lựa chọn K (bộ phân lớp KNN)
8CSE 445: Học máy | Học kỳ 1, 2016-2017
Figure 2.17, ISL 2013
Lựa chọn K (bộ phân lớp KNN)
9
Tăng K, tăng sự linh hoạt
Tại sao lỗi huấn luyện
(trên dữ liệu học) tăng
cùng K?
Tại sao lỗi kiểm
thử lại khác?
CSE 445: Học máy | Học kỳ 1, 2016-2017
Figure 2.15, ISL 2013
Lựa chọn K (bộ phân lớp KNN)
10CSE 445: Học máy | Học kỳ 1, 2016-2017
Câu đố:
11
• Bộ phân lớp KNN là tham số hay phi tham số?
– Nhắc lại:
Kỹ thuật tham số phải đặt các giả định của mô hình về dữ liệu
(chẳng hạn, dữ liệu theo xu hướng tuyến tính; dữ liệu tuân theo phân bố chuẩn)
• Liệu ta có thể dùng kỹ thuật KNN dự đoán một giá trị số thay
cho giá trị định danh (i.e. “KNN hồi quy”)?
CSE 445: Học máy | Học kỳ 1, 2016-2017
Các dạng giải thuật học máy
12CSE 445: Học máy | Học kỳ 1, 2016-2017
Cluster 
Analysis
Dimensionality 
Reduction
Classiﬁcation Regression
KNN
Supervised Unsupervised
Yes No
Do you have 
labeleddata?
Do you want to group the data?
Yes No
What do you want to predict?
Category Quantity
PCA
Logistic 
Regression
CART LASSOSVM
K-means
ICA
Linear 
Regression
Giải thuật Học máy “Tốt nhất”
13
• Tin tồi: Không có giải thuật nào tốt nhất
– Không có giải thuật học máy nào thực hiện tốt cho mọi bài toán
• Tin tốt: Tất cả các giải thuật học máy đều tốt
– Mỗi giải thuật học máy thực hiện tốt cho một số bài toán
• Định lý “No free lunch”
– Wolpert (1996): các giải thuật thực hiện như nhau khi ta lấy
trung bình kết quả chúng thực hiện trên tất cả các bài toán
CSE 445: Học máy | Học kỳ 1, 2016-2017
Trade-oﬀs (đánhđổi) trong Học máy
14
• Độ lệch vs. Phương sai
• Độ chính xác vs. Khả năng diễn giải (một tính chất của 
mô hình về khả năng thấy được mối quan hệ giữa các biến)
• Độ chính xác vs. Khả năng mở rộng giải thuật
• Phạmvi kiến thức vs. Hướngdữ liệu
• Nhiều dữ liệu vs. Giải thuật tốt hơn
CSE 445: Học máy | Học kỳ 1, 2016-2017
Chuẩn bị dữ liệu
15
• Các giải thuật học máy cần phải có dữ liệu!
• Tiền xử lý dữ liệu để chuyển đổi dữ liệu trước khi áp dụng
vào giải thuật học máy
– Lấy mẫu: chọn tập con các quan sát/mẫu
– Trích chọn thuộc tính: Chọn các biến đầu vào
– Chuẩn hóa dữ liệu (Normalization) (standardization, scaling, binarization)
– Xử lý dữ liệu thiếu và phần tử ngoại lai (missing data and outliers)
• Ngoài ra, còn phụ thuộc vào giải thuật học máy
– Cây quyết định có thể xử lý dữ liệu thiếu/phần tử ngoại lai
– PCA yêu cầu dữ liệu đã được chuẩn hóa
CSE 445: Học máy | Học kỳ 1, 2016-2017
Các câu hỏi?
16CSE 445: Học máy | Học kỳ 1, 2016-2017
Giới thiệu về
Học có giám sát
CSE 445: Học máy | Học kỳ 1, 2016-2017 17
Học giám sát
• Xét: 
• Các phương pháp học giám sát:
– Học bởi các ví dụ (quan sát)-“Learn by example”
– Xây dựng mô hình sử dụng tập các quan sát đã
được gắn nhãn
CSE 445: Học máy | Học kỳ 1, 2016-2017 18
Dữ liệu học
Class “A” Class “B”
?
CSE 445: Học máy | Học kỳ 1, 2016-2017 19
Dữ liệu học
Figure 2.2 , ISL 2013
CSE 445: Học máy | Học kỳ 1, 2016-2017 20
Học có giám sát
• Giải thuật học có giám sát
– Lấy hàm ước lượng “tốt nhất” trong tập các hàm
• Ví dụ: Hồi quy tuyến tính
– Chọn 1 ước lượng tốt nhất từ dữ liệu học trong tập
các hàm tuyến tính
CSE 445: Học máy | Học kỳ 1, 2016-2017 21
Phân lớp và Hồi quy
• Bài toán học có giám sát gồm 2 dạng:
– Hồi quy: biến đầu ra Y là định lượng (quantitative)
– Phân lớp: biến đầu ra Y là định tính/hạngmục/rời rạc
CSE 445: Học máy | Học kỳ 1, 2016-2017 22
Các dạng giải thuật học máy
CSE 445: Học máy | Học kỳ 1, 2016-2017
Unsupervised
Yes No
Do you have 
labeleddata?
Classiﬁcation Regression
Supervised
What do you want to predict?
Category Quantity
23
Độ chính xác của mô hình
CSE 445: Học máy | Học kỳ 1, 2016-2017 24
Đo hiệu năng bài toán hồi quy
• Hàm tổn thất (Loss function): loại hàm dùng để đo 
lường sai số của mô hình
• Vd: Sai số bình phương trung bình (Mean squared 
error - MSE)
– Độ đo thông dụng dùng để tính độ chính xác bài toán hồi quy
– Tập trung đo các sai số lớn hơn là các sai số nhỏ
CSE 445: Học máy | Học kỳ 1, 2016-2017 25
Đo hiệu năng bài toán hồi quy
• Mục tiêu: xây dựng mô hình khái quát hóa (generalizes)
– Ta muốn cực tiểu hóa lỗi trên dữ liệu chưa biết, không phải
trên dữ liệu học.
– Vd: Dự đoán giá cổ phiếu trong tương lai vs. giá cổ phiếu trong
quá khứ
• Chúng ta muốn cực tiểu tổn thất kỳ vọng (expected loss)
– Vấn đề: Ta không thể cực tiểu lỗi trên dữ liệu huấn luyện.
CSE 445: Học máy | Học kỳ 1, 2016-2017 26
Vấn đề: Overﬁtting
• Quá khớp (Overﬁtting): Học sự biến thiên ngẫu nhiên
trong dữ liệu hơn là xu hướng cơ bản
• Đặc điểm của overﬁtting:
– Mô hình có hiệu năng cao trên dữ liệu học nhưng kém
trên tập dữ liệu thử nghiệm.
CSE 445: Học máy | Học kỳ 1, 2016-2017 27
Vấn đề: Overﬁtting
CSE 445: Học máy | Học kỳ 1, 2016-2017
Figures 2.4 and 2.6 , ISL 2013
28
Đánh giá hiệu năng
• Lỗi huấn luyện và lỗi kiểm thử thể hiện khác nhau
– Tính linh hoạt của mô hình tăng lên
– Lỗi huấn luyện giảm
– Lỗi kiểm thử ban đầu giảm,
Nhưng sau đó tăng lên vì overﬁtting “U-shaped” lỗi kiểm
thử dạng chữ U.
CSE 445: Học máy | Học kỳ 1, 2016-2017 29
Đánh giá hiệu năng
CSE 445: Học máy | Học kỳ 1, 2016-2017
Figure 2.9 , ISL 2013
30
Đánh giá hiệu năng
• Làm sao để ước lượng lỗi kiểm thử để tìm một mô
hình tốt?
• Kỹ thuật kiểm tra chéo (Cross-validation):
một tập các kỹ thuật nhằm sử dụng dữ liệu huấn luyện
để ước lượng lỗi tổng quát (generalization error)
CSE 445: Học máy | Học kỳ 1, 2016-2017 31
Dữ liệu
• Dữ liệu huấn luyện (Training data)
– Tập các quan sát (bản ghi) được sử dụng để xây dựng (học) mô hình.
• Dữ liệu kiểm chứng (Validation data)
– Tập các quan sát dùng để ước lượng lỗi nhằm tìm tham số hoặc
lựa chọn mô hình.
• Dữ liệu kiểm thử (Test data)
– Tập các quan sát dùng để đánh giá hiệu năng trên dữ liệu chưa biết
(unseen) trong tương lai.
– Dữ liệu này không sử dụng cho giải thuật học máy trong quá trình
xây dựng mô hình.
CSE 445: Học máy | Học kỳ 1, 2016-2017 32
Trade-off: Độ lệch vs. Phương sai
• Lỗi kiểm thử đường cong hình chữ U (U-shaped) xảy
ra dựa trên 2 đặc điểm của mô hình học máy:
–
–
: Phương sai (variance) của hàm ước lượng
: Độ chệch/sai lệch (bias) của hàm ước lượng
CSE 445: Học máy | Học kỳ 1, 2016-2017 33
Trade-off: Độ lệch vs. Phương sai
• Phương sai của hàm ước lượng
– Chênh lệch giữa kết quả áp dụng mô hình với các quan sát
đầu vào khác nhau.
• Phương sai cao: các thay đổi nhỏ trong tập huấn luyện
Các thay đổi lớn trong hàm ước lượng thống kê.
– Các phương pháp càng linh hoạt Phương sai càng lớn.
CSE 445: Học máy | Học kỳ 1, 2016-2017 34
Trade-off: Độ lệch vs. Phương sai
CSE 445: Học máy | Học kỳ 1, 2016-2017 35
Trade-off: Độ lệch vs. Phương sai
36CSE 445: Học máy | Học kỳ 1, 2016-2017
• Độ lệch (bias) của hàm ước lượng
– Bias là độ sai lệch giữa kết quả dự đoán của mô hình và
thực tế, sai số xấp xỉ một hàm khi áp dụng một mô hình
đơn giản.
– Vd: Hồi quy tuyến tính giả định các biến phải quan hệ
tuyến tính.
 lỗi bias xuất hiện khi hệ thống là phi tuyến.
– Các phương pháp càng linh hoạt bias nhỏ.
Trade-off: Độ lệch vs. Phương sai
37CSE 445: Học máy | Học kỳ 1, 2016-2017
• Phương sai thấp và bias thấp Lỗi kiểm thử cũng thấp.
• Càng linh hoạt (phức tạp) Phương sai tăng, bias giảm.
• Lỗi kiểm thử đường cong hình chữ U (U-shaped):
– Ban đầu độ linh hoạt mô hình tăng, ta thấy bias giảm nhanh hơn
tăng phương sai lỗi kiểm thử MSE giảm.
– Độ linh hoạt của mô hình có ảnh hưởng nhỏ hơn đến việc
giảm bias, tuy nhiên khi tăng độ linh hoạt nó ảnh hưởng lớn
đến phương sai lỗi kiểm thử MSE tăng.
Trade-off: Độ lệch vs. Phương sai
38CSE 445: Học máy | Học kỳ 1, 2016-2017
Figures 2.9, 2.12, ISL 2013
Trade-off: Độ lệch vs. Phương sai
39CSE 445: Học máy | Học kỳ 1, 2016-2017
• Phương pháp linh hoạt (phức tạp)
– Có thể xấp xỉ sát hàm ước lượng thống kê (bias thấp),
– Tuy nhiên các lỗi/rủi ro của mô hình học lại quá phụ thuộc vào dữ liệu huấn
luyện (phương sai cao)
• Phương pháp đơn giản hơn
– Có thể xấp xỉ hàm ước lượng với độ chính xác không cao (bias cao),
– Tuy nhiên chúng ít phụ thuộc vào dữ liệu huấn luyện (phương sai thấp)
• TradeIoﬀ
– Dễ đạt được phương sai thấp/bias cao hoặc phương sai cao/bias thấp,
– Tuy nhiên rất khó để đạt được cả phương sai và bias cùng thấp
Trade-off: Độ lệch vs. Phương sai
40CSE 445: Học máy | Học kỳ 1, 2016-2017
Hồi quy:
Hồi quy tuyến tính
41CSE 445: Học máy | Học kỳ 1, 2016-2017
Hồi quy tuyến tính
42
• Hồi quy tuyến tính: là phương pháp học máy có giám sát
đơn giản, được sử dụng để dự đoán giá trị biến đầu ra
dạng số (định lượng)
– Nhiều phương pháp học máy là dạng tổng quát hóa
của hồi quy tuyến tính
– Là ví dụ để minh họa các khái niệm quan trọng trong bài
toán học máy có giám sát
CSE 445: Học máy | Học kỳ 1, 2016-2017
Hồi quy tuyến tính
43
• Tại sao dùng hồi quy tuyến tính?
– Mối quan hệ tuyến tính: là sự biến đổi tuân theo quy
luật hàm bậc nhất
– Nhiều quan hệ là tuyến tính cục bộ (trong vùng quan tâm)
– Ta có thể biến đổi các biến đầu vào để tạo ra mối
quan hệ tuyến tính
– Diễn giải các mối quan hệ giữa biến đầu vào và đầu
ra - sử dụng cho bài toán suy diễn
CSE 445: Học máy | Học kỳ 1, 2016-2017
Hồi quy tuyến tính đơn giản
44
• Biến đầu ra Y và biến đầu vào X có mối
quan hệ tuyến tính giữa X và Y như sau:
• Các tham số của mô hình:
hệ số chặn (khi các xi=0)
độ dốc
CSE 445: Học máy | Học kỳ 1, 2016-2017
Hồi quy tuyến tính đơn giản
45CSE 445: Học máy | Học kỳ 1, 2016-2017
Figure 3.1 , ISL 2013
( ) 01 ββ +== xxfy
độ dốc
hệ số chặn
Hồi quy tuyến tính đơn giản
46
• β0 và β1 chưa biếtTa ước tính giá trị của
chúng từ dữ liệu đầu vào
• Lấy sao cho mô hình đạt “xấp xỉ tốt nhất”
(“good ﬁt”) đối với tập huấn luyện
CSE 445: Học máy | Học kỳ 1, 2016-2017
Hồi quy tuyến tính đơn giản
47
• Chúng ta ước lượng các hệ số thế nào (“ﬁt the
model”)?
• Điều gì khiến mô hình “xấp xỉ tốt nhất” đối với
dữ liệu?
CSE 445: Học máy | Học kỳ 1, 2016-2017
Đường thẳng phù hợp nhất
Cho tập dữ liệu đầu vào, ta cần tìm cách tính toán các
tham số của phương trình đường thẳng
0
2
4
6
8
10
12
14
0 2 4 6 8 10
? ? ?
CSE 445: Học máy | Học kỳ 1, 2016-2017 48
Bình phương nhỏ nhất
49
• Thông thường, để đánh giá độ phù hợp của mô
hình từ dữ liệu quan sát ta sử dụng phương pháp
bình phương nhỏ nhất (least squares)
• Lỗi bình phương trung bình (Mean squared error):
CSE 445: Học máy | Học kỳ 1, 2016-2017
Đường thẳng phù hợp nhất
Rất hiếm để có 1 đường thẳng khớp chính xác với dữ liệu, 
do vậy luôn tồn tại lỗi gắn liền với đường thẳng
Đường thẳng phù hợp nhất là đường giảm thiểu độ dao
động của các lỗi này
0
2
4
6
8
10
12
14
0 2 4 6 8 10
)ˆ( ii yy −
yˆ
CSE 445: Học máy | Học kỳ 1, 2016-2017 50
Phần dư (lỗi)
Biểu thức (yi - ) được gọi là lỗi hoặc phần dư
εi = (yi- )
Đường thẳng phù hợp nhất tìm thấy khi tổng bình phương lỗi là
nhỏ nhất
yˆ
yˆ
∑
=
−=
n
i
i yySSE
1
2)ˆ(
CSE 445: Học máy | Học kỳ 1, 2016-2017 51
Ước lượng tham số
52CSE 445: Học máy | Học kỳ 1, 2016-2017
• Các ước số tính được bằng cách cực
tiểu hóa MSE
• Hệ số chặn của đường thẳng
trong đó: và
x
xy
SS
SS
=1
ˆβ
∑
=
−−=
n
i
iixy yyxxSS
1
))(( ∑
=
−=
n
i
ix xxSS
1
2)(
Ước lượng tham số
Hệ số chặn của đường thẳng
trong đó
xy 10 ˆˆ ββ −=
n
y
y
n
i
i∑
=
=
1
n
x
x
n
i
i∑
=
=
1
CSE 445: Học máy | Học kỳ 1, 2016-2017 53
Hồi quy tuyến tính đơn giản
54CSE 445: Học máy | Học kỳ 1, 2016-2017
Figure 3.1 , ISL 2013
Hồi quy tuyến tính đơn giản
55CSE 445: Học máy | Học kỳ 1, 2016-2017
Ví dụ
X Y
kilos giá $ 
17 132
21 150
35 160
39 162
50 149
65 170
56
83.891=xySS
83.1612=xSS
83.37=x
83.153=y
533.0
83.1612
83.891
ˆ
1 ===
x
xy
SS
SSβ
91.13283.37553.083.153ˆˆ 10 =×−=−= xy ββ
phương trình tìm được là
Y = 132.91 + 0.553*X
CSE 445: Học máy | Học kỳ 1, 2016-2017
57
Diễn giải tham số
Trong ví dụ trước, tham số ước lượng của độ
dốc là 0.553. Điều này có nghĩa là khi thay đổi 1 kg 
của X, giá của Y thay đổi 0.553 $
1
ˆβ
CSE 445: Học máy | Học kỳ 1, 2016-2017
58
là hệ số chặn của Y. Nghĩa là, điểm mà đường
thẳng cắt trục tung Y. Trong ví dụ này là $132.91
$132.91
Đây là giá trị của Y khi X = 0
Diễn giải tham số
CSE 445: Học máy | Học kỳ 1, 2016-2017
0
ˆβ
Hồi quy tuyến tính đa biến
59
• Hồi quy tuyến tính đa biến:mô hình có nhiều hơn 1 
biến dùng để dự đoán biến đích
CSE 445: Học máy | Học kỳ 1, 2016-2017
Hồi quy tuyến tính đa biến
60CSE 445: Học máy | Học kỳ 1, 2016-2017
Figure 3.4 , ISL 2013
Hồi quy tuyến tính đa biến
61
• Diễn giải hệ số βj :
khi tăng Xj lên một đơn vịY sẽ tăng trung bình một lượng là βj
CSE 445: Học máy | Học kỳ 1, 2016-2017
Bình phương nhỏ nhất
62
• Tìm các ước số bằng phương pháp bình phương nhỏ
nhất
• Giải phương trình để tìm :
CSE 445: Học máy | Học kỳ 1, 2016-2017
Hồi quy tuyến tính đa biến
63CSE 445: Học máy | Học kỳ 1, 2016-2017
Figure 3.4 , ISL 2013
Ví dụ
Cho




















=
2
13
5
12
9
6
y














=
3
2
1
0
ˆ
ˆ
ˆ
ˆ
ˆ
β
β
β
β
β




















=
7 1
 1
0 1
7 1
3 3 1
6 1
42
943
128
134
116
193
X
CSE 445: Học máy | Học kỳ 1, 2016-2017 64
Ví dụ












=
944 484 315 72
448 295 53 35
315 153 38 26
 72 35 26 6 
1
1XX T












=
598
277
203
74 
yX T












=
7 910 17 3 16
4 42 3 3 9 
2 38 4 3 
1 1 1 1 1 1 
 1
 1
 6TX
CSE 445: Học máy | Học kỳ 1, 2016-2017 65
Ví dụ












==
0.01406 0.00431- 0.00144- 0.13737-
0.00431- 0.01234 0.00014- 0.01962-
0.00144- 0.00014- 0.03965 0.15375-
 0.13737- 0.01962- 0.15375- 2.59578 
ˆ yXXX TT 1-)(β












598
277
203
74 












=
0.46691 
0.11162-
0.07573-
.209753 
20975.3ˆ0 =β 11162.0ˆ2 −=β 46691.0ˆ3 =β07573.0ˆ1 −=β
321 46691.011162.007573.020975.3ˆ xxxy +−−=
CSE 445: Học máy | Học kỳ 1, 2016-2017 66
Dữ liệu định tính
67
• Xử lý dữ liệu dạng định tính (định danh, hạng mục) 
trong mô hình hồi quy tuyến tính
– vd: biến “giới tính”: “male” hoặc “female”
• Nếu chỉ có 2 khả năng trên, ta tạo biến giả (dummy 
variable)
CSE 445: Học máy | Học kỳ 1, 2016-2017
Dữ liệu định tính
68
• Nếu có nhiều hơn 2 giá trị, ta biểu diễn biến chúng
dùng nhiều biến giả
– vd: biến “màu mắt”: “blue”, “green” or “brown”
CSE 445: Học máy | Học kỳ 1, 2016-2017
Hồi quy tuyến tính
69
• Ưu điểm:
– Mô hình đơn giản, dễ hiểu
– Dễ diễn giải hệ số hồi quy
– Nhận được kết quả tốt khi dữ liệu quan sát nhỏ
– Nhiều cải tiến/mở rộng
• Nhược điểm:
– Mô hình hơi đơn giản nên khó dự đoán chính xác với dữ liệu có miền giá
trị rộng
– Khả năng ngoại suy (extrapolation) kém
– Nhạy cảm với dữ liệu ngoại lai (outliers) – do dung phương pháp bình
phương nhỏ nhất
CSE 445: Học máy | Học kỳ 1, 2016-2017
Câu hỏi?
70CSE 445: Học máy | Học kỳ 1, 2016-2017
Bài toán phân lớp: 
Hồi quy Logit 
(Logistic Regression)
71CSE 445: Học máy | Học kỳ 1, 2016-2017
Phân lớp
72
• Hồi quy – dự đoán biến định lượng (liên tục) Y
– Trong nhiều ứng dụng, biến đầu ra là định tính hoặc kiểu
định danh/hạng mục
• Phân lớp: Dự đoán biến đầu ra định tính
– Gán mỗi quan sát cho một lớp/mục
– vd: Bộ phân lớp K-láng giềng gần nhất trong bài học
trước
CSE 445: Học máy | Học kỳ 1, 2016-2017
Ví dụ về phân lớp
73
• Các giao dịch thẻ tín dụng
– Có phải dịch gian lận hay không khi ta dựa trên thông tin 
lịch sử giao dịch của chúng?
• Rủi ro vay nợ
– Liệu một cá nhân có bị vỡ nợ với tài khoản tín dụng của
mình không?
• Thị giác máy (Computer Vision)
– Hiểu được các đối tượng xuất hiện trong ảnh
CSE 445: Học máy | Học kỳ 1, 2016-2017
Ví dụ về phân lớp
74
Figure 4.1 , ISL 2013*
CSE 445: Học máy | Học kỳ 1, 2016-2017
Phân lớp và Hồi quy
75
• Phân lớp và Hồi quy có liên quan với nhau lớn.
• Phân lớp hoạt động như hồi quy:
– Dự đoán xác suất của 1 mẫu dữ liệu thuộc vào một
lớp, ta gán vào 1 lớp có xác suất cao nhất
CSE 445: Học máy | Học kỳ 1, 2016-2017
Câu đố:
76
• Ta dự đoán tình trạng sức khỏe của bệnh nhân dựa trên các triệu chứng.*
– Giả sử ta mã 3 chẩn đoán có thể xảy ra như sau:
và sử dụng hồi quy tuyến tính (bỏ qua thực tế Y là có giá trị rời rạc) để xây
dựng mô hình
• Liệu đó có phải là cách tiếp cận tốt không? Tại sao?
• Vấn đề gì xảy ra khi sử dụng phương pháp này để dự đoán biến đầu
ra dạng định tính?
*Ví dụ lấy từ mục 4.2, ISL 2013
CSE 445: Học máy | Học kỳ 1, 2016-2017
Câu đố
77
• Vấn đề gì xảy ra khi sử dụng phương pháp này để dự đoán biến
đầu ra dạng định tính?
– Các biến định tính chứa giá trị không có thứ tự
• Khi mã hóa chúng ở dạng số sẽ tạo ra sắp xếp tùy ý
• Mô hình tuyến tính (và kết quả dự đoán) phụ thuộc vào sự sắp
xếp này do dùng phương pháp bình phương nhỏ nhất
CSE 445: Học máy | Học kỳ 1, 2016-2017
Câu đố
78
• Vấn đề gì xảy ra khi sử dụng phương pháp này để dự đoán
biến đầu ra dạng định tính?
– Mã hóa biến định tính có thể phù hợp với kiểu dữ liệu có sắp xếp
tự nhiên: vd. “mild”, “moderate” and “severe”
– Với biến nhị phân (chỉ có 2 lớp), phương pháp này không nhạy cảm
khi việc mã hóa thế nào
• Ta có thể dùng ngưỡng (threshold) để phân lớp các giá trị của biến định
tính phục vụ cho bài toán dự đoán
• Giá trị của biến đích có thể không nằm trong đoạn [0, 1], và không thể
được giải thích như là xác suất thuộc về một lớp cụ thể
CSE 445: Học máy | Học kỳ 1, 2016-2017
Hồi quy Logistic
79
• Phân lớp nhị phân: Y nhận 2 giá trị (“0” hoặc “1”) 
với 2 lớp tương ứng
• Mô hình hồi quy Logistic đối với bài toán phân lớp
nhị phân
– Ngưỡng để đạt được các quyết định phân lớp
– Là mô hình hồi quy tuyến tính có chỉnh sửa để dự đoán
xác suất trong [0, 1]
80
CSE 445: Học máy | Học kỳ 1, 2016-2017
Hồi quy Logistic
80
• Hàm Logistic (sigmoid) xấp xỉ biến đầu ra
• Hàm Logistic
– Đường cong chữ S
– Luôn nhận giá trị trong (0, 1)  xác suất hợp lệ
• Mô hình hồi quy Logistic
CSE 445: Học máy | Học kỳ 1, 2016-2017
Hồi quy Logistic
81
  =

(βO+ β1X)
1 + 
(βO+ β1X)
CSE 445: Học máy | Học kỳ 1, 2016-2017
Hồi quy Logistic
82CSE 445: Học máy | Học kỳ 1, 2016-2017

(βO+ β1X)
1 + 
(βO+ β1X)  =
Hồi quy Logistic
83CSE 445: Học máy | Học kỳ 1, 2016-2017
  =

(βO+ β1X)
1 + 
(βO+ β1X)
Hồi quy Logistic
84
• Các tham số của mô hình β0 và β1 được ước
lượng từ dữ liệu huấn luyện
– Trong phương pháp hồi quy tuyến tính, ta sử dụng
bình phương nhỏ nhất
• Tìm tham số mô hình hồi quy Logistic sử dụng
phương pháp Ước lượng hợp lý cực đại
(maximum likelihood estimation)
CSE 445: Học máy | Học kỳ 1, 2016-2017
Hồi quy Logistic đa biến
85
• Ta có thể mở rộng hồi quy logistic với trường
hợp nhiều biến đầu vào:
CSE 445: Học máy | Học kỳ 1, 2016-2017
Hồi quy Logistic
86
• Ưu điểm:
– Mở rộng của hồi quy tuyến tính
– Không cần siêu tham số điều chỉnh mô hình
• Nhược điểm:
– Không thể mô hình hóa được các bài toán có hàm quyết định
dạng phức tạp
– Có thể bị overﬁt dữ liệu huấn luyện
• Khắc phục được bằng cách điều chỉnh trong phương pháp hợp lý cực
đại (maximum likelihood)
– Chỉ giải dạng bài toán phân lớp nhị phân
CSE 445: Học máy | Học kỳ 1, 2016-2017
Tóm tắt
87
• Học có giám sát (Supervised learning) – học từ các mẫu quan
sát được
• Hồi quy tuyến tính (Linear regression) – đơn giản, mô
hình dễ diễn giải cho dự đoán biến đích dạng liên tục
• Hồi quy Logistic – phương pháp hồi quy dung để dự đoán xác
suất cho bài toán phân lớp nhị phân
– Phương pháp hợp lý cực đại (Maximum likelihood): kỹ thuật ước
lượng giá trị các tham số
CSE 445: Học máy | Học kỳ 1, 2016-2017
Câu hỏi?
88CSE 445: Học máy | Học kỳ 1, 2016-2017
89CSE 445: Học máy | Học kỳ 1, 2016-2017
Maximum Likelihood
• Idea: choose the most likely value of parameter given 
the available observations
• Consider the following example
– We have a distribution with parameter θ
– We want to estimate θ based on training data using 
maximum likelihood estimation
90CSE 445: Học máy | Học kỳ 1, 2016-2017
Maximum Likelihood
91
x(1)
• For ﬁxed θ = α, we can ﬁnd the probability density 
corresponding to a single observation x(1): p(x(1); θ = α)
p(x; θ = α)
p(x(1); θ = α)
CSE 445: Học máy | Học kỳ 1, 2016-2017
Maximum Likelihood
92
x
• The likelihood for a set of training observations is the product of 
the individual densities (ﬁxed θ)
p(x; θ = α)
CSE 445: Học máy | Học kỳ 1, 2016-2017
Maximum Likelihood
93
x
• If the value of θ is not ﬁxed, but the set of training observations is 
ﬁxed, the likelihood will change as θ changes
p(x; θ = β)
CSE 445: Học máy | Học kỳ 1, 2016-2017
Maximum Likelihood
94
x
• If the value of θ is not ﬁxed, but the set of training observations is 
ﬁxed, the likelihood will change as θ changes
p(x; θ = γ)
CSE 445: Học máy | Học kỳ 1, 2016-2017
Maximum Likelihood
95
θ =β ˆ = α θ = γ
• We can plot the likelihood value (y-axis) against the parameter value θ (x-
axis) for a fixed training set
• The maximum likelihood estimator (ˆ) for θ is the parameter values that 
corresponds to the highest likelihood
L(θ ;ˆ x(1), , x(7))
CSE 445: Học máy | Học kỳ 1, 2016-2017
Maximum Likelihood
96
• Maximum likelihood estimation can be used to estimate 
multiple parameters
• Likelihood function for logistic regression:
– Fit parameters O and 1by maximizing this function using the 
training set
CSE 445: Học máy | Học kỳ 1, 2016-2017
File đính kèm:
bai_giang_hoc_may_bai_2_hoc_co_giam_sat_nguyen_thanh_tung.pdf