Giáo trình Xử lý ảnh - Chương 20: Nhận dạng mẫu. Phân lớp và đánh giá
Chọn lọc đặc trưng
Nếu ta muốn một hệ thống phân biệt các loại đối tượng khác nhau, đầu tiên chúng
ta phải quyết định nên xác định những đặc điểm nào để tạo ra các tham số miêu tả.
Các đặc điểm riêng biệt cần xác định gọi là các đặc trưng của đối tượng và các giá trị
tham số kết quả gồm có vec tơ đặc trưng đối với từng đối tượng. Việc chọn lựa các
đặc trưng thích hợp là rất quan trọng, vì chỉ có chúng mới được sử dụng để nhận biết
đối tượng.
Có vài phương tiện phân tích để hướng dẫn chọn lựa các đặc trưng. Khả năng trực
giác thường xuyên chỉ đạo danh sách các đặc trưng có ích tiềm tàng. Các kỹ thuật
sắp xếp đặc trưng tính toán có liên quan đến số lượng các đặc trưng khác nhau. Điều
này cho phép lược bớt danh sách chỉ còn một vài đặc trưng tốt nhất.
Các đặc trưng tốt có bốn đặc điểm:
1. Sự phân biệt đối xử. Các đặc trưng phải nhận những giá trị khác nhau một cách
đáng kể đối với các đối tượng thuộc các lớp khác nhau. Ví dụ, đường kính là
dặc tính tốt trong ví dụ sắp xếp trái cây ở chương 18, vì nó nhận những giá trị
khác nhau đối với những quả sơ ri và những quả nho.
2. Tính tin cậy. Các đặc trưng phải nhận các giá trị giống nhau đối với mọi đối
tượng cùng lớp. Ví dụ, màu sắc có thể là đặc trưng kém đối với những quả táo
nếu chúng xuất hiện theo các mức độ chín không ổn định. Tức là, một quả táo
xanh và một quả táo chín (đỏ) có thể rất khác nhauvề màu sắc, mặc dù cả hai
đều thuộc lớp đối tượng là các quả táo.
3. Tính độc lập. Nhiều đặc trưng được sử dụng khác nhau không được tương quan
với nhau. Đường kính và trọng lượng của một trái cây sẽ tạo thành các đặc
trưng tương quan chặt, vì trọng lượng tỷ lệ gần đúng với đường kính mũ ba.
Bài toán mà cả đường kính lẫn trọng lượng về bản chất đều phản ánh cùng một
tính chất, ấy là kích thước của trái cây. Trong khi các đặc trưng tương quan
chặt có thể kết hợp (ví dụ, bằng cách lấy trung bình tất cả chúng cùng với nhau)402
để làm giảm tính nhậy cảm đối với nhiễu, thì nói chung chúng lại không được
sử dụng như những đặc trưng độc lập.
4. Các số nhỏ. Tính phức tạp của một hệ thống nhận dạng mẫu tăng nhanh chóng
theo kích cỡ (số các đặc trưng được dùng) của hệ thống. Quan trọng hơn là số
các đối tượng cần có để huấn luyện bộ phân lớp và để đo lường hiệu suất của
nó tăng theo cấp số mũ với số các đặc trưng. Trong vài trường hợp, để có thể
đạt được lượng dữ liệu cần thiết cho việc huấn luyện bộ phân lớp tương xứng
chỉ là điều hão huyền. Cuối cùng, việc thêm các đặc trưng nhiễu hay đặc trưng
tương quan chặt với các đặc trưng hiện có có thể làm suy giảmhiệu suất của
những bộ phân lớp, đặc biệt bởi vì kích thước giới hạn của tập huấn luyện.
Tóm tắt nội dung tài liệu: Giáo trình Xử lý ảnh - Chương 20: Nhận dạng mẫu. Phân lớp và đánh giá
401
Ch¬ng 20
NHẬN DẠNG MẪU:
PHÂN LỚP VÀ ĐÁNH GIÁ
20.1. GIỚI THIỆU
Trong chương 18, chúng ta đã giới thiệu về nhận dạng mẫu thống kê và đã đề cập
đến việc tách và trích chọn các đối tượng từ một cảnh phức tạp. Chương 19 đã chỉ ra
các phương pháp xác định những đặc điểm của các đối tượng đó. Trong chương này,
chúng ta tiếp cận bài toán nhận biết các đối tượng bằng cách phân lớp chúng thành
từng nhóm. Có lẽ phải viết nhiều về chủ đề này và chúng ta chỉ có thể giới thiệu các
khái niệm cơ bản ở đây. Nếu muốn nghiên cứu đầy đủ hơn, độc giả nên tham khảo
tài liệu về chủ đề này (Phụ lục 2)
20.2. PHÂN LỚP
20.2.1. Chọn lọc đặc trưng
Nếu ta muốn một hệ thống phân biệt các loại đối tượng khác nhau, đầu tiên chúng
ta phải quyết định nên xác định những đặc điểm nào để tạo ra các tham số miêu tả.
Các đặc điểm riêng biệt cần xác định gọi là các đặc trưng của đối tượng và các giá trị
tham số kết quả gồm có vec tơ đặc trưng đối với từng đối tượng. Việc chọn lựa các
đặc trưng thích hợp là rất quan trọng, vì chỉ có chúng mới được sử dụng để nhận biết
đối tượng.
Có vài phương tiện phân tích để hướng dẫn chọn lựa các đặc trưng. Khả năng trực
giác thường xuyên chỉ đạo danh sách các đặc trưng có ích tiềm tàng. Các kỹ thuật
sắp xếp đặc trưng tính toán có liên quan đến số lượng các đặc trưng khác nhau. Điều
này cho phép lược bớt danh sách chỉ còn một vài đặc trưng tốt nhất.
Các đặc trưng tốt có bốn đặc điểm:
1. Sự phân biệt đối xử. Các đặc trưng phải nhận những giá trị khác nhau một cách
đáng kể đối với các đối tượng thuộc các lớp khác nhau. Ví dụ, đường kính là
dặc tính tốt trong ví dụ sắp xếp trái cây ở chương 18, vì nó nhận những giá trị
khác nhau đối với những quả sơ ri và những quả nho.
2. Tính tin cậy. Các đặc trưng phải nhận các giá trị giống nhau đối với mọi đối
tượng cùng lớp. Ví dụ, màu sắc có thể là đặc trưng kém đối với những quả táo
nếu chúng xuất hiện theo các mức độ chín không ổn định. Tức là, một quả táo
xanh và một quả táo chín (đỏ) có thể rất khác nhauvề màu sắc, mặc dù cả hai
đều thuộc lớp đối tượng là các quả táo.
3. Tính độc lập. Nhiều đặc trưng được sử dụng khác nhau không được tương quan
với nhau. Đường kính và trọng lượng của một trái cây sẽ tạo thành các đặc
trưng tương quan chặt, vì trọng lượng tỷ lệ gần đúng với đường kính mũ ba.
Bài toán mà cả đường kính lẫn trọng lượng về bản chất đều phản ánh cùng một
tính chất, ấy là kích thước của trái cây. Trong khi các đặc trưng tương quan
chặt có thể kết hợp (ví dụ, bằng cách lấy trung bình tất cả chúng cùng với nhau)
402
để làm giảm tính nhậy cảm đối với nhiễu, thì nói chung chúng lại không được
sử dụng như những đặc trưng độc lập.
4. Các số nhỏ. Tính phức tạp của một hệ thống nhận dạng mẫu tăng nhanh chóng
theo kích cỡ (số các đặc trưng được dùng) của hệ thống. Quan trọng hơn là số
các đối tượng cần có để huấn luyện bộ phân lớp và để đo lường hiệu suất của
nó tăng theo cấp số mũ với số các đặc trưng. Trong vài trường hợp, để có thể
đạt được lượng dữ liệu cần thiết cho việc huấn luyện bộ phân lớp tương xứng
chỉ là điều hão huyền. Cuối cùng, việc thêm các đặc trưng nhiễu hay đặc trưng
tương quan chặt với các đặc trưng hiện có có thể làm suy giảmhiệu suất của
những bộ phân lớp, đặc biệt bởi vì kích thước giới hạn của tập huấn luyện.
Trong thực tế, quá trình chọn lựa đặc trưng thường bao gồm cả việc kiểm tra tập
các đặc trưng hợp lý quatrực giác và việc giảm tập xuống còn một số các đặc trưng
tốt nhất có thể chấp nhận. Thường có ít hoặc không có sẵn các đặc trưng lý tưởng
dưới dạng các tính chất đã nói ở trên.
20.2.2. Thiết kế bộ phân lớp
Thiết kế bộ phân lớp bao gồm việc thiết lập cấu trúc logic của bộ phân lớp và cơ
sở toán học của quy tắc phân lớp. Thông thường, đối với mỗi đối tượng thường gặp,
sự phân lớp tính toán, với từng lớp, giá trị báo hiệu (bằng độ lớn của nó) mức độ mà
đối tượng đó tương tự đối tượng điển hình của lớp đó. Giá trị này được tính như một
hàm đặc trưng và nó được dùng để chọn lớp gần giống với công việc được giao nhất.
Hầu hết các quy tắc quyết định bộ phân lớp đều giảm đến một vạch ngưỡng phân
chia các không gian kích cỡ thành các vùng rời nhau, mỗi lớp một (hoặc nhiều) vùng.
Mỗi vùng (phạm vi các giá trị đặc trưng) ứng với một lớp riêng lẻ. Nếu các giá trị
đặc trưng nằm trong một vùng riêng biệt thì đối tượng được ấn định cho lớp tương
ứng. Trong vài trường hợp, một hoặc nhiều vùng như vậy có thể ứng với một lớp
“không xác định”.
20.2.3. Huấn luyện bộ phân lớp
Một khi các quy tắc quyết định cơ bản của bộ phân lớp đã được thiết lập thì ta
phải xác định các giá trị ngưỡng riêng biệt phân tách các lớp. Điều này thường được
thực hiện bằng cách huấn luyện bộ phân lớp theo nhóm các đối tượng đã biết. Tập
huấn luyện là một tập hợp các đối tượng từ mỗi lớp đã được nhận biết trước đó bằng
một phương pháp chính xác nào đó. Các đối tượng trong tập huấn luyện được đo, và
không gian kích cỡ được phân chia, bằng các bề mặt quyết định, thành các vùng mà
độ chính xác của bộ phân lớp là tối đa khi nó hoạt động trên tập huấn luyện.
Khi huấn luyện một bộ phân lớp, ta có thể sử dụng quy tắc đơn lẻ, ví dụ như tối
thiểu hoá tổng các sai số phân lớp. Nếu một vài sự phân lớp sai lầm có thể gây rắc rối
hơn những cái khác thì ta có thể thiết lập một hàm giá để giải thích điều này bằng
cách cân nhắc các sai số khác nhau một cách gần đúng. Các đường quyết định sau đó
được đặt vào để tối thiểu hoá toàn bộ “giá” của việc thao tác bộ phân lớp.
Nếu tập huấn luyện là biểu diễn của các đối tượng nói chung thì bộ phân lớp loại
cũng phải thực hiện xung quanh các đối tượng mới giống như nó đã từng thực hiện
trên tập huấn luyện. Có được một tập huấn luyện đủ lớn thường là một công việc
gian khổ. Để được thể hiện, tập huấn luyện phải bam gồm các ví dụ về tất cả những
đối tượng có thể gặp, kể cả những đối tượng hiếm khi nhìn thấy. Nếu tập huấn luyện
ngăn chận một đối tượng không phổ biến nào đó, thì nó không biểu hiện. Nếu nó
chứa các sai số phân lớp thì nó bị thành kiến.
403
20.2.4. Xác định hiệu suất
Sự chính xác của một bộ phân lớp có thể được đánh giá trực tiếp bằng cách liệt kê
hiệu suất của nó dựa trên tập các đối tượng kiểm tra đã biết. Nếu tập kiểm tra đủ lớn
để biểu diễn các đối tượng lớn và nếu nó không có sai số, thì hiệu suất được đánh giá
có thể rất hữu ích.
Một phương pháp lựa chọn cho việc đánh giá hiệu suất là sử dụng tập kiểm tra của
các đối tượng đã biết để đánh giá PDF của những đặc trưng theo từng nhóm. Từ
những PDF cơ bản đã cho, ta có thể sử dụng các tham số phân lớp để tính tỷ lệ sai số
mong muốn. Nếu đã dạng tổng quát của các PDF đó thì kỹ thuật này có thể sử dụng
tập kiểm tra kích thước ở mép tốt hơn.
Ta muốn có được hiệu suất của bộ phân lớp trên tập huấn luyện như một phép đo
toàn bộ hiệu suất của nó, nhưng đánh giá này thường bị nghi ngờ về tính lạc quan.
Một phương pháp tiếp cận tốt hơn là sử dụng một tập kiểm tra riêng biệt đối với việc
đánh giá hiệu suất của bộ phân lớp. Tuy nhiên, điều này làm tăng đáng kể sự cần
thiết của những dữ liệu trước phân lớp.
Nếu những đối tượng đã phân lớp trước đây được đánh giá cao, thì ta có thể sử
dụng một thủ tục vòng luân chuyển mà trong đó bộ phân lớp được huấn luyện với
hầu hết mọi đối tượng và tiếp theo sau là đối tượng đó được phân lớp. Khi điều này
được thực hiện với tất cả các đối tượng thì ta sẽ có một đánh giá của toàn bộ hiệu
suất thực hiện của bộ phân lớp.
20.3. CHỌN LỰA ĐẶC TRƯNG
Trong một bài toán nhạn dạng mẫu, ta thường phải đối mặt với côngviệc chọn lựa
trong nhiều đặc trưng sẵn có, đặc trưng nào xác định và thể hiện bộ phân lớp. Bài
toán chọn lựa đặc trưng đã nhận được sự quan tâm đáng kể trong tài liệu, nhưng lại
nổi lên tình trạng không rõ ràng. Phần này dành cho độc giả như một vấn đề lý thú.
Như đã lưu ý trước đây, ta tìm kiếm một tập nhỏ các đặc trưng tin cậy, độc lập và
sự phân biệt đối xử. Nói chung, ta mong muốn làm suy giảm hiệu suất của bộ phân
lớp khi các đặc trưng được đánh giá, ít ra cũng là những đặc trưng hữu ích. Thực tế,
đánh giá nhiễu hay các đặc trưng tương quan chặt có thể thực sự cải tiến hiệu suất
thực hiện.
Sau đó, chọn lựa đặc trưng có thể được coi như quá trình đánh giá một vài đặc
trưng và kết hợp các đặc trưng có liên quan khác, cho đến khi tập đặc trưng trở nên
dễ sử dụng và sự thực hiện vẫn còn chính xác.
Nếu tập đặc trưng được giảm từ M đặc trưng xuống còn một lượng N nào đó nhỏ
hơn, thì chúng ta sẽ tìm kiếm tập N đặc trưng riêng biệt để tối thiểu hoá toàn bộ việc
thực hiện bộ phân lớp.
Một phương pháp tiếp cận bằng cách lặp đi lặp lại một thủ tục đơn giản nhiều lần
để chọn lựa đặc trưng được cho dưới đây. Đối với tất cả các tập con của N đặc trưng
có thể có, huấn luyện bộ phân lớp, và xác định hiệu suất của nó bằng cách liệt kê các
tỷ số phân lớp nhầm các nhóm khác nhau của bộ phân lớp. Sau đó tạo ra một chỉ số
hiệu suất tổng thể là một hàm tỷ số lỗi. Cuối cùng, sử dụng tập N đặc trưng đó để tạo
ra chỉ số hiệu suất tốt nhất.
Dĩ nhiên bài toán với cách tiếp cận bằng cách lặp đi lặp lại một thủ tục đơn giản
nhiều lần là một khối lượng khổng lồ đối với tất cả trừ các bài toán nhận dạng mẫu
đơn giản nhất. Thực tế, thường thì tài nguyên chỉ đủ để huấn luyện và đánh giá bộ
phân lớp. Trong đa số các bài toán thực tiễn, phương pháp tiếp cận bằng cách lặp đi
404
lặp lại một thủ tục đơn giản nhiều lần là không thực tế và một kỹ thuật ít tốn tiền phải
được sử dụng để đạt được cùng một mục đích.
Trong phần thảo luận dưới đây, chúng ta sẽ xem xét trường hợp giảm một bài toán
hai đặc trưng xuống còn một đặc trưng đơn giản. Giả sử tập huấn luyện là có sẵn và
chứa các đối tượng của M lớp khác nhau. Đặt Nj là số đối tượng trong lớp j. Hai đặc
trưng xij và yij thu được khi xác định đối tượng thứ i trong lớp j. Ta có thể khởi đầu
bằng việc tính giá trị trung bình của từng đặc trưng trong mỗi lớp:
jN
i
ij
j
xj xN 1
1
(1)
và
jN
i
ij
j
yj yN 1
1
(2)
Dấu mũ trên đầu xj và yj nhắc ta rằng đây là những đánh giá của các giá trị trung
bình trong lớp dựa trên tập huấn luyện, chứ không phải là các giá trị trung bình thật
sự của lớp.
20.3.1. Độ lệch đặc trưng
Lý tưởng mà nói, các đặc trưng phải nhận các giá trị giống nhau đối với mọi đối
tượng trong cùng một lớp. Độ lệch đặc trưng x trong lớp j được đánh giá là
jN
i
xjij
j
xj xN 1
2
2 1 (3)
và đối với đặc trưng y là
jN
i
yjij
j
yj yN 1
2
2 1 (4)
20.3.2. Tương quan đặc trưng
Sự tương quan của các đặc trưng x và y trong lớp j có thể được đánh giá bởi
yjxj
N
i
yjijxjij
j
xyj
j
yx
N
1
1
(5)
Đại lượng này nằm giữa -1 và +1. Giá trị 0 cho thấy rằng hai đặc trưng là không
tương quan, trong khi giá trị gần +1 cho thấy một mức đọ cao của sự tương quan. Giá
trị -1 chứng tỏ rằng mỗi biến tỷ lệ với giá trị âm của biến khác. Nếu độ lớn của một
tương quan xấp xỉ 1, thì hai đặc trưng có thể được kết hợp thành một hay có thể bỏ đi
một trong hai đặc trưng đó.
20.3.3. Khoảng cách phân tách lớp
Một phép tính xác đáng về khả năng của một đặc trưng để phân biệt hai lớp là
khoảng cách độ lệch đã chuẩn hoá giữa các giá trị trung bình của lớp. Với đặc trưng
x, khoảng cách này được cho bởi
405
22
xkxj
xkxj
xjkD
(6)
trong đó j, k là hai lớp. Rõ ràng, đặc trưng cao hơn là đặc trưng tạo ra sự tách lớp
phổ biến nhất.
20.3.4. Giảm chiều
Có nhiều phương pháp kết hợp hai đặc trưng x và y thành một đặc trưng z đơn lẻ.
Một phương pháp đơn giản là sử dụng một hàm tuyến tính (Xem phần 13.6.2.1)
byaxz (7)
Bởi vì hiệu suất phân lớp không bị ảnh hưởng bởi việc lấy tỷ lệ độ lớn của các đặc
trưng, chúng ta có thể lợi dụng sự hạn chế về độ lớn, ví dụ như
122 ba (8)
Biểu thức này có thể hợp nhất với biểu thức (7) bằng cách viết
sincos yxz (9)
trong đó là một biến mới chỉ rõ tỷ lệ của x và y trong biểu thức.
Nếu mỗi đối tượng trong tập huấn luyện tương ứng với một điểm trong không
gian đặc trưng hai chiều (ví dụ mặt phẳng x, y), thì biểu thức (9) miêu tả mọi điểm
lên trục z, làm thành với trục x một góc . Điều này được cho trong bảng 20-1. Rõ
ràng, phải được chọn để tối thiểu hoá sự tách lớp hay một tiêu chuẩn chất lượng
nào đó của một đặc trưng. Để hiểu thêm về sự giảm chiều, độc giả nên tham khảo
một cuốn sách nói về nhận dạng mẫu.
HÌNH 20-1
Hình 20-1 Giảm chiều bằng phép chiếu
20.4. SỰ PHÂN LỚP THỐNG KÊ
Trong phần này, chúng ta sẽ xem xét một vài phương pháp thống kê phổ biến
được dùng cho phân lớp.
406
20.4.1. Lý thuyết quyết định thống kê
Giả sử chúng ta có một bài toán sắp xếp trái cây đơn giản như trong chương 18,
nhưng chỉ với hai lớp và một đặc trưng đơn lẻ. Nghĩa là các đối tượng thể hiện chính
bản thân chúng theo lớp 1 (anh đào) hoặc lớp 2 (táo). Đối với mỗi đối tượng, ta xác
định một tính chất, đường kính, và ta gọi đặc trưng này là x.
Có thể biết trước PDF của đường kính x đối với một hay cả hai lớp đối tượng. Ví
dụ, Hiệp hội nông dân trồng anh đào có thể phát hành một bản tin mở đầu là đường
kính trung bình của các quả anh đào là 20 mm và PDF là xẫpỉ hàm Gauss với độ lệch
tiêu chuẩn là 4 mm. Nếu không biết PDF của đừng kính những quả táo, ta có thể ước
lượng nó bằng cách đo một lượng lớn các quả táo, vẽ lược đồ các đường kính của
chúng và tính trung bình và độ lệch. Sau đó chuẩn hoá thành đơn vị diện tích và có lẽ
nên làm trơn, có thể coi lược đồ này như một ước lượng củaPDF tương ứng.
20.4.1.1. Xác suất tiên nghiệm
Nói chung, đó là khả năng một lớp hầu như sẽ xuất hiện không theo thứ tự. Ví dụ,
giả sử băng truyền trong ví dụ sắp xếp trái cây đã biết, vận chuyển số anh đào nhiều
gấp hai lần số táo mỗi chu kỳ vận hành. Vì thế, ta có thể nói rằng một xác suất tiên
nghiệm của hai lớp là
3
1
3
2
2 CPCP i vµ (10)
Các biểu thức này phát biểu đơn giản rằng lớp 1 có khả năng xuất hiện gấp hai lần
lớp 2. Xác suất tiên nghiệm biểu diễn điều mà chúng ta biết về một đối tượng trước
khi nó được xác định. Trong ví dụ này, chúng ta ta biết rằng một đối tượng chưa xác
định là anh đào có khả năng xuất hiện gấp hai lần táo.
Xác suất có điều kiện. Hình 20-2 trình bày hình dạng của hai PDF. Ta ký hiệu
PDF có điều kiện đối với đường kính anh đào là P(x|C1), có thể đọc là “xác suất mà
đường kính x sẽ xuất hiện, khi đã biết xác suất xuất hiện đối tượng thuộc lớp 1”.
Tương tự, P(x|C2) là xác suất xuất hiện của đường kính x, khi đã biết xác suất xuất
hiện lớp 2.
HÌNH 20-2
Hình 20-2 Các PDF có điều kiện
20.4.1.2. Định lý Bayes
Trước khi một đối tượng được xác định, ta chỉ biết nó chỉ gồm xác suất tiên
nghiệm của biểu thức (10). Tuy nhiên, sau khi xác định, ta có thể sử dụng số đo và
407
các PDF có điều kiện để chứng tỏ hiểu biết của ta về thành viên lớp của đối tượng.
Sau khi xác định, cái gọi là xác suất hậu nghiệm để đối tượng thuộc lớp i được cho
bởi định lý Bayes; tức là,
xp
CPCxp
xCP iii
|
| (11)
trong đó
2
1
|
i
ii CPCxpxp (12)
là hệ số chuẩn hoá cần thiết để tạo thành tổng các xác suất hậu nghiệm có tổng
bằng 1.
Định lý Bayes cho phép ta kết hợp xác suất tiên nghiệm của thành ... tới việc phân loại và lập bảng số lượng
từng loại đối tượng tìm thấy. Thông thường, những gì cần thiết là đánh giá của một
hay nhiều tỷ lệ-tức là phần nào đó trong toàn bộ đối tượng nằm trong mỗi lớp. Đối
với vấn đề này, chúng ta đưa ra chủ đề ước lượng tỷ lệ thức từ lĩnh vực thống kê.
424
20.6.1. Trường hợp hai lớp, không sai số
Định nghĩa. Giả sử chúng ta muốn xác định tỷ lệ p của số sinh viên nữ trong một
trường đại học (0 p 1). Chúng ta bắt đầu với các định nghĩa như sau:
Pp {lựa chọn sinh viên ngẫu nhiên là nữ} (40)
Pq {lựa chọn sinh viên ngẫu nhiên được gọi là nữ} (41)
Vì chúng ta đang giả thiết rằng chúng ta có thể chỉ ra số sinh viên nữ mà không có
sai sót nào, p và q hoàn toàn giống nhau trong trường hợp này.
Tiếp theo chúng ta đưa ra một thí nghiệm bằng cách phỏng vấn N sinh viên được
chọn lựa ngẫu nhiên. Chúng ta tìm được n trong số họ là nữ và N - n trong số họ là
nam. Tự nhiên ta có tỷ lệ mẫu,
N
nq
(42)
như một ước lượng của tỷ lệ sinh viên nữ. Tuy nhiên, trừ khi N đủ lớn để bao gồm
toàn bộ số sinh viên, sẽ chẳng có gì tốt hơn một ước lượng của tỷ lệ p cơ bản thực sự.
Nếu N là nhỏ, nó có thể là một ước lượng kém. Khác biệt giữa giá trị của
q từ một thí
nghiệm cụ thể nào đó với tỷ lệ thực sự p có thể quy về sai số lấy mẫu thống kê.
20.6.1.1. Sự phân bố của ước lượng
Nếu chúng ta lặp lại thí nghiệm trên nhiều lần, chúng ta sẽ quan sát được các giá
trị khác nhau của
q . Trong thực tế,
q là một biến ngẫu nhiên với phân bố nhị thức.
Với N lớn (chẳng hạn, lớn hơn 24), phân bố này là xấp xỉ của Gauss (chuẩn hoá) với
giá trị trung bình và độ lệch tiêu chuẩn tưng ứng.
N
pppq q
1
vµ (43)
Nhắc lại rằng xấp xỉ 95% diện tích phân bố chuẩn nằm trong phạm vi hai độ lệch
tiêu chuẩn trên mỗi phần giá trị trung bình. Do đó, ta có thể nói với độ tin cậy 95%
mà bất kỳ một tỷ lệ quan sát
q nào cũng nằm giữa p - 2q và p + 2q.
Khi kích thước mẫu tăng, sự phân bố trở nên từ từ hẹp lại hơn xung quanh giá trị
trung bình p của nó, đó thực sự là tỷ lệ sinh viên nữ trong trường đại học. Vì thế,
chúng ta có thể ước lượng p càng chính xác như mong muốn bằng cách thực hiện với
N đủ lớn.
Bởi vì chúng ta không biết bắt đầu với giá trị p nào, nên thật khó khăn để tính q.
Tại nơi bắt đầu, chúng ta có thể thực hiện nó an toàn bằng cách giả định trường hợp
xấu nhất. Chú ý là p = 0.5% sẽ cực đại hoá q, vì vậy việc sử dụng giá trị đó sẽ mang
lại một ước lượng có chừng mực đối với độ rộng của phân bố. Sau khi dữ liệu được
thu thập, chúng ta thay thế
q vào p trong biểu thức (43) để có một ước lượng tốt hơn.
20.6.1.2. Ví dụ: thăm dò ý kiến
Một ví dụ cụ thể, cho N = 1000. Giả sử rằng p = 0.5; q =1.58% và khoảng tin cậy
của chúng ta xấp xỉ 3%. Đây là phương pháp thường dùng cho kịch bản đối với
425
việc thăm dò chính trị được đăng tải trên các báo. Họ chất vấn một ngàn người và
xác nhận độ chính xác là 3%.
20.6.2. Trường hợp hai lớp với sai số phân loại
Nguyên lý trên đây có thể áp dụng nếu chúng ta phân loại các đối tượng bằng bộ
phân lớp hai lớp không sai số và sử dụng các kết quả để đánh giá tỷ lệ. Giả sử rằng
phương pháp của chúng ta để xác định giới tính không rõ ràng cho lắm. Ở đây, chúng
ta xem xét sai số phân loại ảnh hưởng tới việc đánh giá tỷ lệ.
Cho hai tỷ lệ sai số của bộ phân lớp là
P 1 {nữ được gọi là nam} (44)
Và
P 2 {nam được gọi là nữ} (45)
Ngoài ra,
q = n/N được phân bố bình thường (gần đúng với N lớn), nhưng giá trị
trung bình của phân bố bây giờ là
p-1 2 11pq (46)
đây là xác suất hoặc là giới tính nữ sẽ được phânguyên lýớp chính xác hoặc là giới
tính nam được phân lớp không chính xác.
20.6.2.1. Lệch bộ ước lượng (Estimator Bias)
Chú ý rằng giá trị trung bình của phân bố không lớn hơn tỷ lệ thực p, khi nó nằm
trong trường hợp không có sai số. Nó có thể cao hơn hoặc thấp hơn, thuỳ thuộc vào
các giá trị liên quan của hai tỷ lệ sai số. Ở đây, sai số phân lớp đã được làm lệch
thành ước lượng tỷ lệ. Tất nhiên nếu cả hai tỷ lệ sai số đều bằng 0, thì trường hợp
này sẽ giảm xuống mức trước đó.
Độ lệch tiêu chuẩn phân bố của
q là:
N
qq
q
1
(47)
Biểu thức này có xu hướng trở về 0 khi mẫu trở lên lớn hơn. Giống như giá trị
trung bình, nó có thể lớn hơn hay nhỏ hơn trong trường hợp không có sai số. Điều lo
lắng là các kích thước mẫu lớn hơn sẽ gây ra sự phân bố của
q trở lên hẹp lại xung
quanh đáp số sai. Vế trái không được kiểm tra, điều này có thể gây trở ngại nghiêm
trọng đối với việc ước lượng tỷ lệ tự động.
20.6.2.2. Chống lệch bộ ước lượng (Unbiasing estimator)
Mặc dù giá trị
q có được từ một thí nghiệm bất kỳ là một ước lượng lệch của p, nó
là một ước lượng không lệch của q, xác suất để phân lớp một sinh viên là nữ (biểu
thức (41)). Nếu biết trước tỷ lệ sai số thì chúng ta có thể tính ước lượng không lệch
của p từ
21
2
1
qp (48)
426
Ở đây, chúng ta giải biểu thức (46) theo p và thay
q cho q. Bây giờ, p một lần nữa
là giá trị trung bình của sự phân bố bộ ước lượng
p và chúng ta có thể đánh giá tỷ lệ
chính xác đến độ mong muốn, chứng tỏ rằng chúng ta muốn tập hợp đầy đủ dữ liệu.
Chú ý rằng bất kỳ sai số nào trong giá trị 1 hay 2 sẽ không làm giảm tính chính
xác của công thức trên. Bởi vì, có các tye lệ sai số bộ phân lớp, nên chúng thường
phải được đánh giá bằng thử nghiệm. Tập thử nghiệm phải có kích thước thích hợp
và đại diện cho tất cả.
20.6.3. Trường hợp nhiều lớp
Chúng ta có thể mở rộng trình bày trước đây để kiểm soát trường hợp có nhiều
hơn hai lớp.
20.6.3.1. Các định nghĩa
Giả sử có K kiểu đối tượng khác nhau. Chúng ta có một véc tơ p của các tỷ lệ, với
các thành phần:
pi = P{đối tượng được lựa chọn một cách ngẫu nhiên tuỳ thuộc vào lớp thứ i} (49)
trong đó i = 1, ..., K. Các tỷ lệ sai số bộ phân lớp có thể được xác định theo dạng
của ma trận kết hợp C có các phần tử:
cịj = P{đối tượng của lớp thứ i được ấn định cho lớp thứ j} (50)
trong đó j = 1, ...., K. Theo các số hạng này, ma trận hỗn hợp là một mảng các xác
suất phân lớp. Các tác giả khác thường sử dụng cùng một tên cho một mảng các kết
quả phân lớp không chuẩn hoá.
Chúng ta đặt q là vec tơ của các xác suất phân lớp đối tượng với các phần tử
qj= P{đối tượng được lựa chọn một cách ngẫu nhiên theo lớp thứ j } (51)
được cho bởi
pCq T
K
i
ijij Cpq
hay
1
(52)
Nếu bộ phân lớp kiểm tra N đối tượng và ấn định nj của chúng cho lớp j, thì bộ
ước lượng có khả năng xảy ra tối đa của q là vec tơ
q , có các phần tử
N
n j
q (53)
20.6.3.2. Bộ ước lượng
Tương tự với trường hợp hai lớp, bây giờ chúng ta tìm kiếm một vec tơ
p mà (a)
dựa trên
q , (b) là một bộ ước lượng không lệch của p, và (c) tối thiểu hoá sai số bình
phương trung bình được cho bởi
K
i
iii ppN
MSEE
1
21
(54)
427
trong đó [] là phép toán dự tính và là một vec tơ của các trọng số không âm cho
phép chúng ta nhấn mạnh những lớp có các sai số nghiêm trọng nhất. Trong khi đó
giá trị của i là tuỳ ý, thì chúng ta có thể chọn tỷ lệ thích hợp sao cho tổng của chúng
là 1 mà không làm mất tính tổng quát. Nếu không tính đến sự liên quan trọng số thì
chúng ta có thể làm cho tất cả các phần tử của bằng nhau.
Bộ ước lượng không lệch của p là
qCp 1T (55)
Đây là biểu thức tổng quát nhiều lớp của biểu thức (48). Nó cho biết rằng việc
nhân
q với nghịch đảo của ma trận kết hợp sẽ loại bỏ sự lệch do sai số phân lớp sai.
Như trên, tỷ lệ sai số phải được biết một cách chính xác.
20.6.3.3. Ma trận mập mờ (Befuddlement)
Sai số ước lượng bình phương trung bình thực tế là
BpT
K
i
iii N
pp
N
MSEE 111
1
(56)
trong đó ma trận B có các phần tử
K
i
mllimlml CCB
1
21 (57)
trong đó ml là hàm delta Kronecker, chẳng hạn,
1,0
1,1
m
m
ml
(58)
Chỉ phụ thuộc vào ma trận kết hợp, B là một biểu thức của các tỷ lệ sai số bộ phân
lớp. Nó được gọi là ma trận mập mờ (Befuddlement) để tránh sự kết hợp. Các phần
tử của ma trận này là không âm. Nếu bộ phân lớp là tốt (chẳng hạn, các phần tử
ngoài đường chéo của C nhỏ) thì B xấp xỉ ma trận kết hợp bằng cách thay 1 - cij vào
đường chéo.
Giống như với B, các phần tử của p và đều không âm. Vì thế, số hạng thứ hai
của biểu thức (56) có thể không bao giờ âm và không thể giảm MSEE, không có ảnh
hưởng đến p và nhận được.
Khi bộ phân lớp không có sai số (chẳng hạn, khi C = I), tất cả các phần tử của B
đều là 0 và số hạng thứ hai suy giảm dần. Điều này để lại số hạng thứ nhất khi sai số
bộ ước lượng chỉ có được từ kích thước mẫu giới hạn. Do đó, theo lý thuyết, ta có thể
đánh giá các tỷ lệ với mức độ chính xác bất kỳ mong muốn (thậm chí với bộ ước
lượng kém) bằng cách xem xét một lượng đối tượng đủ lớn.
Biểu thức (56) cũng cho phép ta so sánh các bộ phân lớp khác nhau để chọn ra
một bộ hỗ trợ tốt nhất cho việc đánh giá tỷ lệ. Căn cứ vào ma trận kết hợp của một
bộ phân lớp riêng biệt, ta có thể tính thành phần mập mờ của MSEE (ví dụ, pTB)
mà bộ phân lớp sẽ đóng góp. Bộ phân lớp đóng góp ít sai số mập mờ nhất là tốt hơn
cho công việc đánh giá tỷ lệ.
Với một bộ phân lớp tồi, thành phần sai số mập mờ trong biểu thức (56) sẽ bị chi
phối và đòi hỏi thêm nhiều mẫu để khắc phục những tác động phân lớp sai. Nói cách
khác, nếu bộ phân lớp đủ tốt sao cho thành phần sai số mập mờ ít hơn đáng kể so với
428
thành phần sai số lấy mẫu, thì sự cải thiện vượt bậc của bộ phân lớp có thể không
đáng giá so với kết quả của sự cố gắng.
20.6.3.4. Sự mập mờ hai lớp
Bây giờ chúng ta quay trở lại với trờng hợp hai lớp. Nếu 1 và 2 nhỏ, ma trận
mập mờ gần giống với
22
11
B (59)
và sai số mập mờ được cho bởi
21212 pT Bp (60)
Bởi vì chỉ xuất hiện như một tổng, nên chúng đơn thuần chỉ có tác dụng nhân tỷ
lện trong trường hợp này. Hơn nữa, nếu p nhỏ (chẳng hạn, lượng nữ là hiếm), thì nó
bằng 2 (phân loại nhầm thành nam) có mặt nhiều nhất trong MSEE và ngược lại nếu
p lớn. Nếu sự hoà hợp xấp xỉ như nhau (p 0.5), thì cả hai sai số đều phiền toái như
nhau.
Thường thì một bộ phân lớp có một tham số điều chỉnh để điều khiển việc cân
bằng các yếu tố khác nhau giữa 1 và 2 . Ta có thể giảm yếu tố tốn kém nhất bằng
cách tăng cường các yếu tố khác. Trong trường hợp đó, biểu thức (60) đưa ra cách tối
ưu hoá cách thiết lập.
20.7. TỔNG KẾT NHỮNG ĐIỂM QUAN TRỌNG
1. Các đặc trưng sử dụng đối với sự phân lớp phải phân biệt đối xử, tin cậy, độc
lập và ít số.
2. Một tập huấn luyện được sử dụng để thiết lập các tham số phải là điển hình và
không bị lệch.
3. Hiệu suất bộ phân lớp (tỷ lệ sai số) có thể đánh giá bằng cách phân lớp một tập
thử nghiệm đã biết.
4. Các đặc trưng hiệu quả có sự thay đổi nhỏ trong phạm vi lớp, tương quan thấp
và sự tách biệt thay đỏi được chuẩn hoá giữa các giá trị trung bình của lớp.
5. Định lý Bayes [biểu thức (11)] đưa ra xác suất của một đối tượng theo từng lớp
riêng biệt.
6. Quy tắc quyết định Bayes tối thiểu hoá độ rủi ro khi thao tác một bộ phân lớp.
7. Các tham số chưa biết có thể ước lượng theo khả năng xảy ra tối đa và các kỹ
thuật Bayes.
8. Một mạng nơ ron là một sự tập hợp các phần tử xử lý giống nhau đã được kết
nối và được sắp xếp theo lớp. Mối nút tính toán một tổng trọng số các đầu vào
của nó và chuyển đầu ra của nó qua các nút trong lớp tiếp theo.
9. Trong một mạng nơ ron sử dụng để nhận dạng mẫu, vec tơ đặc trưng được đặt
vào lớp đầu tiên và lớp cuối cùng đưa ra một sự phân công công việc.
10. Các mạng nơ ron được huấn luyện bằng cách áp dụng lặp đi lặp lại tập huấn
luyện, với những điều chỉnh nho nhỏ tạo ra các trọng số liên kết tại mỗi bước.
11. Một bộ phân lớp mạng nơ ron là mục tiêu của việc huấn luyện xếp chồng,
trong đó nó tự điều chỉnh với tập huấn luyện.
12. Hiệu suất của một bộ phân lớp mạng nơ ron được huấn luyện tốt thường
giống hiệu suất của một bộ phân lớp được thiết kế tốt. Tri thức ít ỏi về bài toán
429
rất cần thiết cho việc phát triển bộ phân lớp mạng nơ ron, nhưng có sẵn tri thức
tối thiểu đối với quá trình thực hiện quyết định.
13. Các sai số phân lớp đưa sự sai lệch vào trong một ước lượng tỷ lệ. Với một
bộ ước lượng bị lệch, sự đáng giá không hội tụ về đúng tỷ lệ cơ bản khi kích
thước mẫu tăng.
14. Sự lệch lạc (bias) có thể được loại bỏ khỏi một ước lượng tỷ lệ bằng cách
nhân vec tơ của các tỷ lệ quan sát được với nghịch đảo của ma trận kết hợp
[biểu thức (55)]. Một kích thức mẫu lớn mạng lại các ước lượng tỷ lệ với độ
chính xác tuỳ ý.
15. Với một bôh ước lượng không bị lệch, sai số ước lượng bình phương trung
bình có hai thành phần, một là do lấy mẫu và một là do phân lớp sai [biểu thức
(56)]. Cả hai thành phần đều tiên tới 0 khi kích thước mẫu lớn.
16. Một bộ phân lớp tốt hơn cho việc đánh giá tỷ lệ là bộ phân lớp mà có sai số
mập mờ, pTB ,thấp.
BÀI TẬP
1. Trọng lượng trung bình của một quả cam là 100 gam, với độ lệch tiêu chuẩn là
25 gam. Trọng lượng trung bình của một quả bưởi là 180 gam, với độ lệch tiêu
chuẩn là 40 gam. Những quả cam thường bằng hay lớn gấp rưỡi những quả
bưởi. Bảy quả trong một cái hộp riêng biệt nặng 80, 100, 120, 140, 160 và 200
gam. Hộp đó chứa được bao nhiêu quả cam?
2. Một trường đại học có số lượng sinh viên nam và nữ xấp xỉ bằng nhau. Trong
một bộ ước lượng tỷ lệ giới tính sinh viên hai lớp, hai sai số phân loại nhầm
luôn luôn bằng nhau, nhưng chúng có thể rút gọn bằng cách cải tiến thuật giải
hơn nữa. Giá trị nào của 1 và 2 sẽ tạo ra sai số mập mờ bằng với sai số lấy
mẫu? 1 và 2 có thể thấp đến bao nhiêu để sai số mập mờ chỉ bằng 1/8 sai số
lấy mẫu?
3. Trên sân một trường đại học nào đó, số lượng nam chiếm 3/4 nhóm sinh viên.
trong một bộ ước lượng giới tính sinh viên hai lớp hiện có, sai số phân lớp
nhầm của cả hai là 0.25. Có bao nhiêu sinh viên phải được phỏng vấn để giảm
MSEE xuống còn 1%? Tỷ lệ sai số có thể giảm bằng cách cải tiến thuật giải.
Bạn cố gắng giảm sai số nào để giảm bớt kích thước mẫu yêu cầu? Nếu bạn chỉ
giảm một sai số, giá trị nào của 1 và 2 sẽ tạo ra sai số mập mờ bằng nửa sai số
lấy mẫu? Có bao nhiêu sinh viên phải được phỏng vấn để giảm MSEE xuống
còn 1%?
DỰ ÁN
1. Phát triển một bộ phân lớp Bayes hai lớp, hai đặc trưng và huấn luyện nó để
định rõ số nam và nữ bằng cách dùng chiều cao và trọng lượng cơ thể như các
đặc trưng. Viết một bài ngắn gọn mô tả quá trình thiết kế, huấn luyện và thực
hiện của bộ phân lớp.
2. Phát triển một chương trình phân lớp Bayes mà có thể xác định sự thích hợp
của các quân bài (rô, cơ, chuồn, bích) trong các ảnh số của biểu tượng thích
hợp. Kiểm tra chương trình bằng một người đánh bài.
3. Huấn luyện một mạng nơ ron để phân lớp các vec tơ ngẫu nhiên từ ba phân bố.
Sử dụng một tập huấn luyện nhỏ, chỉ ra sai số trên tập huấn luyện và trên một
tập thử nghiệm riêng biệt như một hàm khối lượng của quá trình huấn luyện.
Đưa ra bằng thực nghiệm để làm sáng tỏ việc huấn luyện xếp chồng.
430
4. Sử dụng các lớp, đặc trưng, tập huấn luyện và tập thử nghiệm như nhau, so
sánh hiệu suất của một mạng nơ ron và một bộ phân lớp Bayes. Viết một bài
ngắn gọn để tổng kết những điều thuận lợi và không thuận lợi của chúng.
File đính kèm:
giao_trinh_xu_ly_anh_chuong_20_nhan_dang_mau_phan_lop_va_dan.pdf

