Giáo trình Xử lý ảnh - Chương 18: Nhận dạng mẫu. Phân đoạn ảnh

Chi nhánh thị giác máy của lĩnh vực trí tuệ nhân tạo được nghiên cứu bằng cách

phát triển các thuật giải phân tích nội dung ảnh. Một sự đa dạng của những phương

pháp tiếp với mục đích hiểu ảnh đã được dùng, nhưng việc hiểu nó là nền tảng cho

sự nhận thức toàn bộ quá trình nhận dạng mẫu, tuy nhiên nó có thể được thực hiện.

Nhận dạng mẫu thống kê giả thiết rằng ảnh có thể chứa một hay nhiều đối tượng

và mỗi đối tượng đó thuộc một trong các kiểu, các loại hay các lớp mẫu đã định

nghĩa trước đây. Trong khi có thể thực hiện nhận dạng mẫu bằng nhiều cách, chúng

ta chỉ quan tâm tới việc thực hiện nó bằng các kỹ thuật xử lý ảnh số.

Cho một ảnh số có chứa một vài đối tượng, quá trình nhận dạng mẫu gồm có 3

pha chính. (Xem Hình 18-1) Pha đầu tiên được gọi là phân đoạn ảnh hay cô lập đối

tượng, trong đó mỗi đối tượng được tìm ra và ảnh của nó tách ra khỏi cảnh còn lại.

Pha thứ hai gọi là trích chọn đặc trưng. Đây là pha mà các đối tượng được đo

lường. Một số đo là giá trị của một tính chất nào đó có thể xác định số lượng của một

đối tượng. Một đặc trưng là một hàm của một hay nhiều số đo, được tính toán sao

cho nó có thể nó xác định được một tính chất quan trọng nào đấy của đối tượng. Quá

trình trích chọn đặc trưng tạo ra một tập các đặc trưng, cùng nhận được, bao gồm vec

tơ đặc trưng. Điều này đã làm giảm khối lượng thông tin (so với ảnh ban đầu) biểu

diễn mọi tin tức mà các quyết định thống kê phải dựa vào đó. Thật là hữu ích để nhận

thức hoá một không gian n chiều mà trong đó mọi vec tơ đặc trưng n phần tử có thể

có đều tập trung vào. Vì thế, một đối tượng riêng biệt bất kỳ đều tương ứng với một

điểm trong không gian đặc trưng.

Pha thứ ba trong nhận dạng mẫu là phân loại, đầu ra của nó chỉ đơn thuần là một

quyết định về lớp các đối tượng. Mỗi đối tượng được coi như thuộc một loại cụ thể,

và sự nhận dạng được thực hiện như một quá trình phân loại. Từng đối tượng được351

ấn định vào một trong nhiều nhóm (lớp) đã thiết lập trước đó biểu diễn cho tất cả các

loại đối tượng có thể có trong ảnh. Một lỗi không phân loại nhầm sẽ xảy ra nếu đối

tượng bị ấn định vào một lớp không thích hợp. Khả năng để xảy ra điều này là tỉ số

lỗi phân loại nhầm.

Sự phân loại chỉ dựa vào vec tơ đặc trưng. Trong hai chương tiếp theo, chúng ta

sẽ xem xét kỹ thuật phân loại xuất phát từ các phạm trù trong lý thuyết quyết định

thống kê và mạng nơ ron.

pdf 30 trang kimcuc 4062
Bạn đang xem 20 trang mẫu của tài liệu "Giáo trình Xử lý ảnh - Chương 18: Nhận dạng mẫu. Phân đoạn ảnh", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Giáo trình Xử lý ảnh - Chương 18: Nhận dạng mẫu. Phân đoạn ảnh

Giáo trình Xử lý ảnh - Chương 18: Nhận dạng mẫu. Phân đoạn ảnh
 350 
Ch­¬ng 18 
NHẬN DẠNG MẪU: 
PHÂN ĐOẠN ẢNH 
18.1. GIỚI THIỆU 
Từ trước đến nay, trong cuốn sách này, chúng ta đã xem xét những phương pháp 
chủ yếu để cải thiện ảnh hiển thị. Trong chương 16, tham vọng chúng ta là đạt được 
một ảnh gần giống hơn so với ảnh ban đầu, ảnh không suy biến. 
Trong chương này và hai chương tiếp theo, chúng ta sẽ đưa ra một vài hướng 
phân tích nội dung của một ảnh. Nghĩa là chúng ta cố gắng tìm ra những gì có trong 
ảnh. Chúng ta sẽ xem xét hai cách tiếp cận, nhận dạng mẫu thống kê và mạng nơ ron, 
mỗi một phương pháp đều có thể áp dụng vào ảnh số. Các cuốn sách đã viết nhiều 
về cả hai phương pháp này, giúp độc giả những người mong muốn tiếp tục tìm hiểu 
với những giới thiệu về lĩnh vực này rất nhiều. 
Trong 3 chương về nhận dạng mẫu này, chúng ta sẽ đưa ra một tập các chủ đề về 
lĩnh vực này. Trong thực tế, chúng ta nghiên cứu nhận dạng mẫu thống kê, được thực 
hiện bằng các kỹ thuật xử lý ảnh số. Việc này trước hết bao gồm việc định vị và cô 
lập các đối tượng trong một ảnh và sau đó nhận biết (phân loại) những đối tượng đó 
sử dụng kỹ thuật dựa trên lý thuyết quyết định thống kê. Chúng ta cũng xem qua việc 
sử dụng mạng nơ ron nhân tạo cho việc nhận dạng mẫu. 
18.1.1. Nhận dạng mẫu thống kê 
Chi nhánh thị giác máy của lĩnh vực trí tuệ nhân tạo được nghiên cứu bằng cách 
phát triển các thuật giải phân tích nội dung ảnh. Một sự đa dạng của những phương 
pháp tiếp với mục đích hiểu ảnh đã được dùng, nhưng việc hiểu nó là nền tảng cho 
sự nhận thức toàn bộ quá trình nhận dạng mẫu, tuy nhiên nó có thể được thực hiện. 
Nhận dạng mẫu thống kê giả thiết rằng ảnh có thể chứa một hay nhiều đối tượng 
và mỗi đối tượng đó thuộc một trong các kiểu, các loại hay các lớp mẫu đã định 
nghĩa trước đây. Trong khi có thể thực hiện nhận dạng mẫu bằng nhiều cách, chúng 
ta chỉ quan tâm tới việc thực hiện nó bằng các kỹ thuật xử lý ảnh số. 
Cho một ảnh số có chứa một vài đối tượng, quá trình nhận dạng mẫu gồm có 3 
pha chính. (Xem Hình 18-1) Pha đầu tiên được gọi là phân đoạn ảnh hay cô lập đối 
tượng, trong đó mỗi đối tượng được tìm ra và ảnh của nó tách ra khỏi cảnh còn lại. 
Pha thứ hai gọi là trích chọn đặc trưng. Đây là pha mà các đối tượng được đo 
lường. Một số đo là giá trị của một tính chất nào đó có thể xác định số lượng của một 
đối tượng. Một đặc trưng là một hàm của một hay nhiều số đo, được tính toán sao 
cho nó có thể nó xác định được một tính chất quan trọng nào đấy của đối tượng. Quá 
trình trích chọn đặc trưng tạo ra một tập các đặc trưng, cùng nhận được, bao gồm vec 
tơ đặc trưng. Điều này đã làm giảm khối lượng thông tin (so với ảnh ban đầu) biểu 
diễn mọi tin tức mà các quyết định thống kê phải dựa vào đó. Thật là hữu ích để nhận 
thức hoá một không gian n chiều mà trong đó mọi vec tơ đặc trưng n phần tử có thể 
có đều tập trung vào. Vì thế, một đối tượng riêng biệt bất kỳ đều tương ứng với một 
điểm trong không gian đặc trưng. 
Pha thứ ba trong nhận dạng mẫu là phân loại, đầu ra của nó chỉ đơn thuần là một 
quyết định về lớp các đối tượng. Mỗi đối tượng được coi như thuộc một loại cụ thể, 
và sự nhận dạng được thực hiện như một quá trình phân loại. Từng đối tượng được 
 351 
ấn định vào một trong nhiều nhóm (lớp) đã thiết lập trước đó biểu diễn cho tất cả các 
loại đối tượng có thể có trong ảnh. Một lỗi không phân loại nhầm sẽ xảy ra nếu đối 
tượng bị ấn định vào một lớp không thích hợp. Khả năng để xảy ra điều này là tỉ số 
lỗi phân loại nhầm. 
Sự phân loại chỉ dựa vào vec tơ đặc trưng. Trong hai chương tiếp theo, chúng ta 
sẽ xem xét kỹ thuật phân loại xuất phát từ các phạm trù trong lý thuyết quyết định 
thống kê và mạng nơ ron. 
HÌNH 18-1 
Hình 18-1 Ba pha nhận dạng mẫu 
18.1.2. Ví dụ về nhận dạng mẫu 
Các khái niệm cơ bản về nhận dạng mẫu thống kê có thể được minh hoạ tốt nhất 
bằng một ví dụ. Giả sử chúng ta muốn thực hiện một hệ thống sắp xếp trái cây đổ 
xuống trên một băng truyền. Việc sắp xếp thực sự có thể bị ảnh hưởng bởi các phần 
có thể di chuyển từ trên xuống và làm chệch hướng đi của các loại trái cây khác nhau 
ra khỏi băng truyền và rơi vào trong các hộp chuyên chở thích hợp, như minh hoạ 
trong hình 18-2. Hãy giả sử rằng đó là các quả là các trái anh đào, các quả táo, chanh 
và các quả nho. Những gì chúng ta cần là một hệ thống xử lý ảnh mà có thể quan sát 
các quả đang đến gần, phân ra từng loại và thả phần đã phân loại thích hợp đúng lúc 
vào hộp đựng trái cây tương ứng. 
HÌNH 18-2 
Hình 18-2 Hệ thống sắp xếp trái cây 
Chúng ta có thể cài đặt một camera truyền hình số trên băng truyền và thực hiện 
quyết định phân loại bằng một máy tính. Với ví dụ này, hãy xác định hai tham số cho 
từng mẫu trái cây: đờng kính và màu sắc của nó. Chương trình máy tính sẽ xử lý 
 352 
từng ảnh số hoá và tính đường kính trái cây theo đơn vị milimet và một tham số biểu 
thị màu sắc. 
Giả sử chúng ta sử dụng một camera TV màu và chương trình tính độ sáng của 
từng đối tượng theo các kênh đỏ, lục và lam. (Xem chương 21) Sau đó có thể nhận 
được một đặc trưng (ví dụ tỷ lệ độ sáng đỏ-lục) nhận các giá trị thấp cho quả màu 
vàng và các giá trị cao cho quả màu đỏ. Chúng ta có thể gọi tham số này là độ đo sắc 
đỏ. 
Hình 18-3 cho thấy không gian hai đặc trưng chiều định nghĩa bằng hai tham số, 
đường kính và sắc đỏ, và các nhóm được đưa ra tương ứng với mỗi một trong bốn 
lớp quả. Bằng cách đặt các đường quyết định xấp xỉ trong không gian đặc trưng, 
chúng ta có thể phân chia nó ra thành mỗi vùng thuộc một lớp và thiết lập một quy 
tắc phân loại. 
Khi một quả nào đó đến gần camera TV, nó sẽ được xác định, và các đặc trưng 
xác định một điểm trong không gian hai chiều. Tuỳ thuộc vào nơi mà điểm này nằm 
trong không gian, mà trái cây được ấn định vào một trong bốn lớp. Ngay khi quyết 
định phân loại được thực hiện, cơ chế bỏ vào phần mà sau đó sẽ được làm lệch 
hướng đi để đẩy quả vào trong thùng chứa thích hợp. 
HÌNH 18-3 
Hình 18-3 Không gian đặc trưng 
Trong khi hệ thống tiền xử lý không được sử dụng rộng rãi trong ngành công 
nghiệp đóng gói trái cây, nhưng nó đáp ứng được việc minh hoạ nhận dạng mẫu 
thống kê. Vai trò của thống kê trong thiết kế và hoạt động của hệ thống sẽ trở nên rõ 
ràng hơn ở hai chương tiếp theo. Bây giờ đủ điều kiện để nói rằng mỗi lớp quả tạo ra 
một PDF trong không gian đặc trưng. Các dòng quyết định có thể được xác định, từ 
tác động qua lại giữa các PDF đó, theo cách để tránh hay có ít ra là tối thiểu hoá, các 
lỗi phân loại nhầm. 
18.1.3. Thiết kế hệ thống nhận biết mẫu 
Thiết kế một hệ thống nhận biết mẫu thường được thực hiện theo năm bước liệt kê 
trong bảng 18.1: thiết kế bộ định đối tượng, chọn lựa đặc trưng, thiết kế bộ phân loại 
và thực hiện việc đánh giá. 
Bộ định vị đối tượng là thuật toán tách ảnh của đối tượng riêng biệt trong một ảnh 
phức hợp. Việc phân tách các đối tượng được gọi là phân đoạn ảnh hay phân đoạn 
cảnh, sẽ được trình bày trong chương này. Chọn lựa đặc trưng có tác dụng quyết 
định thuộc tính của đối tượng (kích thức, hình dạng,). điểm khác biệt nhất giữa các 
lớp đối tượng cần phải tính toán. Thiết kế bộ phân loại bao gồm việc thiết lập một cơ 
sở toán học cho thủ tục phân loại. Các tham số có thể điều chỉnh (ngưỡng quyết 
định) của chính bộ phân loại bắt buộc phải có trong công đoạn huấn luyện bộ lọc. 
 353 
Cuối cùng, nó thường cần được thiết lập các tỷ lệ lỗi phân loại khi hệ thống hoạt 
động. Đây là bước thực hiện việc đánh giá. 
18.2. QUÁ TRÌNH PHÂN ĐOẠN ẢNH 
Chúng ta có thể định nghĩa quá trình phân đoạn ảnh như là việc phân chia một ảnh 
số thành các vùng rời nhau (không chờm lên nhau). Đối với mục đích của chúng ta, 
một vùng là một tập liên thông của các điểm ảnh-tức là, một tập trong đó tất cả các 
điểm ảnh gần kề hay sát nhau. Định nghĩa chuẩn của tính liên thông như sau: giữa 
hai điểm ảnh bất kỳ trong một tập liên thông, tồn tại một đường liên thông trong 
phạm vi tập, ở đó một đường liên thông là một đường luôn luôn di chuyển giữa các 
điểm ảnh lân cận. Do đó, trong một tập liên thông, bạn có thể tìm thấy một đường 
liên thông giữa hai điểm ảnh bất kỳ trong tập. 
BẢNG 18-1 THIẾT KẾ HỆ THỐNG NHẬN DẠNG MẪU 
Bước Hàm 
1. Thiết kế bộ định vị đối tượng Chọn thuật giải phân đoạn ảnh để phân 
tách các đối tượng riêng biệt trong ảnh. 
2. Lựa chọn đặc trưng Quyết định các tính chất đối tượng mà có 
thể phân biệt các loại đối tượng tốt nhất 
và làm thế nào để đo lường chúng. 
3. Thiết kế bộ phân loại Thiết lập cơ sở toán học cho thuật giải 
phân loại, và lựa chọn kiểu cấu trúc của 
bộ phân loại để sử dụng. 
4. Huấn luyện bộ phân loại Cố định các tham số điều chỉnh khác 
nhau (các đường biên quyết định,) 
trong bộ phân loại cho phù hợp với đối 
tượng được phân loại. 
5. Đánh giá hiệu suất Đánh giá tỷ số các lỗi phân loại nhầm có 
thể nhận được khác nhau. 
Có hai quy tắc liên thông, và một trong số đó có thể chấp nhận. Nếu chỉ các điểm 
lân cận bên (trên, dưới, trái, phải) được coi là thuộc liên kết, thì đây là liên thông 4 
và các đối tượng là liên kết 4. Vì thế, mỗi điểm ảnh chỉ có 4 lân cận để có thể liên 
kết. Thêm vào đó, nếu các điểm ảnh lân cận chéo (lân cận 450) cũng được tính đến 
trong liên kết thì chúng ta có liên thông 8, và các đối tượng là liên kết 8. Mỗi điểm 
ảnh có 8 lân cận để có thể liên kết. Cũng có thể sử dụng quy tắc liên thông kia, miễn 
là thích hợp. Thông thường liên thông 8 mang lại kết quả được coi là gần với trực 
giác của con người hơn cả. 
Khi một người quan sát một cảnh, quá trình xử lý đặt trong hệ thống thị giác sẽ 
phân đoạn cảnh đó cho người đó. Việc này được thực hiện hiệu quả đến nỗi ta trông 
nó không như một cảnh phức tạp, nhưng đúng hơn là người ta coi điều đó như là tập 
hợp cáca đối tượng. Tuy nhiên, bằng xử lý số, chúng ta phải tách các đối tượng trong 
một ảnh bằng cách phân chia ảnh thành tập các điểm ảnh, mỗi tập là ảnh của một đối 
tượng. Trong khi công việc phân đoạn ảnh hầu như không có bản sao trong kinh 
nghiệm nhìn nhận của con người, thì đây là một công việc không tầm thường trong 
phân tích ảnh số. 
Phân đoạn ảnh có thể tiếp cận từ ba lý thuyết phối cảnh khác nhau. Trong trường 
hợp chúng ta tiếp cận vùng, ta ấn định mỗi điểm ảnh cho một đối tượng hay vùng cụ 
thể. Trong phương pháp tiếp cận đường biên, ta chỉ thử định vị các đường biên đã có 
giữa các vùng. Trong phương pháp tiếp cận đỉnh, ta có thể tìm cách nhận biết các 
điểm biên và sau đó liên kết chúng với nhau tạo thành đường biên cần có. Tất cả ba 
cách tiếp cận đều hữu dụng trong việc nhìn nhận vấn đề. 
 354 
Trong chương này, chúng ta xem xét một vài kỹ thuật phân tách các đối tượng 
trong một ảnh số. Mỗi lần phân tách, các đối tượng có thể được đo lường và phân 
loại. Các kỹ thuật cho những hoạt động này được chỉ ra trong hai chương tiếp theo. 
18.3. PHÂN ĐOẠN ẢNH BẰNG PHÂN NGƯỠNG 
Phân ngưỡng là một kỹ thuật phổ biến để tiếp cận vùng, hữu ích đối với những 
cảnh có chứa những đối tượng đồng màu trên nền tương phản. Mục đích là để đơn 
giản trong tính toán và luôn xác định được những vùng có các đường biên đóng và 
liên thông. 
Khi sử dụng qui tắc phân ngưỡng để phân vùng ảnh, người ta ấn định tất cả những 
điểm ảnh nằm bên trên mức xám ngưỡng thuộc về đối tượng. Còn tất cả những điểm 
ảnh không nằm trên mức xám ngưỡng sẽ nằm ngoài đối tượng. Đường bao là tập tất 
cả những điểm nằm bên trong và mỗi điểm có ít nhất một điểm lân cận nằm ngoài 
đối tượng. 
Phân ngưỡng sẽ được thực hiện hoàn hảo nếu đối tượng được xét có mức xám bên 
trong đồng nhất và nằm trên nền có mức xám đồng nhất khác. Nếu một vài tính chất 
(ngoài mức xám, tính kết cấu chẳng hạn) của các đối tượng khác nền của chúng, thì 
đầu tiên người ta có thể chuyển đổi tính chất đó thành mức xám. Sau đó tiến hành 
phân ngưỡng mức xám để có thể phân vùng ảnh. 
18.3.1. Phân ngưỡng tổng thể 
Trong quá trình xác định đường biên bằng phân ngưỡng đơn giản nhất, giá trị mức 
xám ngưỡng là hằng số được sử dụng trong toàn bộ ảnh. Nếu mức xám nền là hằng 
số hợp lý và nếu các đối tượng đều có độ tương phản xấp xỉ bằng nhau, thì một 
ngưỡng tổng thể cố định thường được dùng để qui định mức xám ngưỡng hợp lý 
được chọn. 
18.3.2. Phân ngưỡng thích nghi 
Trong nhiều trường hợp mức xám nền không phải là hằng số và độ tương phản 
của các đối tượng trong ảnh hoàn toàn khác nhau, thường xảy ra trường hợp một 
ngưỡng áp dụng thích hợp cho một vùng ảnh này nhưng lại không thích hợp cho 
những vùng khác. Trong những trường hợp đó, thuận tiện nhất là sử dụng mức xám 
ngưỡng là một hàm biến thiên chậm theo vị trí trong ảnh. 
Hình 18-4 cho thấy ảnh hiển vi của các nhiễm sắc thể từ một tế bào máu người. 
Trong ảnh này, mức xám nền thay đổi do sự chiếu sáng không đồng đều và độ tương 
phản thay đổi từ nhiễm sắc thể này sang nhiễm sắc thể khác. Trong hình 18-4a, một 
mức xám ngưỡng không đổi được sử dụng cho toàn bộ ảnh để phân tách các nhiễm 
sắc thể. Mỗi nhiễm sắc thể được bao bởi một đường và một dãy số. Trong hình 18-
4b, ngưỡng được thay đổi từ nhiễm sắc thể này sang nhiễm sắc thể khác tương xứng 
với nền cục bộ và độ tương phản của nhiễm sắc thể. Điều này đã tạo ra một vài sai số 
phân đoạn-trong đó nhiều nhiễm sắc thể bị dính vào nhau hay các nhiễm sắc thể 
riêng biệt bị phá vỡ. Một nghiên cứu tương tự cho thấy rằng độ chính xác của phép 
đo diện tích các nhiễm sắc thể đã được cải tiến bằng phân ngưỡng thích nghi. Trong 
hình 18-4b, ngưỡng đối với mỗi nhiễm sắc thể được đặt xấp xỉ mức trung bình giữa 
mức xám trung bình của đối tượng và mức xám nền cục bộ. 
18.3.3. Lựa chọn ngưỡng tối ưu 
Trừ phi đối tượng trong ảnh có các mặt cực kỳ dốc đứng, còn thì giá trị chính xác 
của mức xám ngưỡng có thể có tác động đáng kể lên vị trí đường biên và toàn bộ 
kích thước đối tượng được trích chọn. Nghĩa là các số đo kích thước liên tiếp-khu 
vực riêng biệt-nhạy cảm với mức xám ngưỡng. Vì lý do đó mà chúng ta cần sự tối ưu 
hay ít ra cũng là phương pháp thiết lập ngưỡng. 
 355 
HÌNH 18-4 
Hình 18-4 Phân ngưỡng tổng thể và thích nghi 
18.3.3.1. Kỹ thuật lược đồ mức xám 
Một ảnh chứa một đối tượng trên nền tương phản có lược đồ mức xám nhị thức 
(bimodal) (hình 18-5). Hai đỉnh tương ứng với số lượng tương đối lớn các điểm trong 
và ngoài đối tượng. Vùng lõm giữa các đỉnh tương ứng với các điểm tương đối ít 
xuất hiện xung quanh biên của đối tượng. Trong các trường hợp như thế này, lược đồ 
mức xám thường được dùng để thiết lập mức xám ngưỡng. 
Diện tích một đối tượng xác định bởi mức xám ngưỡng T là 
T
dDDHA )( (18.1) 
Lưu ý rằng việc tăng ngưỡng T thêm một lượng T chỉ hơi làm giảm diện tích nếu 
ngưỡng tương ứng với vùng lõm trong lược đồ mức xám. Bởi vậy, việc lấy ngưỡng 
tại vùng lõm của lược đồ sẽ tối thiểu hoá tính nhậy cảm của phép đo vùng với các sai 
số nhỏ trong sự chọn ngưỡng. 
Hình 18-5 Lược đồ mức xám nhị thức 
Nếu ảnh hay vùng trong ảnh chứa đối tượng bị nhiễu và không lớn lắm thì chính 
lược đồ mức xám sẽ bị nhiễu. Nhiễu sẽ làm mờ đi vị trí của vùng lõm, trừ phi vùng 
lõm rõ nét một cách khác thường. Điều này có thể khắc phục trong một phạm vi nào 
đó bằng cách làm trơn lược đồ mức xám, bằng cách sử dụng tích chập hay bằng một 
thủ tục điều chỉnh đường cong. Nếu hai đỉng có kích thước không giống nhau, thì 
việc làm trơn có xu hướng dịch chu ... tiên (tiến), nó được xây dựng từ trái 
sang phải. Tại mỗi điểm ảnh, các điểm nền bên trái là 0, nhưng các điểm ở phía trong 
được thay bằng số đếm bao nhiêu bước đã thực hiện từ khi gặp giá trị 0 cuối cùng. 
Trong hình 18-26(c),ta thấy các kết quả của bước thứ hai (lùi), nó được xây dựng từ 
phải sang trái. trong bước này, mỗi điểm ảnh được thay thế bằng giá trị nhỏ nhất của 
(a) nó hay (a) số bước nhận được từ khi gặp được giá trị 0 cuối cùng. Kết quả là môt 
ảnh mà mức xám trong đó phản ánh khoảng cách đến đường biên gần nhất. 
HÌNH 18-26 
Hình 18-26 Biến đổi khoảng cách một chiều: (a) ảnh nhị phân; (b) kết quả của 
bước thứ nhất (trái sang phải); (c) kết quả của bước thứ hai (phải sang trái) 
Trong biến đổi khoảng cách hai chiều, một mặt nạ tương tự hạt nhân tích chập 
(xem hình 18-27) được áp dụng lên ảnh trong quá trình giống tích chập. Giống như 
biến đổi khoảng cách một chiều, biến đổi khoảng cách hai chiều cũng có hai giai 
đoạn. Bước tiến di chuển từ trái sang phải, thực hiện từ trên xuống dưới ảnh, trong 
khi bước lùi di chuyển từ phải sang trái, thực hiện từ dưới lên trên ảnh. Tại mỗi vị trí, 
một tập các tổng hai số hạng được tạo ra bằng cách thêm từng phần tử trong mặt nạ 
vào giá trị điểm ảnh cơ bản. Những nơi tống trong mặt nạ, không có thao tác nào 
được thực hiện. Điểm ảnh dưới tâm của mặt nạ được thay thế bởi tổng nhỏ nhất. 
 375 
HÌNH 18-27 
Hình 18-27 Cặp mặt nạ đối với biến đổi khoảng cách hai chiều sử dụng thuật giải 
xoi đường: (a) 3 3; (b) 5 5 
Các mặt nạ 3 3 trong hình 18-27 co ta một ảnh khoảng cách mà mức xám trong 
đó gấp ba lần khoảng cách Ơ clit đến đường biên. Độ lệch cực đại từ khoảng cách Ơ 
clit thực sự là 8%. Các mặt nạ 5 5 cho ta một ảnh khoảng cách đượ nhân tỷ lệ lên 
năm lần và sai số cực đại của chúng chỉ là 2%. 
Ví dụ, biến đổi khoảng cách thường dùng trong việc phân đoạn các nhóm đối 
tượng tiếp xúc. Mỗi đối tượng trong nhóm tạo ra một giá trị cực đại cục bộ trong ảnh 
khoảng cách. Thuật giải đường phân nước (giảm ngưỡng từ một ngưỡng cao của ảnh 
ban đầu) có thể phân đoạn ảnh khoảng cách thành các đối tượng thành phần riêng 
biệt, như cho trong hình 18-28. Sử dụng thuật giải đường phân nước trên ảnh biến 
đổi khoảng cách (hình 18-28(b)) có hiệu quả phá vỡ một phần đối tượng tròn tiếp 
xúc (hình 18-28(c)). 
18.7.6. Phân tích độ cong đường biên 
Độ cong tại một điểm trên đường cong được định nghĩa như một sự thay đổi của 
góc tang tại điểm đó. Độ cong trên đường biên của đối tượng là dương trong các 
khoảng mà ở đó đối tượng là lồi và âm ở chỗ lõm. 
Ví dụ, trong hình 18-29 một đồ thị độ cong của đường biên trình bày hai đỉnh 
nhọn âm tương ứng với hai chỗ lõm. Nếu các đối tượng mong đợi là lồi, thì điều này 
báo hiệu sai số phân đoạn. Một đường cắt ngang, được vẽ giữa hai điểm a và b, tách 
biệt hai đối tượng. Vì thế, hàm độ cong đường biên có thể trợ giúp trong việc phát 
hiện tự động và hiệu chỉnh các sai số phân đoạn. 
HÌNH 18-28 
Hình 18-28 Sử dụng thuật giải đường phân nước với biến đổi khoảng cách đề 
phân đoạn các đối tượng tiếp xúc: (a) ảnh nhị phân; (b) biến đổi khoảng cách; 
(c) ngưỡng đường phân nước 
 376 
18.8. CẤU TRÚC ẢNH PHÂN ĐOẠN 
Nếu chỉ đòi hỏi tổng kích thước của mỗi đối tượng, thì không cần thiết phải trích 
chọn các đối tượng từ ảnh ban đầu. Trong các trường hợp khác, chúng ta có thể tổng 
hợp một ảnh mới bằng cácnh trình bày các đối tượng được sắp xếp lạobằng cách nào 
đó, hay ta có thể hiển thị từng đối tượng bằng chính ảnh của nó. Ta cũng có thể thực 
hiện thêm phép đo hay xử lý khác trên các đối tượng riêng lẻ. Trong các trường hợp 
này, có thể đáng giá để trích chọn và lưu trữ các đối tượng riêng lẻ theo một khuôn 
dạng thuận lợi hơn. 
Nói chung, mỗi đối tượng phải được ấn định một dãy số khi tìm thấy nó. Giá trị số 
của đối tượng này có thể sử dụng để nhận biết và đánh dấu các đối tượng riêng lẻ 
trong cảnh. trong phần này, ta sẽ đề cập ba phương pháp cấu trúc ảnh phân đoạn. 
18.8.1. Bản đồ đối tượng thành viên 
Một phương pháp để lưu trữ thông tin phân đoạn là để tạo ra một ảnh riêng biệt,có 
cùng kích thước với ảnh ban đầu, và mã hoá đối tượng thành viên trên cơ sở từng 
điểm ảnh. trong bản đồ đối tượng thành viên, mức xám của từng điểm ảnh mã hoá 
chuỗi số thứ tự đối tượng có chứa điểm ảnh tương ứng trong ảnh ban đầu. Ví dụ, tất 
cả các điểm ảnh thuọcc đối tượng 27 trong ảnh sẽ có mức xám 27 trong bản đồ thành 
viên. 
Kỹ thuật bản đồ thành viên nói chung là hoàn hảo, nhưng nó không phải là 
phương pháp đặc biệt để lưu trữ thông tin phân đoạn. Thêm vào đó, nó đòi hỏi một 
ảnh số đúng kích thước để miêu tả một cảnh chứa đúng một đối tượng nhỏ. Tuy 
nhiên, đây là kiểu ảnh nén khá hiệu quả, vì bình thường nó chỉ chứa các vùng lớn có 
mức xám không đổi. 
Nếu chỉ quan tâm đến lích thước và hình dạng đối tượng, thì ảnh ban đầu có thể bị 
loại bỏ sau khi phân đoạn. Kết quả giảm dữ liệu hiệu quả hơn nữa nếu chỉ có một đối 
tượng hay nếu các đối tượng không cần thiết phải phân biệt. Trong cả hai trường 
hợp, bản đồ thành viên đều trở thành một ảnh nhị phân. 
Những yêu cầu dữ liệu cho phân đoạn ảnh thỉnh thoảng bắt buộc quá trình phải 
làm nhiều giai đoạn khác nhau trên ảnh. một bản đồ thành viên nhị phân hai đa mức 
thường được dùng như một bước trung gian trong thủ tục phân đoạn ảnh nhiều bước. 
18.8.2. Chuỗi mã đường biên 
Một khuôn dạng đầy đủ hơn đối với việc lưu trữ thông tin phân đoạn ảnh là chuỗi 
mã bường biên. Bởi vì đây là đường biên định nghĩa một đối tượng, nên không cần 
thiết phải lưu trữ vị trí các điểm bên trong. Hơn nữa, sự thật là chuỗi mã đường biên 
dùng các đường biên là các đường liên kết. 
Chuỗi mã khởi đầu bằng cách cách định rõ toạ độ (x, y) của điểm xuất phát tuỳ 
chọn trên đường biên của đối tượng. Điểm ảnh được nhận biết có 8 lân cận và ít nhất 
trong số chúng cũng phải là điểm biên. Chuỗi mã đường biên định rõ chiều hướng 
mà một bước phải được tiến hành để đi từ điểm biên hiện tại đến điểm tiếp theo. 
Vì có thể có 8 hướng, nên chúng có thể được đánh số, từ 0 đến 7. hình 18-30 cho 
thấy một cách chia có thể chấp nhận của mã 8 hướng. Khi đó chuỗi mã đờng biên 
bao gồm các toạ đọ của điểm xuất phát, theo sau là dãy mã hướng xác định đường 
xung quanh biên. 
Với chuỗi mã đường biên, việc lưu trữ sự phân đoạn của một đối tượng đòi hỏi 
duy nhất một toạ độ (x, y) và ba bit cho mỗi điểm biên. Đây là không gian lưu trữ ít 
hơn một cách đáng kể so với không gian cần thiết cho một bản đồ đối tượng thành 
viên. Khi một cảnh phức tạp được phân đoạn, chương trình có thể lưu trữ từng đường 
biên đối tượng như một bản ghi đơn lẻ bao gầm số đối tượng, chu vi (số các điểm 
biên) và chuỗi mã. Thêm vào đó, có nhiều đặc trưng kích thước và hình dạng có thể 
được trích chọn trực tiếp từ chuỗi mã đường biên, như trình bày ở chương tiếp theo. 
 377 
HÌNH 18-30 
Hình 18-30 Hướng mã đường biên 
Sự sinh ra chuỗi mã đường biên thường yêu cầu truy cập ngẫu nhiên đối với ảnh 
vào, vì đờng biên phải được đánh lần theo dấu vết trên toàn bộ ảnh. Bằng kỹ thuật 
tìm vết đường biên trong phân đoạn ảnh, sự sinh ra chuỗi mã là điều tất yếu. Bằng 
việc định vị đường biên phân ngưỡng, chuỗi mã thường phải được sinh ra trong bước 
kế tiếp. Sự sinh ra chuỗi mã đường biên cũng không phù hợp cho lắm với việc xử lý 
từng dòng ảnh lưu trên đĩa. Bởi vì các điểm ảnh bên trong bị bỏ qua, nên chuỗi mã ít 
được dùng khi đòi hỏi xử lý thêm các ảnh đối tượng riêng biệt. 
18.8.3. Mã hoá phân đoạn dòng 
Mã hoá phân đoạn dòng là kỹ thuật lưu trữ từng dòng các đối tượng được trích 
chọn. Quá trình được minh hoạ tốt nhất bằng một ví dụ trong hình 18-31. Giả sử 
chúng ta muốn phân đoạn một ảnh sử dụng ngưỡng mức xám T. Chương trình xem 
xét ảnh, từng dòng, hoạt động tư trên xuống, tìm kiếm những điểm ảnh có mức xám 
lớn hơn hoặc bằng T. 
Trong hình, đoạnh có nhãn 1-1 là dãy ba điểm ảnh kề sát nhau trên dòng thứ 100 
có mức xám bằng hoặc trên mức ngưỡng. Vì thế, đoạn 1-1 là phân đoạn dòng đầu 
tiên của đối tượng đầu tiên (đối tượng số 1) mà chương trình bắt gặp. 
Thực hiện trên dòng 101, chương trình gặp hai đoạn, 1-2 và 2-1, trên mức 
ngưỡng. Vì nó không có khả năng chứng tỏ là lúc này cả hai đối tượng thực sự thuộc 
cùng một đối tượng, chương trình giả thiết rằng đoạn thứ hai trên dòng 101 là một 
phần của đối tượng thứ hai, đối tượng số 2. Vì đoạn thứ 1-2 nằm dưới đoạn 1-1 nên 
chương trình giả thiết rằng cả hai đoạn này đều là một phần của đối tượng số 1. 
Quá trình tiếp tục trên toàn bộ dòng 102, nhưng với dòng 103 chỉ tìm thấy một 
đoạn đơn lẻ và nó nằm dưới các đoạn của cả hai đối tượng 1 và 2. bây giờ chương 
trình thừa nhận rằng các đối tượng 1 và 2 là như nhau và việc đánh số đoạn tiếp tục 
cho đối tượng 1. 
Trên dòng 105, chương trình lại tìm thấy hai đoạn. Tuy nhiên, vì chúng đều nằm 
dưới đoạn 1-5 nên có thể thấy chúng thuộc đối tượng 1. trên dòng 107, không tìm 
thấy đoạn nào nằm dưới đoạn 1-8 hay 1-9 và sự phân tách của đối tượng 1 là hoàn 
toàn. Theo phương pháp này, đây là những phân đoạn dòng, cùng nhận được, định rõ 
đối tượng đã được phân tách. 
Hình 18-32 cho thấy môt cách mà thông tin phân đoạn đối tượng có thể được tổ 
chức lưu trữ trên đĩa. Mỗi khi một đối tượng mới được xác định, chương trình sẽ tạo 
ra một tệp đối tượng mới. Tệp này bắt đầu bằng một nhãn đối tượng chứa số đối 
tượng và số lượng đoạn trong đối tượng. Mục sau cùng phải được thường xuyên 
được cập nhật cho đến khi đối tượng được phân đoạn hoàn toàn. 
Theo sau nhãn đối tượng, các phân đoạn dòng được lưu trữ như các bản ghi. 
Trong hình 18-32, chúngđược lưu trữ bằng một nhãn đoạn, theo sau là giá trị mức 
xám của các điểm ảnh trong đoạn đó. Nhãn đoạn chứa số dòng mà từ đó đoạn được 
trích chọn, toạ độ của điểm ảnh đầu tiên trên phân đoạn dòng và số điểm ảnh trong 
phân đoạn dòng. 
Đối với đối tượng trong hình 18-31, hai tệp đối tượng đoạn đều được mở. Sau đó 
chỉ hai đoạn này được lưu trong tệp đối tượng 2, tuy nhiên, chương trình khám phá ra 
 378 
rằng các đối tượng 1 và đều giống nhau. Vì vậy, cấu trúc sâu hơn của tệp đối tượng 2 
không thể tiếp tục. Sau đó, hay sau khi phân đoạn hoàn toàn đối tượng này, hai tệp 
đoạn đối tượng có thể được hợp nhất. 
Kết quả của kỹ thuật mã hoá phân đoạn dòng là một tập các tệp đoạn, mỗi tệp cho 
một đối tượng. Nếu mỗi tệp đoạn được lưu như một bản ghi đơn lẻ trên ổ đĩa, thì chỉ 
cần một vòng quay của đĩa là đủ để đọc và ghi toàn bộ đối tượng. Một ảnh đối tượng 
có thể dễ dàng tái tạo trong bộ nhớ đơn giản bằng cách mở tệp đoạn. Điêug này 
thường sử dụng khi cần xử lý thêm các ảnh đối tượng. 
Đối với việc phân đoạm các ảnh lớn, ảnh đầu vào được đọc từng dòng từ đĩa và 
các tệp đoạn đối tượng được thu thập trong bộ nhớ. Miễn sao một tệp đối tượng được 
hoàn thành, nhãn của nó được thông qua và tệp đó được ghi lên đĩa như một bản ghi. 
Một điểm thuận lợi của phương pháp này là diện tích, chu vi, IOD, kích thước mở 
rộng chiều ngang và chiều dọc của đối tượng đó dễ dàng xây dựng thành bước trích 
chọn đối tượng. Trong phương pháp này, một vài đặc trưng quan trọng của đối tượng 
được biết ngay khi bước phân đoạn được hoàn thành. 
HÌNH 18-32 
Hình 18-32 Tệp đoạn đối tượng 
18.9. TỔNG KẾT NHỮNG ĐIỂM QUAN TRỌNG 
1. Phân đoạn ảnh là quá trình phân chia một ảnh số thành những tập điểm ảnh liên 
kết và không đè lên nhau, một tập tương ứng với nền và các tập còn lại tương 
ứng với các đối tượng trong ảnh. 
2. Phân đoạn ảnh có thể được tiếp cận như quá trình ấn định các điểm ảnh cho các 
đối tượng hay tìm đường biên giữa các đối tượng (hay giữa các đối tượng và 
nền). 
3. Phân ngưỡng mức xám là một kỹ thuật phân vùng đơn giản luôn tạo ra các 
đường biên kín, liên thông. 
4. Quá trình làm đặc nền và khử nhiễu, được xây dựng trước khi phân đoạn, 
thường có thể cải thiện hiệu suất trong suốt quá trình phân đoạn. 
5. Phân ngưỡng mức xám thường rất cần thiết để thay đổi trong phạm vi ảnh, trừ 
phi độ tương phản giữa đối tượng và mức xám nền tương đối ổn định. 
6. Đối với ảnh các đối tượng đơn giản trên nền tương phản, việc lập mức ngưỡng 
tại điểm lõm của lược đồ nhị thức làm tối thiểu hoá tính nhạy của của diện tích 
đo được với sự thay đổi ngưỡng. 
7. Hàm chiếu của một điểm tròn đồng tâm có thể xuất phát từ lược đồ hay hàm 
chu vi ảnh của nó. 
8. Gradient trung bình xung quanh một đường viền có thể tính từ hàm chu vi và 
lược đồ [biểu thức (12)] 
 379 
9. Phân đoạn đối tượng có thể được thực hiện bằng cách tìm vết đường biên, hay 
phân ngưỡng, theo gradient ảnh. 
10. Các kỹ thuật tăng vùng thường dùng cho việc phân đoạn các cảnh phức tạp sử 
dụng các định nghĩa đối tượng phức tạp. 
11. Phân đoạn một ảnh có thể được lưu trữ như một bản đồ thành viên, như một 
chuỗi mã hay theo mã phân đoạn dòng. 
BÀI TẬP 
1. Bên dưới là lược đồ của một ảnh 20 mức xám (0 là màu đen) của một quả bóng 
bi-a màu trắng trên nền đen. Quả bóng được làm bằng vật liệu có trọng lượng 
riêng là 1.5 gam/cm3. Khoảng cách điểm ảnh là 1 mm. Quả bóng cân nặng bao 
nhiêu? 
[0 100 500 3000 9000 3000 500 200 100 200 300 500 627 500 300 200 100 0 0 0] 
2. Bên dưới là lược đồ của một ảnh 20 mức xám của một trái cây trên một nền 
tương phản. Khoảng cách điểm ảnh là 2 mm. Đây là quả anh đào, quả nho hay 
quả bí ngô? 
[0 100 200 300 500 600 500 300 200 100 200 500 3000 8000 20000 8000 3000 
5000 1000 0] 
3. Bên dưới là lược đồ của một ảnh 32 mức xám (0 là màu đen) chứa một máy 
ghi đĩa màu đen, đường kíng là 12 inch, với nhãn màu trắng trên nền xám. 
Khoảng cách điểm ảnh là bao nhiêu? đường kính nhãn là bao nhiêu? 
[0 0 0 0 100 200 2000 6000 2000 200 100 0 0 200 3000 9000 3000 200 0 0 50 
100 400 100 50 0 0 0 0 0 0 0] 
DỰ ÁN 
1. Phát triển một chương trình tạo ra các ảnh số của các vết nhiễu Gauss trên nền 
đã có mức xám định. Kể cả khả năng xác định vị trí và chiều x và chiều y (độ 
lệch tiêu chuẩn) của vết và biên độc của nhiễu trắng phân bố không đồng đều. 
Tạo một ảnh 200 mức xám cao, vết 15 20 với nhiễu có biên độ đỉnh là mức 
xám 10. 
2. Phát triển một chương trình tạo ra các tóm tắt từ diện tích và chu vi của vết đã 
miêu tả trong dự án 1 và tính đạo hàm bậc nhất và bậc hai của tóm tắt này. 
Định nghĩa SNR như biên độ vết chia cho biên độ nhiễu RMS. Với các vết tròn 
bán kính 5, 10 và 20 điểm ảnh, với các SNR là 40, 20, 10 và 5, tạo ra các tóm 
tắt từ diện tích và xác định vị trí điểm có độ dốc cực đại. Xác định theo kinh 
nghiệm, đối với từng kích thước của vết, SNR tối thiểu cần thiết là bao nhiêu 
để xác định vị trí điểm uốn với sai số không quá một điểm ảnh. 
3. Phát triển một chương trình hiệu chỉnh hàm Gauss hai chiều thành vết nhiễu 
Gauss trên một nền có mức xám 0 (xem phần 19.5.5). Sử dụng chương trình để 
xác định vị trí, kích thước và biên độ của vết nhiễu trong một ảnh được tạo bởi 
chương trình được miêu tả trong dự án 1 hay có được bằng cách số hoá ảnh 
một đối tượng tròn. 
4. Phát triển một chương trình phân ngưỡng thích nghi mà có thể thiết lập ngưỡng 
cho từng đối tượng trong một cảnh sử dụng một trong những kỹ thuật chọn 
ngưỡng đã miêu tả trong chương này và kiểm tra chương trình trên một ảnh 
chứa 5 đối tượng có độ tương phản khác nhau trên một nền không đều. Sử 
dụng một ảnh số khác hay một ảnh được tạo bởi một chương trình như đã miêu 
tả trong dự án 1. 

File đính kèm:

  • pdfgiao_trinh_xu_ly_anh_chuong_18_nhan_dang_mau_phan_doan_anh.pdf