Giáo trình Xử lý ảnh - Chương 18: Nhận dạng mẫu. Phân đoạn ảnh
Chi nhánh thị giác máy của lĩnh vực trí tuệ nhân tạo được nghiên cứu bằng cách
phát triển các thuật giải phân tích nội dung ảnh. Một sự đa dạng của những phương
pháp tiếp với mục đích hiểu ảnh đã được dùng, nhưng việc hiểu nó là nền tảng cho
sự nhận thức toàn bộ quá trình nhận dạng mẫu, tuy nhiên nó có thể được thực hiện.
Nhận dạng mẫu thống kê giả thiết rằng ảnh có thể chứa một hay nhiều đối tượng
và mỗi đối tượng đó thuộc một trong các kiểu, các loại hay các lớp mẫu đã định
nghĩa trước đây. Trong khi có thể thực hiện nhận dạng mẫu bằng nhiều cách, chúng
ta chỉ quan tâm tới việc thực hiện nó bằng các kỹ thuật xử lý ảnh số.
Cho một ảnh số có chứa một vài đối tượng, quá trình nhận dạng mẫu gồm có 3
pha chính. (Xem Hình 18-1) Pha đầu tiên được gọi là phân đoạn ảnh hay cô lập đối
tượng, trong đó mỗi đối tượng được tìm ra và ảnh của nó tách ra khỏi cảnh còn lại.
Pha thứ hai gọi là trích chọn đặc trưng. Đây là pha mà các đối tượng được đo
lường. Một số đo là giá trị của một tính chất nào đó có thể xác định số lượng của một
đối tượng. Một đặc trưng là một hàm của một hay nhiều số đo, được tính toán sao
cho nó có thể nó xác định được một tính chất quan trọng nào đấy của đối tượng. Quá
trình trích chọn đặc trưng tạo ra một tập các đặc trưng, cùng nhận được, bao gồm vec
tơ đặc trưng. Điều này đã làm giảm khối lượng thông tin (so với ảnh ban đầu) biểu
diễn mọi tin tức mà các quyết định thống kê phải dựa vào đó. Thật là hữu ích để nhận
thức hoá một không gian n chiều mà trong đó mọi vec tơ đặc trưng n phần tử có thể
có đều tập trung vào. Vì thế, một đối tượng riêng biệt bất kỳ đều tương ứng với một
điểm trong không gian đặc trưng.
Pha thứ ba trong nhận dạng mẫu là phân loại, đầu ra của nó chỉ đơn thuần là một
quyết định về lớp các đối tượng. Mỗi đối tượng được coi như thuộc một loại cụ thể,
và sự nhận dạng được thực hiện như một quá trình phân loại. Từng đối tượng được351
ấn định vào một trong nhiều nhóm (lớp) đã thiết lập trước đó biểu diễn cho tất cả các
loại đối tượng có thể có trong ảnh. Một lỗi không phân loại nhầm sẽ xảy ra nếu đối
tượng bị ấn định vào một lớp không thích hợp. Khả năng để xảy ra điều này là tỉ số
lỗi phân loại nhầm.
Sự phân loại chỉ dựa vào vec tơ đặc trưng. Trong hai chương tiếp theo, chúng ta
sẽ xem xét kỹ thuật phân loại xuất phát từ các phạm trù trong lý thuyết quyết định
thống kê và mạng nơ ron.
Tóm tắt nội dung tài liệu: Giáo trình Xử lý ảnh - Chương 18: Nhận dạng mẫu. Phân đoạn ảnh
350 Ch¬ng 18 NHẬN DẠNG MẪU: PHÂN ĐOẠN ẢNH 18.1. GIỚI THIỆU Từ trước đến nay, trong cuốn sách này, chúng ta đã xem xét những phương pháp chủ yếu để cải thiện ảnh hiển thị. Trong chương 16, tham vọng chúng ta là đạt được một ảnh gần giống hơn so với ảnh ban đầu, ảnh không suy biến. Trong chương này và hai chương tiếp theo, chúng ta sẽ đưa ra một vài hướng phân tích nội dung của một ảnh. Nghĩa là chúng ta cố gắng tìm ra những gì có trong ảnh. Chúng ta sẽ xem xét hai cách tiếp cận, nhận dạng mẫu thống kê và mạng nơ ron, mỗi một phương pháp đều có thể áp dụng vào ảnh số. Các cuốn sách đã viết nhiều về cả hai phương pháp này, giúp độc giả những người mong muốn tiếp tục tìm hiểu với những giới thiệu về lĩnh vực này rất nhiều. Trong 3 chương về nhận dạng mẫu này, chúng ta sẽ đưa ra một tập các chủ đề về lĩnh vực này. Trong thực tế, chúng ta nghiên cứu nhận dạng mẫu thống kê, được thực hiện bằng các kỹ thuật xử lý ảnh số. Việc này trước hết bao gồm việc định vị và cô lập các đối tượng trong một ảnh và sau đó nhận biết (phân loại) những đối tượng đó sử dụng kỹ thuật dựa trên lý thuyết quyết định thống kê. Chúng ta cũng xem qua việc sử dụng mạng nơ ron nhân tạo cho việc nhận dạng mẫu. 18.1.1. Nhận dạng mẫu thống kê Chi nhánh thị giác máy của lĩnh vực trí tuệ nhân tạo được nghiên cứu bằng cách phát triển các thuật giải phân tích nội dung ảnh. Một sự đa dạng của những phương pháp tiếp với mục đích hiểu ảnh đã được dùng, nhưng việc hiểu nó là nền tảng cho sự nhận thức toàn bộ quá trình nhận dạng mẫu, tuy nhiên nó có thể được thực hiện. Nhận dạng mẫu thống kê giả thiết rằng ảnh có thể chứa một hay nhiều đối tượng và mỗi đối tượng đó thuộc một trong các kiểu, các loại hay các lớp mẫu đã định nghĩa trước đây. Trong khi có thể thực hiện nhận dạng mẫu bằng nhiều cách, chúng ta chỉ quan tâm tới việc thực hiện nó bằng các kỹ thuật xử lý ảnh số. Cho một ảnh số có chứa một vài đối tượng, quá trình nhận dạng mẫu gồm có 3 pha chính. (Xem Hình 18-1) Pha đầu tiên được gọi là phân đoạn ảnh hay cô lập đối tượng, trong đó mỗi đối tượng được tìm ra và ảnh của nó tách ra khỏi cảnh còn lại. Pha thứ hai gọi là trích chọn đặc trưng. Đây là pha mà các đối tượng được đo lường. Một số đo là giá trị của một tính chất nào đó có thể xác định số lượng của một đối tượng. Một đặc trưng là một hàm của một hay nhiều số đo, được tính toán sao cho nó có thể nó xác định được một tính chất quan trọng nào đấy của đối tượng. Quá trình trích chọn đặc trưng tạo ra một tập các đặc trưng, cùng nhận được, bao gồm vec tơ đặc trưng. Điều này đã làm giảm khối lượng thông tin (so với ảnh ban đầu) biểu diễn mọi tin tức mà các quyết định thống kê phải dựa vào đó. Thật là hữu ích để nhận thức hoá một không gian n chiều mà trong đó mọi vec tơ đặc trưng n phần tử có thể có đều tập trung vào. Vì thế, một đối tượng riêng biệt bất kỳ đều tương ứng với một điểm trong không gian đặc trưng. Pha thứ ba trong nhận dạng mẫu là phân loại, đầu ra của nó chỉ đơn thuần là một quyết định về lớp các đối tượng. Mỗi đối tượng được coi như thuộc một loại cụ thể, và sự nhận dạng được thực hiện như một quá trình phân loại. Từng đối tượng được 351 ấn định vào một trong nhiều nhóm (lớp) đã thiết lập trước đó biểu diễn cho tất cả các loại đối tượng có thể có trong ảnh. Một lỗi không phân loại nhầm sẽ xảy ra nếu đối tượng bị ấn định vào một lớp không thích hợp. Khả năng để xảy ra điều này là tỉ số lỗi phân loại nhầm. Sự phân loại chỉ dựa vào vec tơ đặc trưng. Trong hai chương tiếp theo, chúng ta sẽ xem xét kỹ thuật phân loại xuất phát từ các phạm trù trong lý thuyết quyết định thống kê và mạng nơ ron. HÌNH 18-1 Hình 18-1 Ba pha nhận dạng mẫu 18.1.2. Ví dụ về nhận dạng mẫu Các khái niệm cơ bản về nhận dạng mẫu thống kê có thể được minh hoạ tốt nhất bằng một ví dụ. Giả sử chúng ta muốn thực hiện một hệ thống sắp xếp trái cây đổ xuống trên một băng truyền. Việc sắp xếp thực sự có thể bị ảnh hưởng bởi các phần có thể di chuyển từ trên xuống và làm chệch hướng đi của các loại trái cây khác nhau ra khỏi băng truyền và rơi vào trong các hộp chuyên chở thích hợp, như minh hoạ trong hình 18-2. Hãy giả sử rằng đó là các quả là các trái anh đào, các quả táo, chanh và các quả nho. Những gì chúng ta cần là một hệ thống xử lý ảnh mà có thể quan sát các quả đang đến gần, phân ra từng loại và thả phần đã phân loại thích hợp đúng lúc vào hộp đựng trái cây tương ứng. HÌNH 18-2 Hình 18-2 Hệ thống sắp xếp trái cây Chúng ta có thể cài đặt một camera truyền hình số trên băng truyền và thực hiện quyết định phân loại bằng một máy tính. Với ví dụ này, hãy xác định hai tham số cho từng mẫu trái cây: đờng kính và màu sắc của nó. Chương trình máy tính sẽ xử lý 352 từng ảnh số hoá và tính đường kính trái cây theo đơn vị milimet và một tham số biểu thị màu sắc. Giả sử chúng ta sử dụng một camera TV màu và chương trình tính độ sáng của từng đối tượng theo các kênh đỏ, lục và lam. (Xem chương 21) Sau đó có thể nhận được một đặc trưng (ví dụ tỷ lệ độ sáng đỏ-lục) nhận các giá trị thấp cho quả màu vàng và các giá trị cao cho quả màu đỏ. Chúng ta có thể gọi tham số này là độ đo sắc đỏ. Hình 18-3 cho thấy không gian hai đặc trưng chiều định nghĩa bằng hai tham số, đường kính và sắc đỏ, và các nhóm được đưa ra tương ứng với mỗi một trong bốn lớp quả. Bằng cách đặt các đường quyết định xấp xỉ trong không gian đặc trưng, chúng ta có thể phân chia nó ra thành mỗi vùng thuộc một lớp và thiết lập một quy tắc phân loại. Khi một quả nào đó đến gần camera TV, nó sẽ được xác định, và các đặc trưng xác định một điểm trong không gian hai chiều. Tuỳ thuộc vào nơi mà điểm này nằm trong không gian, mà trái cây được ấn định vào một trong bốn lớp. Ngay khi quyết định phân loại được thực hiện, cơ chế bỏ vào phần mà sau đó sẽ được làm lệch hướng đi để đẩy quả vào trong thùng chứa thích hợp. HÌNH 18-3 Hình 18-3 Không gian đặc trưng Trong khi hệ thống tiền xử lý không được sử dụng rộng rãi trong ngành công nghiệp đóng gói trái cây, nhưng nó đáp ứng được việc minh hoạ nhận dạng mẫu thống kê. Vai trò của thống kê trong thiết kế và hoạt động của hệ thống sẽ trở nên rõ ràng hơn ở hai chương tiếp theo. Bây giờ đủ điều kiện để nói rằng mỗi lớp quả tạo ra một PDF trong không gian đặc trưng. Các dòng quyết định có thể được xác định, từ tác động qua lại giữa các PDF đó, theo cách để tránh hay có ít ra là tối thiểu hoá, các lỗi phân loại nhầm. 18.1.3. Thiết kế hệ thống nhận biết mẫu Thiết kế một hệ thống nhận biết mẫu thường được thực hiện theo năm bước liệt kê trong bảng 18.1: thiết kế bộ định đối tượng, chọn lựa đặc trưng, thiết kế bộ phân loại và thực hiện việc đánh giá. Bộ định vị đối tượng là thuật toán tách ảnh của đối tượng riêng biệt trong một ảnh phức hợp. Việc phân tách các đối tượng được gọi là phân đoạn ảnh hay phân đoạn cảnh, sẽ được trình bày trong chương này. Chọn lựa đặc trưng có tác dụng quyết định thuộc tính của đối tượng (kích thức, hình dạng,). điểm khác biệt nhất giữa các lớp đối tượng cần phải tính toán. Thiết kế bộ phân loại bao gồm việc thiết lập một cơ sở toán học cho thủ tục phân loại. Các tham số có thể điều chỉnh (ngưỡng quyết định) của chính bộ phân loại bắt buộc phải có trong công đoạn huấn luyện bộ lọc. 353 Cuối cùng, nó thường cần được thiết lập các tỷ lệ lỗi phân loại khi hệ thống hoạt động. Đây là bước thực hiện việc đánh giá. 18.2. QUÁ TRÌNH PHÂN ĐOẠN ẢNH Chúng ta có thể định nghĩa quá trình phân đoạn ảnh như là việc phân chia một ảnh số thành các vùng rời nhau (không chờm lên nhau). Đối với mục đích của chúng ta, một vùng là một tập liên thông của các điểm ảnh-tức là, một tập trong đó tất cả các điểm ảnh gần kề hay sát nhau. Định nghĩa chuẩn của tính liên thông như sau: giữa hai điểm ảnh bất kỳ trong một tập liên thông, tồn tại một đường liên thông trong phạm vi tập, ở đó một đường liên thông là một đường luôn luôn di chuyển giữa các điểm ảnh lân cận. Do đó, trong một tập liên thông, bạn có thể tìm thấy một đường liên thông giữa hai điểm ảnh bất kỳ trong tập. BẢNG 18-1 THIẾT KẾ HỆ THỐNG NHẬN DẠNG MẪU Bước Hàm 1. Thiết kế bộ định vị đối tượng Chọn thuật giải phân đoạn ảnh để phân tách các đối tượng riêng biệt trong ảnh. 2. Lựa chọn đặc trưng Quyết định các tính chất đối tượng mà có thể phân biệt các loại đối tượng tốt nhất và làm thế nào để đo lường chúng. 3. Thiết kế bộ phân loại Thiết lập cơ sở toán học cho thuật giải phân loại, và lựa chọn kiểu cấu trúc của bộ phân loại để sử dụng. 4. Huấn luyện bộ phân loại Cố định các tham số điều chỉnh khác nhau (các đường biên quyết định,) trong bộ phân loại cho phù hợp với đối tượng được phân loại. 5. Đánh giá hiệu suất Đánh giá tỷ số các lỗi phân loại nhầm có thể nhận được khác nhau. Có hai quy tắc liên thông, và một trong số đó có thể chấp nhận. Nếu chỉ các điểm lân cận bên (trên, dưới, trái, phải) được coi là thuộc liên kết, thì đây là liên thông 4 và các đối tượng là liên kết 4. Vì thế, mỗi điểm ảnh chỉ có 4 lân cận để có thể liên kết. Thêm vào đó, nếu các điểm ảnh lân cận chéo (lân cận 450) cũng được tính đến trong liên kết thì chúng ta có liên thông 8, và các đối tượng là liên kết 8. Mỗi điểm ảnh có 8 lân cận để có thể liên kết. Cũng có thể sử dụng quy tắc liên thông kia, miễn là thích hợp. Thông thường liên thông 8 mang lại kết quả được coi là gần với trực giác của con người hơn cả. Khi một người quan sát một cảnh, quá trình xử lý đặt trong hệ thống thị giác sẽ phân đoạn cảnh đó cho người đó. Việc này được thực hiện hiệu quả đến nỗi ta trông nó không như một cảnh phức tạp, nhưng đúng hơn là người ta coi điều đó như là tập hợp cáca đối tượng. Tuy nhiên, bằng xử lý số, chúng ta phải tách các đối tượng trong một ảnh bằng cách phân chia ảnh thành tập các điểm ảnh, mỗi tập là ảnh của một đối tượng. Trong khi công việc phân đoạn ảnh hầu như không có bản sao trong kinh nghiệm nhìn nhận của con người, thì đây là một công việc không tầm thường trong phân tích ảnh số. Phân đoạn ảnh có thể tiếp cận từ ba lý thuyết phối cảnh khác nhau. Trong trường hợp chúng ta tiếp cận vùng, ta ấn định mỗi điểm ảnh cho một đối tượng hay vùng cụ thể. Trong phương pháp tiếp cận đường biên, ta chỉ thử định vị các đường biên đã có giữa các vùng. Trong phương pháp tiếp cận đỉnh, ta có thể tìm cách nhận biết các điểm biên và sau đó liên kết chúng với nhau tạo thành đường biên cần có. Tất cả ba cách tiếp cận đều hữu dụng trong việc nhìn nhận vấn đề. 354 Trong chương này, chúng ta xem xét một vài kỹ thuật phân tách các đối tượng trong một ảnh số. Mỗi lần phân tách, các đối tượng có thể được đo lường và phân loại. Các kỹ thuật cho những hoạt động này được chỉ ra trong hai chương tiếp theo. 18.3. PHÂN ĐOẠN ẢNH BẰNG PHÂN NGƯỠNG Phân ngưỡng là một kỹ thuật phổ biến để tiếp cận vùng, hữu ích đối với những cảnh có chứa những đối tượng đồng màu trên nền tương phản. Mục đích là để đơn giản trong tính toán và luôn xác định được những vùng có các đường biên đóng và liên thông. Khi sử dụng qui tắc phân ngưỡng để phân vùng ảnh, người ta ấn định tất cả những điểm ảnh nằm bên trên mức xám ngưỡng thuộc về đối tượng. Còn tất cả những điểm ảnh không nằm trên mức xám ngưỡng sẽ nằm ngoài đối tượng. Đường bao là tập tất cả những điểm nằm bên trong và mỗi điểm có ít nhất một điểm lân cận nằm ngoài đối tượng. Phân ngưỡng sẽ được thực hiện hoàn hảo nếu đối tượng được xét có mức xám bên trong đồng nhất và nằm trên nền có mức xám đồng nhất khác. Nếu một vài tính chất (ngoài mức xám, tính kết cấu chẳng hạn) của các đối tượng khác nền của chúng, thì đầu tiên người ta có thể chuyển đổi tính chất đó thành mức xám. Sau đó tiến hành phân ngưỡng mức xám để có thể phân vùng ảnh. 18.3.1. Phân ngưỡng tổng thể Trong quá trình xác định đường biên bằng phân ngưỡng đơn giản nhất, giá trị mức xám ngưỡng là hằng số được sử dụng trong toàn bộ ảnh. Nếu mức xám nền là hằng số hợp lý và nếu các đối tượng đều có độ tương phản xấp xỉ bằng nhau, thì một ngưỡng tổng thể cố định thường được dùng để qui định mức xám ngưỡng hợp lý được chọn. 18.3.2. Phân ngưỡng thích nghi Trong nhiều trường hợp mức xám nền không phải là hằng số và độ tương phản của các đối tượng trong ảnh hoàn toàn khác nhau, thường xảy ra trường hợp một ngưỡng áp dụng thích hợp cho một vùng ảnh này nhưng lại không thích hợp cho những vùng khác. Trong những trường hợp đó, thuận tiện nhất là sử dụng mức xám ngưỡng là một hàm biến thiên chậm theo vị trí trong ảnh. Hình 18-4 cho thấy ảnh hiển vi của các nhiễm sắc thể từ một tế bào máu người. Trong ảnh này, mức xám nền thay đổi do sự chiếu sáng không đồng đều và độ tương phản thay đổi từ nhiễm sắc thể này sang nhiễm sắc thể khác. Trong hình 18-4a, một mức xám ngưỡng không đổi được sử dụng cho toàn bộ ảnh để phân tách các nhiễm sắc thể. Mỗi nhiễm sắc thể được bao bởi một đường và một dãy số. Trong hình 18- 4b, ngưỡng được thay đổi từ nhiễm sắc thể này sang nhiễm sắc thể khác tương xứng với nền cục bộ và độ tương phản của nhiễm sắc thể. Điều này đã tạo ra một vài sai số phân đoạn-trong đó nhiều nhiễm sắc thể bị dính vào nhau hay các nhiễm sắc thể riêng biệt bị phá vỡ. Một nghiên cứu tương tự cho thấy rằng độ chính xác của phép đo diện tích các nhiễm sắc thể đã được cải tiến bằng phân ngưỡng thích nghi. Trong hình 18-4b, ngưỡng đối với mỗi nhiễm sắc thể được đặt xấp xỉ mức trung bình giữa mức xám trung bình của đối tượng và mức xám nền cục bộ. 18.3.3. Lựa chọn ngưỡng tối ưu Trừ phi đối tượng trong ảnh có các mặt cực kỳ dốc đứng, còn thì giá trị chính xác của mức xám ngưỡng có thể có tác động đáng kể lên vị trí đường biên và toàn bộ kích thước đối tượng được trích chọn. Nghĩa là các số đo kích thước liên tiếp-khu vực riêng biệt-nhạy cảm với mức xám ngưỡng. Vì lý do đó mà chúng ta cần sự tối ưu hay ít ra cũng là phương pháp thiết lập ngưỡng. 355 HÌNH 18-4 Hình 18-4 Phân ngưỡng tổng thể và thích nghi 18.3.3.1. Kỹ thuật lược đồ mức xám Một ảnh chứa một đối tượng trên nền tương phản có lược đồ mức xám nhị thức (bimodal) (hình 18-5). Hai đỉnh tương ứng với số lượng tương đối lớn các điểm trong và ngoài đối tượng. Vùng lõm giữa các đỉnh tương ứng với các điểm tương đối ít xuất hiện xung quanh biên của đối tượng. Trong các trường hợp như thế này, lược đồ mức xám thường được dùng để thiết lập mức xám ngưỡng. Diện tích một đối tượng xác định bởi mức xám ngưỡng T là T dDDHA )( (18.1) Lưu ý rằng việc tăng ngưỡng T thêm một lượng T chỉ hơi làm giảm diện tích nếu ngưỡng tương ứng với vùng lõm trong lược đồ mức xám. Bởi vậy, việc lấy ngưỡng tại vùng lõm của lược đồ sẽ tối thiểu hoá tính nhậy cảm của phép đo vùng với các sai số nhỏ trong sự chọn ngưỡng. Hình 18-5 Lược đồ mức xám nhị thức Nếu ảnh hay vùng trong ảnh chứa đối tượng bị nhiễu và không lớn lắm thì chính lược đồ mức xám sẽ bị nhiễu. Nhiễu sẽ làm mờ đi vị trí của vùng lõm, trừ phi vùng lõm rõ nét một cách khác thường. Điều này có thể khắc phục trong một phạm vi nào đó bằng cách làm trơn lược đồ mức xám, bằng cách sử dụng tích chập hay bằng một thủ tục điều chỉnh đường cong. Nếu hai đỉng có kích thước không giống nhau, thì việc làm trơn có xu hướng dịch chu ... tiên (tiến), nó được xây dựng từ trái sang phải. Tại mỗi điểm ảnh, các điểm nền bên trái là 0, nhưng các điểm ở phía trong được thay bằng số đếm bao nhiêu bước đã thực hiện từ khi gặp giá trị 0 cuối cùng. Trong hình 18-26(c),ta thấy các kết quả của bước thứ hai (lùi), nó được xây dựng từ phải sang trái. trong bước này, mỗi điểm ảnh được thay thế bằng giá trị nhỏ nhất của (a) nó hay (a) số bước nhận được từ khi gặp được giá trị 0 cuối cùng. Kết quả là môt ảnh mà mức xám trong đó phản ánh khoảng cách đến đường biên gần nhất. HÌNH 18-26 Hình 18-26 Biến đổi khoảng cách một chiều: (a) ảnh nhị phân; (b) kết quả của bước thứ nhất (trái sang phải); (c) kết quả của bước thứ hai (phải sang trái) Trong biến đổi khoảng cách hai chiều, một mặt nạ tương tự hạt nhân tích chập (xem hình 18-27) được áp dụng lên ảnh trong quá trình giống tích chập. Giống như biến đổi khoảng cách một chiều, biến đổi khoảng cách hai chiều cũng có hai giai đoạn. Bước tiến di chuển từ trái sang phải, thực hiện từ trên xuống dưới ảnh, trong khi bước lùi di chuyển từ phải sang trái, thực hiện từ dưới lên trên ảnh. Tại mỗi vị trí, một tập các tổng hai số hạng được tạo ra bằng cách thêm từng phần tử trong mặt nạ vào giá trị điểm ảnh cơ bản. Những nơi tống trong mặt nạ, không có thao tác nào được thực hiện. Điểm ảnh dưới tâm của mặt nạ được thay thế bởi tổng nhỏ nhất. 375 HÌNH 18-27 Hình 18-27 Cặp mặt nạ đối với biến đổi khoảng cách hai chiều sử dụng thuật giải xoi đường: (a) 3 3; (b) 5 5 Các mặt nạ 3 3 trong hình 18-27 co ta một ảnh khoảng cách mà mức xám trong đó gấp ba lần khoảng cách Ơ clit đến đường biên. Độ lệch cực đại từ khoảng cách Ơ clit thực sự là 8%. Các mặt nạ 5 5 cho ta một ảnh khoảng cách đượ nhân tỷ lệ lên năm lần và sai số cực đại của chúng chỉ là 2%. Ví dụ, biến đổi khoảng cách thường dùng trong việc phân đoạn các nhóm đối tượng tiếp xúc. Mỗi đối tượng trong nhóm tạo ra một giá trị cực đại cục bộ trong ảnh khoảng cách. Thuật giải đường phân nước (giảm ngưỡng từ một ngưỡng cao của ảnh ban đầu) có thể phân đoạn ảnh khoảng cách thành các đối tượng thành phần riêng biệt, như cho trong hình 18-28. Sử dụng thuật giải đường phân nước trên ảnh biến đổi khoảng cách (hình 18-28(b)) có hiệu quả phá vỡ một phần đối tượng tròn tiếp xúc (hình 18-28(c)). 18.7.6. Phân tích độ cong đường biên Độ cong tại một điểm trên đường cong được định nghĩa như một sự thay đổi của góc tang tại điểm đó. Độ cong trên đường biên của đối tượng là dương trong các khoảng mà ở đó đối tượng là lồi và âm ở chỗ lõm. Ví dụ, trong hình 18-29 một đồ thị độ cong của đường biên trình bày hai đỉnh nhọn âm tương ứng với hai chỗ lõm. Nếu các đối tượng mong đợi là lồi, thì điều này báo hiệu sai số phân đoạn. Một đường cắt ngang, được vẽ giữa hai điểm a và b, tách biệt hai đối tượng. Vì thế, hàm độ cong đường biên có thể trợ giúp trong việc phát hiện tự động và hiệu chỉnh các sai số phân đoạn. HÌNH 18-28 Hình 18-28 Sử dụng thuật giải đường phân nước với biến đổi khoảng cách đề phân đoạn các đối tượng tiếp xúc: (a) ảnh nhị phân; (b) biến đổi khoảng cách; (c) ngưỡng đường phân nước 376 18.8. CẤU TRÚC ẢNH PHÂN ĐOẠN Nếu chỉ đòi hỏi tổng kích thước của mỗi đối tượng, thì không cần thiết phải trích chọn các đối tượng từ ảnh ban đầu. Trong các trường hợp khác, chúng ta có thể tổng hợp một ảnh mới bằng cácnh trình bày các đối tượng được sắp xếp lạobằng cách nào đó, hay ta có thể hiển thị từng đối tượng bằng chính ảnh của nó. Ta cũng có thể thực hiện thêm phép đo hay xử lý khác trên các đối tượng riêng lẻ. Trong các trường hợp này, có thể đáng giá để trích chọn và lưu trữ các đối tượng riêng lẻ theo một khuôn dạng thuận lợi hơn. Nói chung, mỗi đối tượng phải được ấn định một dãy số khi tìm thấy nó. Giá trị số của đối tượng này có thể sử dụng để nhận biết và đánh dấu các đối tượng riêng lẻ trong cảnh. trong phần này, ta sẽ đề cập ba phương pháp cấu trúc ảnh phân đoạn. 18.8.1. Bản đồ đối tượng thành viên Một phương pháp để lưu trữ thông tin phân đoạn là để tạo ra một ảnh riêng biệt,có cùng kích thước với ảnh ban đầu, và mã hoá đối tượng thành viên trên cơ sở từng điểm ảnh. trong bản đồ đối tượng thành viên, mức xám của từng điểm ảnh mã hoá chuỗi số thứ tự đối tượng có chứa điểm ảnh tương ứng trong ảnh ban đầu. Ví dụ, tất cả các điểm ảnh thuọcc đối tượng 27 trong ảnh sẽ có mức xám 27 trong bản đồ thành viên. Kỹ thuật bản đồ thành viên nói chung là hoàn hảo, nhưng nó không phải là phương pháp đặc biệt để lưu trữ thông tin phân đoạn. Thêm vào đó, nó đòi hỏi một ảnh số đúng kích thước để miêu tả một cảnh chứa đúng một đối tượng nhỏ. Tuy nhiên, đây là kiểu ảnh nén khá hiệu quả, vì bình thường nó chỉ chứa các vùng lớn có mức xám không đổi. Nếu chỉ quan tâm đến lích thước và hình dạng đối tượng, thì ảnh ban đầu có thể bị loại bỏ sau khi phân đoạn. Kết quả giảm dữ liệu hiệu quả hơn nữa nếu chỉ có một đối tượng hay nếu các đối tượng không cần thiết phải phân biệt. Trong cả hai trường hợp, bản đồ thành viên đều trở thành một ảnh nhị phân. Những yêu cầu dữ liệu cho phân đoạn ảnh thỉnh thoảng bắt buộc quá trình phải làm nhiều giai đoạn khác nhau trên ảnh. một bản đồ thành viên nhị phân hai đa mức thường được dùng như một bước trung gian trong thủ tục phân đoạn ảnh nhiều bước. 18.8.2. Chuỗi mã đường biên Một khuôn dạng đầy đủ hơn đối với việc lưu trữ thông tin phân đoạn ảnh là chuỗi mã bường biên. Bởi vì đây là đường biên định nghĩa một đối tượng, nên không cần thiết phải lưu trữ vị trí các điểm bên trong. Hơn nữa, sự thật là chuỗi mã đường biên dùng các đường biên là các đường liên kết. Chuỗi mã khởi đầu bằng cách cách định rõ toạ độ (x, y) của điểm xuất phát tuỳ chọn trên đường biên của đối tượng. Điểm ảnh được nhận biết có 8 lân cận và ít nhất trong số chúng cũng phải là điểm biên. Chuỗi mã đường biên định rõ chiều hướng mà một bước phải được tiến hành để đi từ điểm biên hiện tại đến điểm tiếp theo. Vì có thể có 8 hướng, nên chúng có thể được đánh số, từ 0 đến 7. hình 18-30 cho thấy một cách chia có thể chấp nhận của mã 8 hướng. Khi đó chuỗi mã đờng biên bao gồm các toạ đọ của điểm xuất phát, theo sau là dãy mã hướng xác định đường xung quanh biên. Với chuỗi mã đường biên, việc lưu trữ sự phân đoạn của một đối tượng đòi hỏi duy nhất một toạ độ (x, y) và ba bit cho mỗi điểm biên. Đây là không gian lưu trữ ít hơn một cách đáng kể so với không gian cần thiết cho một bản đồ đối tượng thành viên. Khi một cảnh phức tạp được phân đoạn, chương trình có thể lưu trữ từng đường biên đối tượng như một bản ghi đơn lẻ bao gầm số đối tượng, chu vi (số các điểm biên) và chuỗi mã. Thêm vào đó, có nhiều đặc trưng kích thước và hình dạng có thể được trích chọn trực tiếp từ chuỗi mã đường biên, như trình bày ở chương tiếp theo. 377 HÌNH 18-30 Hình 18-30 Hướng mã đường biên Sự sinh ra chuỗi mã đường biên thường yêu cầu truy cập ngẫu nhiên đối với ảnh vào, vì đờng biên phải được đánh lần theo dấu vết trên toàn bộ ảnh. Bằng kỹ thuật tìm vết đường biên trong phân đoạn ảnh, sự sinh ra chuỗi mã là điều tất yếu. Bằng việc định vị đường biên phân ngưỡng, chuỗi mã thường phải được sinh ra trong bước kế tiếp. Sự sinh ra chuỗi mã đường biên cũng không phù hợp cho lắm với việc xử lý từng dòng ảnh lưu trên đĩa. Bởi vì các điểm ảnh bên trong bị bỏ qua, nên chuỗi mã ít được dùng khi đòi hỏi xử lý thêm các ảnh đối tượng riêng biệt. 18.8.3. Mã hoá phân đoạn dòng Mã hoá phân đoạn dòng là kỹ thuật lưu trữ từng dòng các đối tượng được trích chọn. Quá trình được minh hoạ tốt nhất bằng một ví dụ trong hình 18-31. Giả sử chúng ta muốn phân đoạn một ảnh sử dụng ngưỡng mức xám T. Chương trình xem xét ảnh, từng dòng, hoạt động tư trên xuống, tìm kiếm những điểm ảnh có mức xám lớn hơn hoặc bằng T. Trong hình, đoạnh có nhãn 1-1 là dãy ba điểm ảnh kề sát nhau trên dòng thứ 100 có mức xám bằng hoặc trên mức ngưỡng. Vì thế, đoạn 1-1 là phân đoạn dòng đầu tiên của đối tượng đầu tiên (đối tượng số 1) mà chương trình bắt gặp. Thực hiện trên dòng 101, chương trình gặp hai đoạn, 1-2 và 2-1, trên mức ngưỡng. Vì nó không có khả năng chứng tỏ là lúc này cả hai đối tượng thực sự thuộc cùng một đối tượng, chương trình giả thiết rằng đoạn thứ hai trên dòng 101 là một phần của đối tượng thứ hai, đối tượng số 2. Vì đoạn thứ 1-2 nằm dưới đoạn 1-1 nên chương trình giả thiết rằng cả hai đoạn này đều là một phần của đối tượng số 1. Quá trình tiếp tục trên toàn bộ dòng 102, nhưng với dòng 103 chỉ tìm thấy một đoạn đơn lẻ và nó nằm dưới các đoạn của cả hai đối tượng 1 và 2. bây giờ chương trình thừa nhận rằng các đối tượng 1 và 2 là như nhau và việc đánh số đoạn tiếp tục cho đối tượng 1. Trên dòng 105, chương trình lại tìm thấy hai đoạn. Tuy nhiên, vì chúng đều nằm dưới đoạn 1-5 nên có thể thấy chúng thuộc đối tượng 1. trên dòng 107, không tìm thấy đoạn nào nằm dưới đoạn 1-8 hay 1-9 và sự phân tách của đối tượng 1 là hoàn toàn. Theo phương pháp này, đây là những phân đoạn dòng, cùng nhận được, định rõ đối tượng đã được phân tách. Hình 18-32 cho thấy môt cách mà thông tin phân đoạn đối tượng có thể được tổ chức lưu trữ trên đĩa. Mỗi khi một đối tượng mới được xác định, chương trình sẽ tạo ra một tệp đối tượng mới. Tệp này bắt đầu bằng một nhãn đối tượng chứa số đối tượng và số lượng đoạn trong đối tượng. Mục sau cùng phải được thường xuyên được cập nhật cho đến khi đối tượng được phân đoạn hoàn toàn. Theo sau nhãn đối tượng, các phân đoạn dòng được lưu trữ như các bản ghi. Trong hình 18-32, chúngđược lưu trữ bằng một nhãn đoạn, theo sau là giá trị mức xám của các điểm ảnh trong đoạn đó. Nhãn đoạn chứa số dòng mà từ đó đoạn được trích chọn, toạ độ của điểm ảnh đầu tiên trên phân đoạn dòng và số điểm ảnh trong phân đoạn dòng. Đối với đối tượng trong hình 18-31, hai tệp đối tượng đoạn đều được mở. Sau đó chỉ hai đoạn này được lưu trong tệp đối tượng 2, tuy nhiên, chương trình khám phá ra 378 rằng các đối tượng 1 và đều giống nhau. Vì vậy, cấu trúc sâu hơn của tệp đối tượng 2 không thể tiếp tục. Sau đó, hay sau khi phân đoạn hoàn toàn đối tượng này, hai tệp đoạn đối tượng có thể được hợp nhất. Kết quả của kỹ thuật mã hoá phân đoạn dòng là một tập các tệp đoạn, mỗi tệp cho một đối tượng. Nếu mỗi tệp đoạn được lưu như một bản ghi đơn lẻ trên ổ đĩa, thì chỉ cần một vòng quay của đĩa là đủ để đọc và ghi toàn bộ đối tượng. Một ảnh đối tượng có thể dễ dàng tái tạo trong bộ nhớ đơn giản bằng cách mở tệp đoạn. Điêug này thường sử dụng khi cần xử lý thêm các ảnh đối tượng. Đối với việc phân đoạm các ảnh lớn, ảnh đầu vào được đọc từng dòng từ đĩa và các tệp đoạn đối tượng được thu thập trong bộ nhớ. Miễn sao một tệp đối tượng được hoàn thành, nhãn của nó được thông qua và tệp đó được ghi lên đĩa như một bản ghi. Một điểm thuận lợi của phương pháp này là diện tích, chu vi, IOD, kích thước mở rộng chiều ngang và chiều dọc của đối tượng đó dễ dàng xây dựng thành bước trích chọn đối tượng. Trong phương pháp này, một vài đặc trưng quan trọng của đối tượng được biết ngay khi bước phân đoạn được hoàn thành. HÌNH 18-32 Hình 18-32 Tệp đoạn đối tượng 18.9. TỔNG KẾT NHỮNG ĐIỂM QUAN TRỌNG 1. Phân đoạn ảnh là quá trình phân chia một ảnh số thành những tập điểm ảnh liên kết và không đè lên nhau, một tập tương ứng với nền và các tập còn lại tương ứng với các đối tượng trong ảnh. 2. Phân đoạn ảnh có thể được tiếp cận như quá trình ấn định các điểm ảnh cho các đối tượng hay tìm đường biên giữa các đối tượng (hay giữa các đối tượng và nền). 3. Phân ngưỡng mức xám là một kỹ thuật phân vùng đơn giản luôn tạo ra các đường biên kín, liên thông. 4. Quá trình làm đặc nền và khử nhiễu, được xây dựng trước khi phân đoạn, thường có thể cải thiện hiệu suất trong suốt quá trình phân đoạn. 5. Phân ngưỡng mức xám thường rất cần thiết để thay đổi trong phạm vi ảnh, trừ phi độ tương phản giữa đối tượng và mức xám nền tương đối ổn định. 6. Đối với ảnh các đối tượng đơn giản trên nền tương phản, việc lập mức ngưỡng tại điểm lõm của lược đồ nhị thức làm tối thiểu hoá tính nhạy của của diện tích đo được với sự thay đổi ngưỡng. 7. Hàm chiếu của một điểm tròn đồng tâm có thể xuất phát từ lược đồ hay hàm chu vi ảnh của nó. 8. Gradient trung bình xung quanh một đường viền có thể tính từ hàm chu vi và lược đồ [biểu thức (12)] 379 9. Phân đoạn đối tượng có thể được thực hiện bằng cách tìm vết đường biên, hay phân ngưỡng, theo gradient ảnh. 10. Các kỹ thuật tăng vùng thường dùng cho việc phân đoạn các cảnh phức tạp sử dụng các định nghĩa đối tượng phức tạp. 11. Phân đoạn một ảnh có thể được lưu trữ như một bản đồ thành viên, như một chuỗi mã hay theo mã phân đoạn dòng. BÀI TẬP 1. Bên dưới là lược đồ của một ảnh 20 mức xám (0 là màu đen) của một quả bóng bi-a màu trắng trên nền đen. Quả bóng được làm bằng vật liệu có trọng lượng riêng là 1.5 gam/cm3. Khoảng cách điểm ảnh là 1 mm. Quả bóng cân nặng bao nhiêu? [0 100 500 3000 9000 3000 500 200 100 200 300 500 627 500 300 200 100 0 0 0] 2. Bên dưới là lược đồ của một ảnh 20 mức xám của một trái cây trên một nền tương phản. Khoảng cách điểm ảnh là 2 mm. Đây là quả anh đào, quả nho hay quả bí ngô? [0 100 200 300 500 600 500 300 200 100 200 500 3000 8000 20000 8000 3000 5000 1000 0] 3. Bên dưới là lược đồ của một ảnh 32 mức xám (0 là màu đen) chứa một máy ghi đĩa màu đen, đường kíng là 12 inch, với nhãn màu trắng trên nền xám. Khoảng cách điểm ảnh là bao nhiêu? đường kính nhãn là bao nhiêu? [0 0 0 0 100 200 2000 6000 2000 200 100 0 0 200 3000 9000 3000 200 0 0 50 100 400 100 50 0 0 0 0 0 0 0] DỰ ÁN 1. Phát triển một chương trình tạo ra các ảnh số của các vết nhiễu Gauss trên nền đã có mức xám định. Kể cả khả năng xác định vị trí và chiều x và chiều y (độ lệch tiêu chuẩn) của vết và biên độc của nhiễu trắng phân bố không đồng đều. Tạo một ảnh 200 mức xám cao, vết 15 20 với nhiễu có biên độ đỉnh là mức xám 10. 2. Phát triển một chương trình tạo ra các tóm tắt từ diện tích và chu vi của vết đã miêu tả trong dự án 1 và tính đạo hàm bậc nhất và bậc hai của tóm tắt này. Định nghĩa SNR như biên độ vết chia cho biên độ nhiễu RMS. Với các vết tròn bán kính 5, 10 và 20 điểm ảnh, với các SNR là 40, 20, 10 và 5, tạo ra các tóm tắt từ diện tích và xác định vị trí điểm có độ dốc cực đại. Xác định theo kinh nghiệm, đối với từng kích thước của vết, SNR tối thiểu cần thiết là bao nhiêu để xác định vị trí điểm uốn với sai số không quá một điểm ảnh. 3. Phát triển một chương trình hiệu chỉnh hàm Gauss hai chiều thành vết nhiễu Gauss trên một nền có mức xám 0 (xem phần 19.5.5). Sử dụng chương trình để xác định vị trí, kích thước và biên độ của vết nhiễu trong một ảnh được tạo bởi chương trình được miêu tả trong dự án 1 hay có được bằng cách số hoá ảnh một đối tượng tròn. 4. Phát triển một chương trình phân ngưỡng thích nghi mà có thể thiết lập ngưỡng cho từng đối tượng trong một cảnh sử dụng một trong những kỹ thuật chọn ngưỡng đã miêu tả trong chương này và kiểm tra chương trình trên một ảnh chứa 5 đối tượng có độ tương phản khác nhau trên một nền không đều. Sử dụng một ảnh số khác hay một ảnh được tạo bởi một chương trình như đã miêu tả trong dự án 1.
File đính kèm:
- giao_trinh_xu_ly_anh_chuong_18_nhan_dang_mau_phan_doan_anh.pdf