Xây dựng hệ thống nhận dạng giới tính tự động sử dụng LPQ

Bài báo đề xuất một hệ thống nhận dạng giới tính từ ảnh mặt người hoàn toàn tự động dựa

trên việc sử dụng phương pháp trích xuất đặc trưng LPQ (Local Phase Quantization). Từ ảnh

input, phần ảnh khuôn mặt người sẽ được phát hiện tự động bằng cách sử dụng các đặc trưng HOG

(Histogram of Oriented Gradients). Tiếp đến, các ảnh mặt sẽ được chuẩn hóa về cùng điều kiện

ánh sáng bằng kỹ thuật retinal filter. Ở bước trích chọn đặc trưng, phương pháp LPQ sẽ được sử

dụng nhằm trích chọn các đặc trưng cục bộ quan trọng nhất của khuôn mặt. Cuối cùng, bộ phân

lớp nhị phân SVM (Support Vector Machine) sẽ được áp dụng để đưa ra giới tính cho bức ảnh mặt

tương ứng. Hệ thống được thử nghiệm trên cơ sở dữ liệu mặt chuẩn FERET và cho kết quả tốt (tỉ lệ

nhận dạng trung bình là 98.3%). Kết quả này chứng tỏ hệ thống đề xuất có khả năng nhận dạng

giới tính tốt với các ảnh mặt được thu nhận ở các điều kiện trong nhà mặc dù có sự ảnh hưởng của

ánh sáng, biểu hiện khuôn mặt, các thay đổi về thời gian.

8 trang kimcuc 19460

Download

Bạn đang xem tài liệu "Xây dựng hệ thống nhận dạng giới tính tự động sử dụng LPQ", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Xây dựng hệ thống nhận dạng giới tính tự động sử dụng LPQ

THE INTERNATIONAL CONFERENCE ON MARINE SCIENCE AND TECHNOLOGY 2016
HỘI NGHỊ QUỐC TẾ KHOA HỌC CÔNG NGHỆ HÀNG HẢI 2016 460
Xây dựng hệ thống nhận dạng giới tính tự động sử dụng LPQ
Towards building an automatic gender classification system using LPQ
Nguyễn Hữu Tuân,
Trịnh Thị Ngọc Hương, Lê Quyết Tiến
Trường Đại học Hàng hải Việt Nam,
[email protected]
Tóm tắt
Bài báo đề xuất một hệ thống nhận dạng giới tính từ ảnh mặt người hoàn toàn tự động dựa
trên việc sử dụng phương pháp trích xuất đặc trưng LPQ (Local Phase Quantization). Từ ảnh
input, phần ảnh khuôn mặt người sẽ được phát hiện tự động bằng cách sử dụng các đặc trưng HOG
(Histogram of Oriented Gradients). Tiếp đến, các ảnh mặt sẽ được chuẩn hóa về cùng điều kiện
ánh sáng bằng kỹ thuật retinal filter. Ở bước trích chọn đặc trưng, phương pháp LPQ sẽ được sử
dụng nhằm trích chọn các đặc trưng cục bộ quan trọng nhất của khuôn mặt. Cuối cùng, bộ phân
lớp nhị phân SVM (Support Vector Machine) sẽ được áp dụng để đưa ra giới tính cho bức ảnh mặt
tương ứng. Hệ thống được thử nghiệm trên cơ sở dữ liệu mặt chuẩn FERET và cho kết quả tốt (tỉ lệ
nhận dạng trung bình là 98.3%). Kết quả này chứng tỏ hệ thống đề xuất có khả năng nhận dạng
giới tính tốt với các ảnh mặt được thu nhận ở các điều kiện trong nhà mặc dù có sự ảnh hưởng của
ánh sáng, biểu hiện khuôn mặt, các thay đổi về thời gian.
Từ khóa: Tự động, nhận dạng giới tính, LPQ SVM.
Abstract
This paper introduces a new automatic gender classification system based on the usage of
LPQ (Local Phase Quantization) for facial feature extraction. From the input image, face regions
are detected automatically by applying HOG (Histogram of Oriented Gradients) features. Next,
detected face images are illumination normalized with retinal filter method. Within the feature
extraction stage, the LPQ method is exploited to extract the most important features from
normalized images. Finally, the binary SVM classifier is used to determine the gender of the given
image. The experiments are carried out upon the FERET database and the obtained results are
very amazing (average recognition rate is 98.3%). This shows that our system can cope quite
efficiently with indoor images under the effects of variations of illumination, facial expressions and
time-lapse.
Keywords: Automatic, gender classification, LPQ SVM.
1. Giới thiệu
Việc phân tích và trích xuất các thông tin có thể có từ các ảnh mặt người đã được các nhà
khoa học nghiên cứu từ đầu những năm 90 của thế kỷ trước. Điều này là do có rất nhiều các thông
tin có ích có thể khai thác từ một bức ảnh khuôn mặt, ví dụ như danh tính, giới tính, cảm xúc, cử
chỉ tương tác, dân tộc, tình trạng sức khỏe, Trong số các thông tin có thể suy ra từ ảnh mặt người,
giới tính là một thuộc tính quan trọng vì nó có khá nhiều ứng dụng trong thực tế, ví dụ như trong
tương tác người máy, trong quảng cáo có định hướng, trong thống kê dân số.
Một hệ thống nhận dạng giới tính (gender recognition) từ ảnh mặt người, còn được gọi là
một hệ thống phân lớp giới tính (gender classification), về bản chất là một bài toán phân lớp nhị
phân thường có nhiều bước, mỗi bước có một chức năng khác nhau và kết quả output của bước này
sẽ là dữ liệu input của bước ngay sau nó. Các bước trong một hệ thống nhận dạng giới tính được
minh họa trong hình 1. Đầu tiên, từ bức ảnh input, một kỹ thuật phát hiện mặt người sẽ được dùng
để xác định xem có vùng ảnh mặt người không, và nếu có thì nằm ở vị trí nào. Tiếp đến, do các ảnh
mặt thường có các góc nhìn khác nhau, nên để có thể nhận được kết quả nhận dạng tốt, một thuật
THE INTERNATIONAL CONFERENCE ON MARINE SCIENCE AND TECHNOLOGY 2016
HỘI NGHỊ QUỐC TẾ KHOA HỌC CÔNG NGHỆ HÀNG HẢI 2016 461
toán căn chỉnh sẽ được sử dụng để đưa các ảnh mặt được phát hiện về cùng một góc nhìn thẳng.
Sau đó, một thuật toán chuẩn hóa ánh sáng sẽ được áp dụng nhằm mục đích làm cho các bức ảnh ở
cùng một điều kiện ánh sáng vì các thay đổi về điều kiện ánh sáng cũng ảnh hưởng lớn tới kết quả
nhận dạng. Ở bước trích chọn đặc trưng, một thuật toán trích chọn đặc trưng cục bộ sẽ được dùng
để trích xuất ra các đặc điểm có tính chất phân biệt nhất của khuôn mặt. Kết quả của thuật toán trích
chọn đặc trưng là mỗi ảnh mặt sẽ được biểu diễn bởi một vector đặc trưng có số chiều lớn (từ vài
trăm tới vài trăm nghìn). Ở bước cuối cùng, một bộ phân lớp sẽ được sử dụng để xác định giới tính
của ảnh input ban đầu.
Hình 1. Sơ đồ tổng quan của một hệ thống nhận dạng giới tính
Hiện nay hai phương pháp được dùng rộng rãi nhất cho việc phát hiện khuôn mặt người
trong ảnh là phương pháp sử dụng đặc trưng Haar [1] và các đặc trưng HOG [2]. So với đặc trưng
HOG, cách tiếp cận sử dụng đặc trưng Haar có tốc độ nhanh hơn nhưng độ chính xác kém hơn. Cả
hai cách tiếp cận này hiện nay đều đã được cài đặt trong hai thư viện mã nguồn mở là OpenCV
(opencv.org) và dlib (dlib.net). Để chuẩn hóa ánh sáng của các ảnh mặt, các kỹ thuật như cân bằng
histogram hay retinal filter [3] đều có thể áp dụng.
Bước quan trọng nhất trong một hệ thống nhận dạng giới tính là phương pháp trích chọn các
đặc điểm từ ảnh mặt vì đó là cách duy nhất để có thể biểu diễn khuôn mặt thành các cấu trúc mà ta
có thể so sánh với nhau (các vector đặc điểm). Trong [4] các tác giả đã sử dụng phương pháp mẫu
nhị phân cục bộ LBP (Local Binary Patterns) với các ảnh ở các khung nhìn khác nhau và SVM để
nhận dạng giới tính. Cũng sử dụng LBP nhưng với bộ phân lớp Adaboost là cách tiếp cận được
trình bày trong [5]. Tác giả Luis đã kết hợp các đặc điểm LBP ở nhiều tỉ lệ khác nhau với các thông
tin về hình dạng và cường độ sáng để nhận dạng giới tính trong bài báo [6]. Thử nghiệm trên cơ sở
dữ liệu FERET và nhận được kết quả khá tốt với phương pháp dựa trên các histogram của các biên
của ảnh đã được Ardakany và các cộng sự đề xuất trong [7]. Một phương pháp khác kết hợp các
đặc điểm LBP với các biến đổi cosin DCT cũng nhận được kết quả rất tốt đối với các thử nghiệm
trên cơ sở dữ liệu FERET [8]. Trong khi đó, cách kết hợp LBP với các đặc trưng SIFT và histogram
màu cũng đã được đề xuất [9]. Có thể thấy LBP là một phương pháp được dùng khá phổ biến trong
các phương pháp đã được trích dẫn ở trên. Điều này khẳng định cho sự hiệu quả của nó trong bài
toán nhận dạng giới tính từ ảnh mặt. Tuy nhiên sử dụng LBP không phải là cách tiếp cận duy nhất,
trong [10] các tác giả đã kết hợp các đặc trưng SIFT và các đặc trưng dựa trên biến đổi sóng nhỏ
Gabor và thu được các kết quả tốt.
Các hệ thống trên hầu hết là các hệ thống bán tự động với việc sử dụng các tọa độ mắt của
ảnh để căn chỉnh ảnh mặt hoặc căn chỉnh thủ công. Trong bài báo này, chúng tôi đề xuất một hệ
thống nhận dạng giới tính hoàn toàn tự động sử dụng phương pháp trích chọn đặc trưng cục bộ
LPQ. Cụ thể, ở bước phát hiện khuôn mặt, các đặc trưng HOG sẽ được áp dụng. Sau đó kỹ thuật lọc
ảnh retinal filter được dùng để chuẩn hóa các điều kiện ánh sáng của khuôn mặt. Ở bước phân lớp,
kỹ thuật phân lớp nhị phân SVM sẽ thực hiện trên các vector LPQ nhận được ở bước trích chọn đặc
trưng để đưa ra giới tính của bức ảnh mặt cần nhận dạng. Các kết quả thử nghiệm trên cơ sở dữ liệu
THE INTERNATIONAL CONFERENCE ON MARINE SCIENCE AND TECHNOLOGY 2016
HỘI NGHỊ QUỐC TẾ KHOA HỌC CÔNG NGHỆ HÀNG HẢI 2016 462
ảnh mặt FERET, một trong các cơ sở dữ liệu công cộng được sử dụng rộng rãi nhất cho nhận dạng
mặt, cho thấy hệ thống đề xuất đạt được kết quả tốt đối với các ảnh mặt thư nhận được trong các
điều kiện có kiểm soát dưới sự ảnh hưởng của các yếu tố như ánh sáng, cảm xúc khuôn mặt và các
thay đổi về thời gian chụp. Điều này chứng tỏ sự hiệu quả của hệ thống đề xuất.
Các phần tiếp theo của bài báo được tổ chức như sau: các chi tiết của hệ thống đề xuất sẽ
được trình bày chi tiết trong phần 2, trong phần 3 là mô tả về các thử nghiệm và phần kết quả nhận
dạng cùng với các kết luận, dự kiến công việc trong tương lai.
2. Hệ thống nhận dạng mặt tự động sử dụng LPQ
Trong phần này, tác giả sẽ đi sâu mô tả chi tiết về các bước của hệ thống nhận dạng giới
tính tự động từ ảnh mặt người. Trước hết là sơ đồ mô tả về các kỹ thuật được dùng cho hệ thống
được mô tả sơ bộ trong hình số 2. Cụ thể, hệ thống sẽ gồm 4 bước chính: phát hiện mặt người với
các đặc trưng HOG, chuẩn hóa ánh sáng bằng kỹ thuật retinal filter, trích chọn đặc trưng với
phương pháp LPQ và cuối cùng là sử dụng bộ phân lớp nhị phân SVM ở bước phân lớp. Các phần
tiếp theo của bài báo sẽ đi vào từng bước cụ thể.
Hình 2. Các bước của hệ thống nhận dạng giới tính tự động sử dụng LPQ
2.1. Phát hiện mặt người sử dụng các đặc trưng HOG
2.1.1. Phương pháp trích chọn đặc trưng HOG
Ban đầu, phương pháp trích chọn đặc trưng HOG được đề xuất cho bài toán phát hiện người
đi bộ (pedestrian detection) và đạt được kết quả tốt. Sau đó, phương pháp này được áp dụng cho các
bài toán phát hiện đối tượng và cũng cho thấy hiệu năng rất tốt. So với phương phát phát hiện đối
tượng phổ biến là dựa vào các đặc trưng Haar hay LBP, cách tiếp cận sử dụng HOG cho kết quả tốt
hơn khi đối tượng trong ảnh bị ảnh hưởng bởi các điều kiện về hướng, ánh sáng hay bị che khuất.
Tuy nhiên điểm trừ của HOG là chậm hơn.
Về cơ bản, một vector đặc trưng HOG được thành lập từ việc tính các histogram về các hướng của
đạo hàm của một ảnh tại các vùng cục bộ gọi là “tế bào” (cell). Cơ sở cho phương pháp này là
thông tin của ảnh có thể được biểu diễn bằng cách sử dụng sự phân bố của các giá trị đạo hàm của
ảnh hoặc hướng của các đạo hàm cục bộ tại các điểm ảnh. Ảnh được chia thành nhiều tế bào là các
vùng con để tính các histogram của các hướng đạo hàm. Biểu diễn histogram của các tế bào khi hợp
lại sẽ tạo thành biểu diễn HOG cho ảnh ban đầu. Chuỗi histogram có thể được chuẩn hóa để tăng
hiệu quả nhận dạng vì chúng có tính bất biến cao hơn đối với các thay đổi về ánh sáng.
THE INTERNATIONAL CONFERENCE ON MARINE SCIENCE AND TECHNOLOGY 2016
HỘI NGHỊ QUỐC TẾ KHOA HỌC CÔNG NGHỆ HÀNG HẢI 2016 463
Để tính một vector HOG từ một ảnh input chúng ta cần thực hiện qua 4 bước như mô tả sau
đây.
Bước 1: tính đạo hàm của ảnh. Bước này được thực hiện bằng cách nhân chập ảnh input với
hai nhân 1 chiều tương ứng cho việc lấy đạo hàm theo hai hướng Ox và Oy, cụ thể
giá trị của hai nhân là:
Dx = [-1 0 1] và Dy = [1 0 -1]
T, (1)
Trong đó T là ký hiệu của phép toán lấy ma trận chuyển vị.
Với một ảnh input I sẽ có 2 đạo hàm được tính là Ix = I * Gx, Iy = I * Gy.
Tiếp đến hai thành phần cường độ (magnitude) và hướng (orientation) sẽ được tính
theo các công thức:
|G| = sqrt(Ix
2 + Iy
2),  = arctan(Iy, Ix) (2)
Bước 2: gán hướng. Sau khi tính xong hướng của các đạo hàm tại các điểm ảnh, ta sẽ nhóm
các giá trị hướng khác nhau trong mỗi vùng của khoảng [0o, 360o] thành một nhãn
duy nhất đại diện cho nhóm đó. Cụ thể sẽ có 9 nhãn từ 0 tới 8 tương ứng với các
vùng giá trị của các hướng từ [0o, 360o/9), [360o/9, 2*360o/9), Sau đó histogram
của các cell sẽ được tính dựa trên số lần xuất hiện của các nhãn được gán.
Bước 3: Tính histogram của các khối. Các cell nhỏ sẽ được ghép với nhau tạo thành các
khối (block) không tách rời nhau (các cell sẽ xuất hiện nhiều hơn 1 lần trong các
khối). Vector HOG được tạo thành từ histogram đã được chuẩn hóa của các khối.
Bước 4: chuẩn hóa khối. Ở bước này các vector HOG sẽ được chuẩn hóa bằng cách sử dụng
các hàm chuẩn hóa thông dụng như L1-norm, L2-norm để có thể đáp ứng tốt hơn
trong các điều kiện ánh sáng thay đổi.
2.1.2. Phát hiện mặt người sử dụng đặc trưng HOG
Để phát hiện mặt người trong ảnh sử dụng đặc trưng HOG ta cần tiến hành các bước như
sau:
Bước 1: chuẩn bị P mẫu là các ảnh mặt người đúng và tính vector HOG cho các mẫu này.
Bước 2: chuẩn bị N mẫu (N lớn hơn nhiều so với P) không phải là các ảnh mặt người và
tính vector HOG cho các mẫu này.
Bước 3: sử dụng bộ phân lớp SVM tuyến tính để học với P+N vector HOG đã tính để sinh
ra một mô hình đoán nhận.
Bước 4: với mỗi bức ảnh trong bộ N bức ảnh không phải là mặt người, di chuyển một cửa
sổ trượt qua tất cả các vị trí không gian của ảnh và tính vector HOG của vùng ảnh
bao bởi cửa sổ tương ứng rồi đưa vào bộ phân lớp. Nếu bộ phân lớp cho kết quả
sai, đó là ảnh mặt người, thì ghi lại vector HOG tương ứng cùng với xác suất phân
lớp.
Bước 5: sắp xếp các vector HOG nhận dạng sai theo xác suất phân lớp và đưa vào bộ phân
lớp SVM để học lại.
Bước 6: sử dụng mô hình kết quả của bước 5 để phát hiện ảnh mặt người.
Trong bài báo này, chúng tôi sử dụng thư viện mã nguồn mở dlib (dlib.net) với thuật toán
phát hiện mặt người sử dụng đặc trưng HOG đã được cài đặt sẵn.
2.2. Kỹ thuật chuẩn hóa ánh sáng retinal filter
Bộ lọc retinal filter là kỹ thuật dùng để chuẩn hóa ánh sáng dựa trên việc mô phỏng các
bước xử lý hình ảnh trong hệ thống nhận thức hình ảnh của con người với 3 bước chính như mô tả
trong hình 3.
THE INTERNATIONAL CONFERENCE ON MARINE SCIENCE AND TECHNOLOGY 2016
HỘI NGHỊ QUỐC TẾ KHOA HỌC CÔNG NGHỆ HÀNG HẢI 2016 464
Hình 3. Các bước của kỹ thuật lọc ảnh retinal filter
Cụ thể, ở bước đầu tiên độ tương phản của ảnh sẽ được cải thiện với một hàm Naka-
Rushton [11]. Tiếp đến, hai bộ lọc thông thấp Gaussian sẽ loại bỏ các nhiễu khỏi ảnh. Nhằm tăng
cường độ sắc nét của ảnh, một bộ lọc DoG (Difference of Gaussian) sẽ được áp dụng. Cuối cùng,
một thao tác cắt bỏ các giá trị quá lớn hoặc quá bé (nhiễu gây ra do bộ lọc DoG) sẽ cho ra ảnh kết
quả. Các công thức cụ thể cho các bước có thể tham khảo trong [3].
2.3. Phương pháp trích chọn đặc trưng LPQ
Phương pháp trích chọn đặc trưng LPQ sử dụng các thông tin về pha (phase information)
trong biểu diễn ảnh nhận được từ một biến đổi Fourier ngắn hạn (Short Term Fourier Transform) để
phân tích các lân cận kích thước MxM xung quanh mỗi điểm ảnh x ký hiệu là Nx của ảnh f(x) và
được xác định như sau:
𝐹(𝑢, 𝑥) = ∑ 𝑓(𝑥 − 𝑦)𝑒−𝑗2𝜋𝑢
𝑇𝑦 = 𝑤𝑢
𝑓𝑓𝑥𝑦∈𝒩𝑥 (3)
Với wu là vector cơ sở trong biến đổi DFT 2 chiều tại tần số u, còn fx là một vector chứa
MxM mẫu của 𝒩𝑥.
Phương pháp LPQ chỉ dùng 4 hệ số phức tương ứng với 4 giá trị tần số là u1 = [a, 0]T, u2 =
[0, a]T, u3 = [a, a]
T, u4 = [a, -a]
T, trong đó a là một giá trị vô hướng đáp ứng điều kiện bất biến về độ
mờ ảnh.
Giả sử: F𝑥
𝑐 = [F(𝑢1, 𝑥), F(𝑢2, 𝑥), F(𝑢3, 𝑥), F(𝑢4, 𝑥)] , và F𝑥 = [Re{F𝑥
𝑐}, Im{F𝑥
𝑐}], trong đó
Re{.} và Im{.} là các hàm tương ứng với phần thực và ảo trong biểu diễn của một số phức. Ma trận
biến đổi có kích thước 8xM2 sẽ là:
W = [Re{𝑤𝑢1, 𝑤𝑢2, 𝑤𝑢3, 𝑤𝑢4}, Im{𝑤𝑢1, 𝑤𝑢2, 𝑤𝑢3, 𝑤𝑢4}]
𝑇 . (4)
Để tăng cường độ phân biệt của các đặc trưng LPQ trong các bài toán nhận dạng và phân
tích hình ảnh, một hàm tách sự tương quan của các hệ số Fx sẽ được áp dụng như sau:
G𝑥 = V
𝑇F𝑥, (5)
với V là một ma trận trực giao nhận được bằng cách áp dụng một biến đổi SVD từ ma trận D:
D = UΣV𝑇. (6)
D là ma trận hiệp phương sai trên các hệ số Fx và được tính như theo công thức:
D = WCW𝑇, (7)
Với ma trận hiệp phương sai C của các mẫu thuộc 𝒩𝑥, nhận được tính từ công thức sau:
C = (
1 𝜎1,2 𝜎1,𝑀2
𝜎2,1 1 𝜎2,𝑀2
𝜎𝑀2,1 𝜎𝑀2,2 1
). (8)
Các phần tử trong ma trận C được tính theo công thức 𝜎𝑖,𝑗 = 𝜌
‖𝒙𝑖 − 𝒙𝑗‖ (‖. ‖ là hàm chuẩn
hóa L2 và 𝜌 là tương quan về giá trị giữa các điểm ảnh lân cận với giả thiết hàm ảnh f(x) là kết quả
THE INTERNATIONAL CONFERENCE ON MARINE SCIENCE AND TECHNOLOGY 2016
HỘI NGHỊ QUỐC TẾ KHOA HỌC CÔNG NGHỆ HÀNG HẢI 2016 465
của chuỗi Markov bậc 1 và mỗi mẫu có phương sai bằng 1), và chính là hiệp phương sai của hai vị
trí xi và xj trong 𝒩𝑥.
Gọi kết quả của nhận được từ công thức (8) trên là Gx, một ảnh LPQ sẽ được tính từ việc
lượng tử hóa 8 thành phần của nó như sau:
LPQ𝑖𝑚𝑎𝑔𝑒 = ∑ 𝑞𝑘2
𝑘−18
𝑘=1 , (9)
với qk là toán tử lượng tử hóa nhị phân áp dụng với thành phần thứ k của Gx:
𝑞𝑘 = {
1 𝑛ế𝑢 𝑔𝑘 ≥ 0
0 𝑛ế𝑢 𝑛𝑔ượ𝑐 𝑙ạ𝑖
. (10)
Ảnh LPQ thu được sẽ được chia thành các vùng ảnh con không giao nhau để tính histogram
cục bộ tương ứng của chúng. Các dãy histogram cuối cùng sẽ được ghép lại với nhau và tạo thành
vector LPQ của ảnh ban đầu. Quá trình này diễn ra như minh họa trong hình 4.
Hình 4. Các bước của tính vector LPQ của một ảnh mặt người
2.4. Bộ phân lớp SVM
Bộ phân lớp SVM được sử dụng để học từ dữ liệu trong tập tham chiếu (reference set) nhằm
sinh ra một siêu phẳng (hyperplane) hay mô hình được sử dụng ở bước nhận dạng. Cụ thể, ở bước
học từ tập dữ liệu học gồm các vector LPQ nhận được (từ phần 2.3 ở trên) được gán nhãn tương
ứng là Nam (1) hay Nữ (-1), bộ phân lớp SVM sẽ sinh một mô hình chia 2 tập mẫu con tương ứng
với 2 nhãn thành 2 nửa của không gian đa chiều (số chiều tương ứng với số thành phần của một
vector LPQ). Sau đó, ở bước nhận dạng, mô hình này sẽ được dùng để nhận dạng xem một bức ảnh
sẽ tương ứng với một người có giới tính Nam hay Nữ. Trong bài báo này chúng tôi sử dụng SVM
vì nó chính là phương pháp phổ biến được áp dụng cho các bài toán phân lớp nhị phân như nhận
dạng giới tính.
Các bước từ chuẩn hóa ánh sáng tới trích chọn đặc trưng và phân lớp (hình 2) được cài đặt
trên thư viện OpenCV (opencv.org) sử dụng ngôn ngữ C++ và công cụ Visual Studio 2015.
3. Đánh giá kết quả
Để đánh giá kết quả nhận dạng của hệ thống đề xuất, tác giả sử dụng cơ sở dữ liệu ảnh mặt
người FERET [12], một trong số các cơ sở dữ liệu công cộng được sử dụng rộng rãi nhất cho các
bài toán liên quan tới nhận dạng mặt người. FERET có 5 tập ảnh mặt ký hiệu là Fa, Fb, Fc, Dup1 và
Dup2 (xem minh họa hình 5). Tập Fa (có 1196 ảnh) là tập tham chiếu được dùng cho bước học.
Tập Fb (có 1195), Fc (194), Dup1 (722) và Dup2 (234) là các tập để test (nhận dạng). Các ảnh
trong tập Fb có thay đổi về biểu hiện cảm xúc của khuôn mặt còn các ảnh trong tập Fc chịu ảnh
hưởng của các điều kiện sáng khác nhau. Các ảnh thuộc tập Dup1 và Dup2 được chụp sau các ảnh
trong tập Fa từ 1 tới 2 năm.
THE INTERNATIONAL CONFERENCE ON MARINE SCIENCE AND TECHNOLOGY 2016
HỘI NGHỊ QUỐC TẾ KHOA HỌC CÔNG NGHỆ HÀNG HẢI 2016 466
Hình 5. Một số ảnh mẫu trong cơ sở dữ liệu FERET
Kết quả nhận dạng của hệ thống đề xuất được cho trong bảng 1.
Bảng 1. Kết quả nhận dạng trên cơ sở dữ liệu FERET
Tập Test Tỉ lệ nhận dạng đúng Ghi chú
Fb 98.1% (1172/1195)
Fc 97.4% (189/194)
Dup1 98.8% (713/722)
Dup2 99.1% (232/234)
Tỉ lệ trung bình 98.3%
Có thể kết luận từ kết quả của bảng 1 là hệ thống đề xuất cho tỉ lệ nhận dạng đúng khá tốt
khi mà hầu hết các tập test đều được nhận dạng chính xác với tỉ lệ hơn 98% trừ tập Fc. Từ các số
liệu này cũng có thể nhận thấy rằng mức độ ảnh hưởng của yếu tố thời gian (2 tập Dup1 và Dup2)
trong bài toán nhận dạng giới tính chưa chắc đã nghiêm trọng bằng yếu tố cảm xúc khuôn mặt (tập
Fc). Nguyên nhân là do khi cảm xúc khuôn mặt thay đổi, hình dáng của các yếu tố ảnh hưởng tới
việc nhận dạng đúng giới tính, ví dụ như mắt, mồm và vùng lông mày, bị ảnh hưởng khá nhiều. Với
tỉ lệ nhận dạng trung bình trên 98%, có thể đi đến kết luận là hệ thống nhận dạng giới tính tự động
dựa trên LPQ có khả năng xử lý tốt đối với các ảnh mặt thu nhận được ở điều kiện trong nhà, mặc
dù có sự ảnh hưởng của các yếu tố như ánh sáng, cảm xúc khuôn mặt và thời gian.
Trong tương lai, tác giả mong muốn thử nghiệm với các bộ dữ liệu thu nhận được từ môi
trường không có kiểm soát để đánh giá chính xác hơn hiệu năng của hệ thống đề xuất. Một hướng
nữa cũng rất thú vị là áp dụng các thuật toán học trên các vector đặc trưng trước khi đưa vào bộ
phân lớp SVM.
Tài liệu tham khảo
[1]. P. Viola and M. J. Jones. Robust real-time face detection. Int. J. Comput. Vis. vol. 57. no.
2. pp. 137-154. 2004.
[2]. N. Dalal and B. Triggs. Histograms of oriented gradients for human detection. in Computer
Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on,
2005. vol. 1. pp. 886-893.
[3]. N. S. Vu and A. Caplier. Illumination-robust face recognition using retina modeling. in
Image Processing (ICIP). 2009 16th IEEE International Conference on. 2009. pp. 3289-
3292.
THE INTERNATIONAL CONFERENCE ON MARINE SCIENCE AND TECHNOLOGY 2016
HỘI NGHỊ QUỐC TẾ KHOA HỌC CÔNG NGHỆ HÀNG HẢI 2016 467
[4]. H. C. Lian and B. L. Lu. Multi-view gender classification using local binary patterns and
support vector machines. Adv. Neural Netw.-ISNN 2006. pp. 202-209. 2006.
[5]. R. Verschae, J. Ruiz-del-Solar, and M. Correa. Gender classification of faces using
adaboost. Prog. Pattern Recognit. Image Anal. Appl. pp. 68-78. 2006.
[6]. L. A. Alexandre. Gender recognition: A multiscale decision fusion approach. Pattern
Recognit. Lett. vol. 31. no. 11. pp. 1422-1427. Aug. 2010.
[7]. A. R. Ardakany and A. M. Jula. Gender Recognition Based On Edge Histogram. Int. J.
Comput. Theory Eng. vol. 4, no. 2. pp. 127-130. 2012.
[8]. A. M. Mirza, M. Hussain, H. Almuzaini, G. Muhammad, H. Aboalsamh, and G. Bebis.
Gender Recognition Using Fusion of Local and Global Facial Features. in Advances in
Visual Computing. Springer. 2013, pp. 493-502.
[9]. E. Fazl-Ersi, M. E. Mousa-Pasandi, R. Laganiere, and M. Awad. Age and gender
recognition using informative features of various types. in Image Processing (ICIP), 2014
IEEE International Conference on, 2014. pp. 5891-5895.
[10]. H. Ren and Z.-N. Li. Gender Recognition Using Complexity-Aware Local Features. 2014.
pp. 2389-2394.
[11]. K.-I. Naka and W. A. Rushton. S-potentials from luminosity units in the retina of fish
(Cyprinidae). J. Physiol., vol. 185, no. 3, pp. 587-599. 1966.
[12]. P. J. Phillips, H. Moon, S. A. Rizvi, and P. J. Rauss. The FERET evaluation methodology
for face-recognition algorithms. Pattern Anal. Mach. Intell. IEEE Trans. On, vol. 22. no. 10.
pp. 1090-1104. 2000.

File đính kèm:

xay_dung_he_thong_nhan_dang_gioi_tinh_tu_dong_su_dung_lpq.pdf