Xây dựng hệ thống nhận dạng giới tính tự động sử dụng LPQ

Bài báo đề xuất một hệ thống nhận dạng giới tính từ ảnh mặt người hoàn toàn tự động dựa

trên việc sử dụng phương pháp trích xuất đặc trưng LPQ (Local Phase Quantization). Từ ảnh

input, phần ảnh khuôn mặt người sẽ được phát hiện tự động bằng cách sử dụng các đặc trưng HOG

(Histogram of Oriented Gradients). Tiếp đến, các ảnh mặt sẽ được chuẩn hóa về cùng điều kiện

ánh sáng bằng kỹ thuật retinal filter. Ở bước trích chọn đặc trưng, phương pháp LPQ sẽ được sử

dụng nhằm trích chọn các đặc trưng cục bộ quan trọng nhất của khuôn mặt. Cuối cùng, bộ phân

lớp nhị phân SVM (Support Vector Machine) sẽ được áp dụng để đưa ra giới tính cho bức ảnh mặt

tương ứng. Hệ thống được thử nghiệm trên cơ sở dữ liệu mặt chuẩn FERET và cho kết quả tốt (tỉ lệ

nhận dạng trung bình là 98.3%). Kết quả này chứng tỏ hệ thống đề xuất có khả năng nhận dạng

giới tính tốt với các ảnh mặt được thu nhận ở các điều kiện trong nhà mặc dù có sự ảnh hưởng của

ánh sáng, biểu hiện khuôn mặt, các thay đổi về thời gian.

pdf 8 trang kimcuc 15920
Bạn đang xem tài liệu "Xây dựng hệ thống nhận dạng giới tính tự động sử dụng LPQ", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Xây dựng hệ thống nhận dạng giới tính tự động sử dụng LPQ

Xây dựng hệ thống nhận dạng giới tính tự động sử dụng LPQ
THE INTERNATIONAL CONFERENCE ON MARINE SCIENCE AND TECHNOLOGY 2016 
HỘI NGHỊ QUỐC TẾ KHOA HỌC CÔNG NGHỆ HÀNG HẢI 2016 460 
Xây dựng hệ thống nhận dạng giới tính tự động sử dụng LPQ 
Towards building an automatic gender classification system using LPQ 
Nguyễn Hữu Tuân, 
Trịnh Thị Ngọc Hương, Lê Quyết Tiến 
Trường Đại học Hàng hải Việt Nam, 
huu-tuan.nguyen@vimaru.edu.vn 
Tóm tắt 
Bài báo đề xuất một hệ thống nhận dạng giới tính từ ảnh mặt người hoàn toàn tự động dựa 
trên việc sử dụng phương pháp trích xuất đặc trưng LPQ (Local Phase Quantization). Từ ảnh 
input, phần ảnh khuôn mặt người sẽ được phát hiện tự động bằng cách sử dụng các đặc trưng HOG 
(Histogram of Oriented Gradients). Tiếp đến, các ảnh mặt sẽ được chuẩn hóa về cùng điều kiện 
ánh sáng bằng kỹ thuật retinal filter. Ở bước trích chọn đặc trưng, phương pháp LPQ sẽ được sử 
dụng nhằm trích chọn các đặc trưng cục bộ quan trọng nhất của khuôn mặt. Cuối cùng, bộ phân 
lớp nhị phân SVM (Support Vector Machine) sẽ được áp dụng để đưa ra giới tính cho bức ảnh mặt 
tương ứng. Hệ thống được thử nghiệm trên cơ sở dữ liệu mặt chuẩn FERET và cho kết quả tốt (tỉ lệ 
nhận dạng trung bình là 98.3%). Kết quả này chứng tỏ hệ thống đề xuất có khả năng nhận dạng 
giới tính tốt với các ảnh mặt được thu nhận ở các điều kiện trong nhà mặc dù có sự ảnh hưởng của 
ánh sáng, biểu hiện khuôn mặt, các thay đổi về thời gian. 
Từ khóa: Tự động, nhận dạng giới tính, LPQ SVM. 
Abstract 
This paper introduces a new automatic gender classification system based on the usage of 
LPQ (Local Phase Quantization) for facial feature extraction. From the input image, face regions 
are detected automatically by applying HOG (Histogram of Oriented Gradients) features. Next, 
detected face images are illumination normalized with retinal filter method. Within the feature 
extraction stage, the LPQ method is exploited to extract the most important features from 
normalized images. Finally, the binary SVM classifier is used to determine the gender of the given 
image. The experiments are carried out upon the FERET database and the obtained results are 
very amazing (average recognition rate is 98.3%). This shows that our system can cope quite 
efficiently with indoor images under the effects of variations of illumination, facial expressions and 
time-lapse. 
Keywords: Automatic, gender classification, LPQ SVM. 
1. Giới thiệu 
Việc phân tích và trích xuất các thông tin có thể có từ các ảnh mặt người đã được các nhà 
khoa học nghiên cứu từ đầu những năm 90 của thế kỷ trước. Điều này là do có rất nhiều các thông 
tin có ích có thể khai thác từ một bức ảnh khuôn mặt, ví dụ như danh tính, giới tính, cảm xúc, cử 
chỉ tương tác, dân tộc, tình trạng sức khỏe, Trong số các thông tin có thể suy ra từ ảnh mặt người, 
giới tính là một thuộc tính quan trọng vì nó có khá nhiều ứng dụng trong thực tế, ví dụ như trong 
tương tác người máy, trong quảng cáo có định hướng, trong thống kê dân số. 
Một hệ thống nhận dạng giới tính (gender recognition) từ ảnh mặt người, còn được gọi là 
một hệ thống phân lớp giới tính (gender classification), về bản chất là một bài toán phân lớp nhị 
phân thường có nhiều bước, mỗi bước có một chức năng khác nhau và kết quả output của bước này 
sẽ là dữ liệu input của bước ngay sau nó. Các bước trong một hệ thống nhận dạng giới tính được 
minh họa trong hình 1. Đầu tiên, từ bức ảnh input, một kỹ thuật phát hiện mặt người sẽ được dùng 
để xác định xem có vùng ảnh mặt người không, và nếu có thì nằm ở vị trí nào. Tiếp đến, do các ảnh 
mặt thường có các góc nhìn khác nhau, nên để có thể nhận được kết quả nhận dạng tốt, một thuật 
THE INTERNATIONAL CONFERENCE ON MARINE SCIENCE AND TECHNOLOGY 2016 
HỘI NGHỊ QUỐC TẾ KHOA HỌC CÔNG NGHỆ HÀNG HẢI 2016 461 
toán căn chỉnh sẽ được sử dụng để đưa các ảnh mặt được phát hiện về cùng một góc nhìn thẳng. 
Sau đó, một thuật toán chuẩn hóa ánh sáng sẽ được áp dụng nhằm mục đích làm cho các bức ảnh ở 
cùng một điều kiện ánh sáng vì các thay đổi về điều kiện ánh sáng cũng ảnh hưởng lớn tới kết quả 
nhận dạng. Ở bước trích chọn đặc trưng, một thuật toán trích chọn đặc trưng cục bộ sẽ được dùng 
để trích xuất ra các đặc điểm có tính chất phân biệt nhất của khuôn mặt. Kết quả của thuật toán trích 
chọn đặc trưng là mỗi ảnh mặt sẽ được biểu diễn bởi một vector đặc trưng có số chiều lớn (từ vài 
trăm tới vài trăm nghìn). Ở bước cuối cùng, một bộ phân lớp sẽ được sử dụng để xác định giới tính 
của ảnh input ban đầu. 
Hình 1. Sơ đồ tổng quan của một hệ thống nhận dạng giới tính 
Hiện nay hai phương pháp được dùng rộng rãi nhất cho việc phát hiện khuôn mặt người 
trong ảnh là phương pháp sử dụng đặc trưng Haar [1] và các đặc trưng HOG [2]. So với đặc trưng 
HOG, cách tiếp cận sử dụng đặc trưng Haar có tốc độ nhanh hơn nhưng độ chính xác kém hơn. Cả 
hai cách tiếp cận này hiện nay đều đã được cài đặt trong hai thư viện mã nguồn mở là OpenCV 
(opencv.org) và dlib (dlib.net). Để chuẩn hóa ánh sáng của các ảnh mặt, các kỹ thuật như cân bằng 
histogram hay retinal filter [3] đều có thể áp dụng. 
Bước quan trọng nhất trong một hệ thống nhận dạng giới tính là phương pháp trích chọn các 
đặc điểm từ ảnh mặt vì đó là cách duy nhất để có thể biểu diễn khuôn mặt thành các cấu trúc mà ta 
có thể so sánh với nhau (các vector đặc điểm). Trong [4] các tác giả đã sử dụng phương pháp mẫu 
nhị phân cục bộ LBP (Local Binary Patterns) với các ảnh ở các khung nhìn khác nhau và SVM để 
nhận dạng giới tính. Cũng sử dụng LBP nhưng với bộ phân lớp Adaboost là cách tiếp cận được 
trình bày trong [5]. Tác giả Luis đã kết hợp các đặc điểm LBP ở nhiều tỉ lệ khác nhau với các thông 
tin về hình dạng và cường độ sáng để nhận dạng giới tính trong bài báo [6]. Thử nghiệm trên cơ sở 
dữ liệu FERET và nhận được kết quả khá tốt với phương pháp dựa trên các histogram của các biên 
của ảnh đã được Ardakany và các cộng sự đề xuất trong [7]. Một phương pháp khác kết hợp các 
đặc điểm LBP với các biến đổi cosin DCT cũng nhận được kết quả rất tốt đối với các thử nghiệm 
trên cơ sở dữ liệu FERET [8]. Trong khi đó, cách kết hợp LBP với các đặc trưng SIFT và histogram 
màu cũng đã được đề xuất [9]. Có thể thấy LBP là một phương pháp được dùng khá phổ biến trong 
các phương pháp đã được trích dẫn ở trên. Điều này khẳng định cho sự hiệu quả của nó trong bài 
toán nhận dạng giới tính từ ảnh mặt. Tuy nhiên sử dụng LBP không phải là cách tiếp cận duy nhất, 
trong [10] các tác giả đã kết hợp các đặc trưng SIFT và các đặc trưng dựa trên biến đổi sóng nhỏ 
Gabor và thu được các kết quả tốt. 
Các hệ thống trên hầu hết là các hệ thống bán tự động với việc sử dụng các tọa độ mắt của 
ảnh để căn chỉnh ảnh mặt hoặc căn chỉnh thủ công. Trong bài báo này, chúng tôi đề xuất một hệ 
thống nhận dạng giới tính hoàn toàn tự động sử dụng phương pháp trích chọn đặc trưng cục bộ 
LPQ. Cụ thể, ở bước phát hiện khuôn mặt, các đặc trưng HOG sẽ được áp dụng. Sau đó kỹ thuật lọc 
ảnh retinal filter được dùng để chuẩn hóa các điều kiện ánh sáng của khuôn mặt. Ở bước phân lớp, 
kỹ thuật phân lớp nhị phân SVM sẽ thực hiện trên các vector LPQ nhận được ở bước trích chọn đặc 
trưng để đưa ra giới tính của bức ảnh mặt cần nhận dạng. Các kết quả thử nghiệm trên cơ sở dữ liệu 
THE INTERNATIONAL CONFERENCE ON MARINE SCIENCE AND TECHNOLOGY 2016 
HỘI NGHỊ QUỐC TẾ KHOA HỌC CÔNG NGHỆ HÀNG HẢI 2016 462 
ảnh mặt FERET, một trong các cơ sở dữ liệu công cộng được sử dụng rộng rãi nhất cho nhận dạng 
mặt, cho thấy hệ thống đề xuất đạt được kết quả tốt đối với các ảnh mặt thư nhận được trong các 
điều kiện có kiểm soát dưới sự ảnh hưởng của các yếu tố như ánh sáng, cảm xúc khuôn mặt và các 
thay đổi về thời gian chụp. Điều này chứng tỏ sự hiệu quả của hệ thống đề xuất. 
Các phần tiếp theo của bài báo được tổ chức như sau: các chi tiết của hệ thống đề xuất sẽ 
được trình bày chi tiết trong phần 2, trong phần 3 là mô tả về các thử nghiệm và phần kết quả nhận 
dạng cùng với các kết luận, dự kiến công việc trong tương lai. 
2. Hệ thống nhận dạng mặt tự động sử dụng LPQ 
Trong phần này, tác giả sẽ đi sâu mô tả chi tiết về các bước của hệ thống nhận dạng giới 
tính tự động từ ảnh mặt người. Trước hết là sơ đồ mô tả về các kỹ thuật được dùng cho hệ thống 
được mô tả sơ bộ trong hình số 2. Cụ thể, hệ thống sẽ gồm 4 bước chính: phát hiện mặt người với 
các đặc trưng HOG, chuẩn hóa ánh sáng bằng kỹ thuật retinal filter, trích chọn đặc trưng với 
phương pháp LPQ và cuối cùng là sử dụng bộ phân lớp nhị phân SVM ở bước phân lớp. Các phần 
tiếp theo của bài báo sẽ đi vào từng bước cụ thể. 
Hình 2. Các bước của hệ thống nhận dạng giới tính tự động sử dụng LPQ 
2.1. Phát hiện mặt người sử dụng các đặc trưng HOG 
2.1.1. Phương pháp trích chọn đặc trưng HOG 
Ban đầu, phương pháp trích chọn đặc trưng HOG được đề xuất cho bài toán phát hiện người 
đi bộ (pedestrian detection) và đạt được kết quả tốt. Sau đó, phương pháp này được áp dụng cho các 
bài toán phát hiện đối tượng và cũng cho thấy hiệu năng rất tốt. So với phương phát phát hiện đối 
tượng phổ biến là dựa vào các đặc trưng Haar hay LBP, cách tiếp cận sử dụng HOG cho kết quả tốt 
hơn khi đối tượng trong ảnh bị ảnh hưởng bởi các điều kiện về hướng, ánh sáng hay bị che khuất. 
Tuy nhiên điểm trừ của HOG là chậm hơn. 
Về cơ bản, một vector đặc trưng HOG được thành lập từ việc tính các histogram về các hướng của 
đạo hàm của một ảnh tại các vùng cục bộ gọi là “tế bào” (cell). Cơ sở cho phương pháp này là 
thông tin của ảnh có thể được biểu diễn bằng cách sử dụng sự phân bố của các giá trị đạo hàm của 
ảnh hoặc hướng của các đạo hàm cục bộ tại các điểm ảnh. Ảnh được chia thành nhiều tế bào là các 
vùng con để tính các histogram của các hướng đạo hàm. Biểu diễn histogram của các tế bào khi hợp 
lại sẽ tạo thành biểu diễn HOG cho ảnh ban đầu. Chuỗi histogram có thể được chuẩn hóa để tăng 
hiệu quả nhận dạng vì chúng có tính bất biến cao hơn đối với các thay đổi về ánh sáng. 
THE INTERNATIONAL CONFERENCE ON MARINE SCIENCE AND TECHNOLOGY 2016 
HỘI NGHỊ QUỐC TẾ KHOA HỌC CÔNG NGHỆ HÀNG HẢI 2016 463 
Để tính một vector HOG từ một ảnh input chúng ta cần thực hiện qua 4 bước như mô tả sau 
đây. 
Bước 1: tính đạo hàm của ảnh. Bước này được thực hiện bằng cách nhân chập ảnh input với 
hai nhân 1 chiều tương ứng cho việc lấy đạo hàm theo hai hướng Ox và Oy, cụ thể 
giá trị của hai nhân là: 
 Dx = [-1 0 1] và Dy = [1 0 -1]
T, (1) 
Trong đó T là ký hiệu của phép toán lấy ma trận chuyển vị. 
Với một ảnh input I sẽ có 2 đạo hàm được tính là Ix = I * Gx, Iy = I * Gy. 
Tiếp đến hai thành phần cường độ (magnitude) và hướng (orientation) sẽ được tính 
theo các công thức: 
 |G| = sqrt(Ix
2 + Iy
2),  = arctan(Iy, Ix) (2) 
Bước 2: gán hướng. Sau khi tính xong hướng của các đạo hàm tại các điểm ảnh, ta sẽ nhóm 
các giá trị hướng khác nhau trong mỗi vùng của khoảng [0o, 360o] thành một nhãn 
duy nhất đại diện cho nhóm đó. Cụ thể sẽ có 9 nhãn từ 0 tới 8 tương ứng với các 
vùng giá trị của các hướng từ [0o, 360o/9), [360o/9, 2*360o/9), Sau đó histogram 
của các cell sẽ được tính dựa trên số lần xuất hiện của các nhãn được gán. 
Bước 3: Tính histogram của các khối. Các cell nhỏ sẽ được ghép với nhau tạo thành các 
khối (block) không tách rời nhau (các cell sẽ xuất hiện nhiều hơn 1 lần trong các 
khối). Vector HOG được tạo thành từ histogram đã được chuẩn hóa của các khối. 
Bước 4: chuẩn hóa khối. Ở bước này các vector HOG sẽ được chuẩn hóa bằng cách sử dụng 
các hàm chuẩn hóa thông dụng như L1-norm, L2-norm để có thể đáp ứng tốt hơn 
trong các điều kiện ánh sáng thay đổi. 
2.1.2. Phát hiện mặt người sử dụng đặc trưng HOG 
Để phát hiện mặt người trong ảnh sử dụng đặc trưng HOG ta cần tiến hành các bước như 
sau: 
Bước 1: chuẩn bị P mẫu là các ảnh mặt người đúng và tính vector HOG cho các mẫu này. 
Bước 2: chuẩn bị N mẫu (N lớn hơn nhiều so với P) không phải là các ảnh mặt người và 
tính vector HOG cho các mẫu này. 
Bước 3: sử dụng bộ phân lớp SVM tuyến tính để học với P+N vector HOG đã tính để sinh 
ra một mô hình đoán nhận. 
Bước 4: với mỗi bức ảnh trong bộ N bức ảnh không phải là mặt người, di chuyển một cửa 
sổ trượt qua tất cả các vị trí không gian của ảnh và tính vector HOG của vùng ảnh 
bao bởi cửa sổ tương ứng rồi đưa vào bộ phân lớp. Nếu bộ phân lớp cho kết quả 
sai, đó là ảnh mặt người, thì ghi lại vector HOG tương ứng cùng với xác suất phân 
lớp. 
Bước 5: sắp xếp các vector HOG nhận dạng sai theo xác suất phân lớp và đưa vào bộ phân 
lớp SVM để học lại. 
Bước 6: sử dụng mô hình kết quả của bước 5 để phát hiện ảnh mặt người. 
Trong bài báo này, chúng tôi sử dụng thư viện mã nguồn mở dlib (dlib.net) với thuật toán 
phát hiện mặt người sử dụng đặc trưng HOG đã được cài đặt sẵn. 
2.2. Kỹ thuật chuẩn hóa ánh sáng retinal filter 
Bộ lọc retinal filter là kỹ thuật dùng để chuẩn hóa ánh sáng dựa trên việc mô phỏng các 
bước xử lý hình ảnh trong hệ thống nhận thức hình ảnh của con người với 3 bước chính như mô tả 
trong hình 3. 
THE INTERNATIONAL CONFERENCE ON MARINE SCIENCE AND TECHNOLOGY 2016 
HỘI NGHỊ QUỐC TẾ KHOA HỌC CÔNG NGHỆ HÀNG HẢI 2016 464 
Hình 3. Các bước của kỹ thuật lọc ảnh retinal filter 
Cụ thể, ở bước đầu tiên độ tương phản của ảnh sẽ được cải thiện với một hàm Naka-
Rushton [11]. Tiếp đến, hai bộ lọc thông thấp Gaussian sẽ loại bỏ các nhiễu khỏi ảnh. Nhằm tăng 
cường độ sắc nét của ảnh, một bộ lọc DoG (Difference of Gaussian) sẽ được áp dụng. Cuối cùng, 
một thao tác cắt bỏ các giá trị quá lớn hoặc quá bé (nhiễu gây ra do bộ lọc DoG) sẽ cho ra ảnh kết 
quả. Các công thức cụ thể cho các bước có thể tham khảo trong [3]. 
2.3. Phương pháp trích chọn đặc trưng LPQ 
Phương pháp trích chọn đặc trưng LPQ sử dụng các thông tin về pha (phase information) 
trong biểu diễn ảnh nhận được từ một biến đổi Fourier ngắn hạn (Short Term Fourier Transform) để 
phân tích các lân cận kích thước MxM xung quanh mỗi điểm ảnh x ký hiệu là Nx của ảnh f(x) và 
được xác định như sau: 
 𝐹(𝑢, 𝑥) = ∑ 𝑓(𝑥 − 𝑦)𝑒−𝑗2𝜋𝑢
𝑇𝑦 = 𝑤𝑢
𝑓𝑓𝑥𝑦∈𝒩𝑥 (3) 
Với wu là vector cơ sở trong biến đổi DFT 2 chiều tại tần số u, còn fx là một vector chứa 
MxM mẫu của 𝒩𝑥. 
Phương pháp LPQ chỉ dùng 4 hệ số phức tương ứng với 4 giá trị tần số là u1 = [a, 0]T, u2 = 
[0, a]T, u3 = [a, a]
T, u4 = [a, -a]
T, trong đó a là một giá trị vô hướng đáp ứng điều kiện bất biến về độ 
mờ ảnh. 
Giả sử: F𝑥
𝑐 = [F(𝑢1, 𝑥), F(𝑢2, 𝑥), F(𝑢3, 𝑥), F(𝑢4, 𝑥)] , và F𝑥 = [Re{F𝑥
𝑐}, Im{F𝑥
𝑐}], trong đó 
Re{.} và Im{.} là các hàm tương ứng với phần thực và ảo trong biểu diễn của một số phức. Ma trận 
biến đổi có kích thước 8xM2 sẽ là: 
 W = [Re{𝑤𝑢1, 𝑤𝑢2, 𝑤𝑢3, 𝑤𝑢4}, Im{𝑤𝑢1, 𝑤𝑢2, 𝑤𝑢3, 𝑤𝑢4}]
𝑇 . (4) 
Để tăng cường độ phân biệt của các đặc trưng LPQ trong các bài toán nhận dạng và phân 
tích hình ảnh, một hàm tách sự tương quan của các hệ số Fx sẽ được áp dụng như sau: 
 G𝑥 = V
𝑇F𝑥, (5) 
với V là một ma trận trực giao nhận được bằng cách áp dụng một biến đổi SVD từ ma trận D: 
 D = UΣV𝑇. (6) 
D là ma trận hiệp phương sai trên các hệ số Fx và được tính như theo công thức: 
 D = WCW𝑇, (7) 
Với ma trận hiệp phương sai C của các mẫu thuộc 𝒩𝑥, nhận được tính từ công thức sau: 
 C = (
1 𝜎1,2  𝜎1,𝑀2
𝜎2,1 1  𝜎2,𝑀2
𝜎𝑀2,1 𝜎𝑀2,2  1
). (8) 
Các phần tử trong ma trận C được tính theo công thức 𝜎𝑖,𝑗 = 𝜌
‖𝒙𝑖 − 𝒙𝑗‖ (‖. ‖ là hàm chuẩn 
hóa L2 và 𝜌 là tương quan về giá trị giữa các điểm ảnh lân cận với giả thiết hàm ảnh f(x) là kết quả 
THE INTERNATIONAL CONFERENCE ON MARINE SCIENCE AND TECHNOLOGY 2016 
HỘI NGHỊ QUỐC TẾ KHOA HỌC CÔNG NGHỆ HÀNG HẢI 2016 465 
của chuỗi Markov bậc 1 và mỗi mẫu có phương sai bằng 1), và chính là hiệp phương sai của hai vị 
trí xi và xj trong 𝒩𝑥. 
Gọi kết quả của nhận được từ công thức (8) trên là Gx, một ảnh LPQ sẽ được tính từ việc 
lượng tử hóa 8 thành phần của nó như sau: 
 LPQ𝑖𝑚𝑎𝑔𝑒 = ∑ 𝑞𝑘2
𝑘−18
𝑘=1 , (9) 
với qk là toán tử lượng tử hóa nhị phân áp dụng với thành phần thứ k của Gx: 
 𝑞𝑘 = {
1 𝑛ế𝑢 𝑔𝑘 ≥ 0 
0 𝑛ế𝑢 𝑛𝑔ượ𝑐 𝑙ạ𝑖
. (10) 
Ảnh LPQ thu được sẽ được chia thành các vùng ảnh con không giao nhau để tính histogram 
cục bộ tương ứng của chúng. Các dãy histogram cuối cùng sẽ được ghép lại với nhau và tạo thành 
vector LPQ của ảnh ban đầu. Quá trình này diễn ra như minh họa trong hình 4. 
Hình 4. Các bước của tính vector LPQ của một ảnh mặt người 
2.4. Bộ phân lớp SVM 
Bộ phân lớp SVM được sử dụng để học từ dữ liệu trong tập tham chiếu (reference set) nhằm 
sinh ra một siêu phẳng (hyperplane) hay mô hình được sử dụng ở bước nhận dạng. Cụ thể, ở bước 
học từ tập dữ liệu học gồm các vector LPQ nhận được (từ phần 2.3 ở trên) được gán nhãn tương 
ứng là Nam (1) hay Nữ (-1), bộ phân lớp SVM sẽ sinh một mô hình chia 2 tập mẫu con tương ứng 
với 2 nhãn thành 2 nửa của không gian đa chiều (số chiều tương ứng với số thành phần của một 
vector LPQ). Sau đó, ở bước nhận dạng, mô hình này sẽ được dùng để nhận dạng xem một bức ảnh 
sẽ tương ứng với một người có giới tính Nam hay Nữ. Trong bài báo này chúng tôi sử dụng SVM 
vì nó chính là phương pháp phổ biến được áp dụng cho các bài toán phân lớp nhị phân như nhận 
dạng giới tính. 
Các bước từ chuẩn hóa ánh sáng tới trích chọn đặc trưng và phân lớp (hình 2) được cài đặt 
trên thư viện OpenCV (opencv.org) sử dụng ngôn ngữ C++ và công cụ Visual Studio 2015. 
3. Đánh giá kết quả 
Để đánh giá kết quả nhận dạng của hệ thống đề xuất, tác giả sử dụng cơ sở dữ liệu ảnh mặt 
người FERET [12], một trong số các cơ sở dữ liệu công cộng được sử dụng rộng rãi nhất cho các 
bài toán liên quan tới nhận dạng mặt người. FERET có 5 tập ảnh mặt ký hiệu là Fa, Fb, Fc, Dup1 và 
Dup2 (xem minh họa hình 5). Tập Fa (có 1196 ảnh) là tập tham chiếu được dùng cho bước học. 
Tập Fb (có 1195), Fc (194), Dup1 (722) và Dup2 (234) là các tập để test (nhận dạng). Các ảnh 
trong tập Fb có thay đổi về biểu hiện cảm xúc của khuôn mặt còn các ảnh trong tập Fc chịu ảnh 
hưởng của các điều kiện sáng khác nhau. Các ảnh thuộc tập Dup1 và Dup2 được chụp sau các ảnh 
trong tập Fa từ 1 tới 2 năm. 
THE INTERNATIONAL CONFERENCE ON MARINE SCIENCE AND TECHNOLOGY 2016 
HỘI NGHỊ QUỐC TẾ KHOA HỌC CÔNG NGHỆ HÀNG HẢI 2016 466 
Hình 5. Một số ảnh mẫu trong cơ sở dữ liệu FERET 
Kết quả nhận dạng của hệ thống đề xuất được cho trong bảng 1. 
Bảng 1. Kết quả nhận dạng trên cơ sở dữ liệu FERET 
Tập Test Tỉ lệ nhận dạng đúng Ghi chú 
Fb 98.1% (1172/1195) 
Fc 97.4% (189/194) 
Dup1 98.8% (713/722) 
Dup2 99.1% (232/234) 
Tỉ lệ trung bình 98.3% 
Có thể kết luận từ kết quả của bảng 1 là hệ thống đề xuất cho tỉ lệ nhận dạng đúng khá tốt 
khi mà hầu hết các tập test đều được nhận dạng chính xác với tỉ lệ hơn 98% trừ tập Fc. Từ các số 
liệu này cũng có thể nhận thấy rằng mức độ ảnh hưởng của yếu tố thời gian (2 tập Dup1 và Dup2) 
trong bài toán nhận dạng giới tính chưa chắc đã nghiêm trọng bằng yếu tố cảm xúc khuôn mặt (tập 
Fc). Nguyên nhân là do khi cảm xúc khuôn mặt thay đổi, hình dáng của các yếu tố ảnh hưởng tới 
việc nhận dạng đúng giới tính, ví dụ như mắt, mồm và vùng lông mày, bị ảnh hưởng khá nhiều. Với 
tỉ lệ nhận dạng trung bình trên 98%, có thể đi đến kết luận là hệ thống nhận dạng giới tính tự động 
dựa trên LPQ có khả năng xử lý tốt đối với các ảnh mặt thu nhận được ở điều kiện trong nhà, mặc 
dù có sự ảnh hưởng của các yếu tố như ánh sáng, cảm xúc khuôn mặt và thời gian. 
Trong tương lai, tác giả mong muốn thử nghiệm với các bộ dữ liệu thu nhận được từ môi 
trường không có kiểm soát để đánh giá chính xác hơn hiệu năng của hệ thống đề xuất. Một hướng 
nữa cũng rất thú vị là áp dụng các thuật toán học trên các vector đặc trưng trước khi đưa vào bộ 
phân lớp SVM. 
Tài liệu tham khảo 
[1]. P. Viola and M. J. Jones. Robust real-time face detection. Int. J. Comput. Vis. vol. 57. no. 
2. pp. 137-154. 2004. 
[2]. N. Dalal and B. Triggs. Histograms of oriented gradients for human detection. in Computer 
Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on, 
2005. vol. 1. pp. 886-893. 
[3]. N. S. Vu and A. Caplier. Illumination-robust face recognition using retina modeling. in 
Image Processing (ICIP). 2009 16th IEEE International Conference on. 2009. pp. 3289-
3292. 
THE INTERNATIONAL CONFERENCE ON MARINE SCIENCE AND TECHNOLOGY 2016 
HỘI NGHỊ QUỐC TẾ KHOA HỌC CÔNG NGHỆ HÀNG HẢI 2016 467 
[4]. H. C. Lian and B. L. Lu. Multi-view gender classification using local binary patterns and 
support vector machines. Adv. Neural Netw.-ISNN 2006. pp. 202-209. 2006. 
[5]. R. Verschae, J. Ruiz-del-Solar, and M. Correa. Gender classification of faces using 
adaboost. Prog. Pattern Recognit. Image Anal. Appl. pp. 68-78. 2006. 
[6]. L. A. Alexandre. Gender recognition: A multiscale decision fusion approach. Pattern 
Recognit. Lett. vol. 31. no. 11. pp. 1422-1427. Aug. 2010. 
[7]. A. R. Ardakany and A. M. Jula. Gender Recognition Based On Edge Histogram. Int. J. 
Comput. Theory Eng. vol. 4, no. 2. pp. 127-130. 2012. 
[8]. A. M. Mirza, M. Hussain, H. Almuzaini, G. Muhammad, H. Aboalsamh, and G. Bebis. 
Gender Recognition Using Fusion of Local and Global Facial Features. in Advances in 
Visual Computing. Springer. 2013, pp. 493-502. 
[9]. E. Fazl-Ersi, M. E. Mousa-Pasandi, R. Laganiere, and M. Awad. Age and gender 
recognition using informative features of various types. in Image Processing (ICIP), 2014 
IEEE International Conference on, 2014. pp. 5891-5895. 
[10]. H. Ren and Z.-N. Li. Gender Recognition Using Complexity-Aware Local Features. 2014. 
pp. 2389-2394. 
[11]. K.-I. Naka and W. A. Rushton. S-potentials from luminosity units in the retina of fish 
(Cyprinidae). J. Physiol., vol. 185, no. 3, pp. 587-599. 1966. 
[12]. P. J. Phillips, H. Moon, S. A. Rizvi, and P. J. Rauss. The FERET evaluation methodology 
for face-recognition algorithms. Pattern Anal. Mach. Intell. IEEE Trans. On, vol. 22. no. 10. 
pp. 1090-1104. 2000. 

File đính kèm:

  • pdfxay_dung_he_thong_nhan_dang_gioi_tinh_tu_dong_su_dung_lpq.pdf