Xây dựng hệ thống nhận dạng giới tính tự động sử dụng LPQ
Bài báo đề xuất một hệ thống nhận dạng giới tính từ ảnh mặt người hoàn toàn tự động dựa
trên việc sử dụng phương pháp trích xuất đặc trưng LPQ (Local Phase Quantization). Từ ảnh
input, phần ảnh khuôn mặt người sẽ được phát hiện tự động bằng cách sử dụng các đặc trưng HOG
(Histogram of Oriented Gradients). Tiếp đến, các ảnh mặt sẽ được chuẩn hóa về cùng điều kiện
ánh sáng bằng kỹ thuật retinal filter. Ở bước trích chọn đặc trưng, phương pháp LPQ sẽ được sử
dụng nhằm trích chọn các đặc trưng cục bộ quan trọng nhất của khuôn mặt. Cuối cùng, bộ phân
lớp nhị phân SVM (Support Vector Machine) sẽ được áp dụng để đưa ra giới tính cho bức ảnh mặt
tương ứng. Hệ thống được thử nghiệm trên cơ sở dữ liệu mặt chuẩn FERET và cho kết quả tốt (tỉ lệ
nhận dạng trung bình là 98.3%). Kết quả này chứng tỏ hệ thống đề xuất có khả năng nhận dạng
giới tính tốt với các ảnh mặt được thu nhận ở các điều kiện trong nhà mặc dù có sự ảnh hưởng của
ánh sáng, biểu hiện khuôn mặt, các thay đổi về thời gian.
Tóm tắt nội dung tài liệu: Xây dựng hệ thống nhận dạng giới tính tự động sử dụng LPQ
THE INTERNATIONAL CONFERENCE ON MARINE SCIENCE AND TECHNOLOGY 2016 HỘI NGHỊ QUỐC TẾ KHOA HỌC CÔNG NGHỆ HÀNG HẢI 2016 460 Xây dựng hệ thống nhận dạng giới tính tự động sử dụng LPQ Towards building an automatic gender classification system using LPQ Nguyễn Hữu Tuân, Trịnh Thị Ngọc Hương, Lê Quyết Tiến Trường Đại học Hàng hải Việt Nam, huu-tuan.nguyen@vimaru.edu.vn Tóm tắt Bài báo đề xuất một hệ thống nhận dạng giới tính từ ảnh mặt người hoàn toàn tự động dựa trên việc sử dụng phương pháp trích xuất đặc trưng LPQ (Local Phase Quantization). Từ ảnh input, phần ảnh khuôn mặt người sẽ được phát hiện tự động bằng cách sử dụng các đặc trưng HOG (Histogram of Oriented Gradients). Tiếp đến, các ảnh mặt sẽ được chuẩn hóa về cùng điều kiện ánh sáng bằng kỹ thuật retinal filter. Ở bước trích chọn đặc trưng, phương pháp LPQ sẽ được sử dụng nhằm trích chọn các đặc trưng cục bộ quan trọng nhất của khuôn mặt. Cuối cùng, bộ phân lớp nhị phân SVM (Support Vector Machine) sẽ được áp dụng để đưa ra giới tính cho bức ảnh mặt tương ứng. Hệ thống được thử nghiệm trên cơ sở dữ liệu mặt chuẩn FERET và cho kết quả tốt (tỉ lệ nhận dạng trung bình là 98.3%). Kết quả này chứng tỏ hệ thống đề xuất có khả năng nhận dạng giới tính tốt với các ảnh mặt được thu nhận ở các điều kiện trong nhà mặc dù có sự ảnh hưởng của ánh sáng, biểu hiện khuôn mặt, các thay đổi về thời gian. Từ khóa: Tự động, nhận dạng giới tính, LPQ SVM. Abstract This paper introduces a new automatic gender classification system based on the usage of LPQ (Local Phase Quantization) for facial feature extraction. From the input image, face regions are detected automatically by applying HOG (Histogram of Oriented Gradients) features. Next, detected face images are illumination normalized with retinal filter method. Within the feature extraction stage, the LPQ method is exploited to extract the most important features from normalized images. Finally, the binary SVM classifier is used to determine the gender of the given image. The experiments are carried out upon the FERET database and the obtained results are very amazing (average recognition rate is 98.3%). This shows that our system can cope quite efficiently with indoor images under the effects of variations of illumination, facial expressions and time-lapse. Keywords: Automatic, gender classification, LPQ SVM. 1. Giới thiệu Việc phân tích và trích xuất các thông tin có thể có từ các ảnh mặt người đã được các nhà khoa học nghiên cứu từ đầu những năm 90 của thế kỷ trước. Điều này là do có rất nhiều các thông tin có ích có thể khai thác từ một bức ảnh khuôn mặt, ví dụ như danh tính, giới tính, cảm xúc, cử chỉ tương tác, dân tộc, tình trạng sức khỏe, Trong số các thông tin có thể suy ra từ ảnh mặt người, giới tính là một thuộc tính quan trọng vì nó có khá nhiều ứng dụng trong thực tế, ví dụ như trong tương tác người máy, trong quảng cáo có định hướng, trong thống kê dân số. Một hệ thống nhận dạng giới tính (gender recognition) từ ảnh mặt người, còn được gọi là một hệ thống phân lớp giới tính (gender classification), về bản chất là một bài toán phân lớp nhị phân thường có nhiều bước, mỗi bước có một chức năng khác nhau và kết quả output của bước này sẽ là dữ liệu input của bước ngay sau nó. Các bước trong một hệ thống nhận dạng giới tính được minh họa trong hình 1. Đầu tiên, từ bức ảnh input, một kỹ thuật phát hiện mặt người sẽ được dùng để xác định xem có vùng ảnh mặt người không, và nếu có thì nằm ở vị trí nào. Tiếp đến, do các ảnh mặt thường có các góc nhìn khác nhau, nên để có thể nhận được kết quả nhận dạng tốt, một thuật THE INTERNATIONAL CONFERENCE ON MARINE SCIENCE AND TECHNOLOGY 2016 HỘI NGHỊ QUỐC TẾ KHOA HỌC CÔNG NGHỆ HÀNG HẢI 2016 461 toán căn chỉnh sẽ được sử dụng để đưa các ảnh mặt được phát hiện về cùng một góc nhìn thẳng. Sau đó, một thuật toán chuẩn hóa ánh sáng sẽ được áp dụng nhằm mục đích làm cho các bức ảnh ở cùng một điều kiện ánh sáng vì các thay đổi về điều kiện ánh sáng cũng ảnh hưởng lớn tới kết quả nhận dạng. Ở bước trích chọn đặc trưng, một thuật toán trích chọn đặc trưng cục bộ sẽ được dùng để trích xuất ra các đặc điểm có tính chất phân biệt nhất của khuôn mặt. Kết quả của thuật toán trích chọn đặc trưng là mỗi ảnh mặt sẽ được biểu diễn bởi một vector đặc trưng có số chiều lớn (từ vài trăm tới vài trăm nghìn). Ở bước cuối cùng, một bộ phân lớp sẽ được sử dụng để xác định giới tính của ảnh input ban đầu. Hình 1. Sơ đồ tổng quan của một hệ thống nhận dạng giới tính Hiện nay hai phương pháp được dùng rộng rãi nhất cho việc phát hiện khuôn mặt người trong ảnh là phương pháp sử dụng đặc trưng Haar [1] và các đặc trưng HOG [2]. So với đặc trưng HOG, cách tiếp cận sử dụng đặc trưng Haar có tốc độ nhanh hơn nhưng độ chính xác kém hơn. Cả hai cách tiếp cận này hiện nay đều đã được cài đặt trong hai thư viện mã nguồn mở là OpenCV (opencv.org) và dlib (dlib.net). Để chuẩn hóa ánh sáng của các ảnh mặt, các kỹ thuật như cân bằng histogram hay retinal filter [3] đều có thể áp dụng. Bước quan trọng nhất trong một hệ thống nhận dạng giới tính là phương pháp trích chọn các đặc điểm từ ảnh mặt vì đó là cách duy nhất để có thể biểu diễn khuôn mặt thành các cấu trúc mà ta có thể so sánh với nhau (các vector đặc điểm). Trong [4] các tác giả đã sử dụng phương pháp mẫu nhị phân cục bộ LBP (Local Binary Patterns) với các ảnh ở các khung nhìn khác nhau và SVM để nhận dạng giới tính. Cũng sử dụng LBP nhưng với bộ phân lớp Adaboost là cách tiếp cận được trình bày trong [5]. Tác giả Luis đã kết hợp các đặc điểm LBP ở nhiều tỉ lệ khác nhau với các thông tin về hình dạng và cường độ sáng để nhận dạng giới tính trong bài báo [6]. Thử nghiệm trên cơ sở dữ liệu FERET và nhận được kết quả khá tốt với phương pháp dựa trên các histogram của các biên của ảnh đã được Ardakany và các cộng sự đề xuất trong [7]. Một phương pháp khác kết hợp các đặc điểm LBP với các biến đổi cosin DCT cũng nhận được kết quả rất tốt đối với các thử nghiệm trên cơ sở dữ liệu FERET [8]. Trong khi đó, cách kết hợp LBP với các đặc trưng SIFT và histogram màu cũng đã được đề xuất [9]. Có thể thấy LBP là một phương pháp được dùng khá phổ biến trong các phương pháp đã được trích dẫn ở trên. Điều này khẳng định cho sự hiệu quả của nó trong bài toán nhận dạng giới tính từ ảnh mặt. Tuy nhiên sử dụng LBP không phải là cách tiếp cận duy nhất, trong [10] các tác giả đã kết hợp các đặc trưng SIFT và các đặc trưng dựa trên biến đổi sóng nhỏ Gabor và thu được các kết quả tốt. Các hệ thống trên hầu hết là các hệ thống bán tự động với việc sử dụng các tọa độ mắt của ảnh để căn chỉnh ảnh mặt hoặc căn chỉnh thủ công. Trong bài báo này, chúng tôi đề xuất một hệ thống nhận dạng giới tính hoàn toàn tự động sử dụng phương pháp trích chọn đặc trưng cục bộ LPQ. Cụ thể, ở bước phát hiện khuôn mặt, các đặc trưng HOG sẽ được áp dụng. Sau đó kỹ thuật lọc ảnh retinal filter được dùng để chuẩn hóa các điều kiện ánh sáng của khuôn mặt. Ở bước phân lớp, kỹ thuật phân lớp nhị phân SVM sẽ thực hiện trên các vector LPQ nhận được ở bước trích chọn đặc trưng để đưa ra giới tính của bức ảnh mặt cần nhận dạng. Các kết quả thử nghiệm trên cơ sở dữ liệu THE INTERNATIONAL CONFERENCE ON MARINE SCIENCE AND TECHNOLOGY 2016 HỘI NGHỊ QUỐC TẾ KHOA HỌC CÔNG NGHỆ HÀNG HẢI 2016 462 ảnh mặt FERET, một trong các cơ sở dữ liệu công cộng được sử dụng rộng rãi nhất cho nhận dạng mặt, cho thấy hệ thống đề xuất đạt được kết quả tốt đối với các ảnh mặt thư nhận được trong các điều kiện có kiểm soát dưới sự ảnh hưởng của các yếu tố như ánh sáng, cảm xúc khuôn mặt và các thay đổi về thời gian chụp. Điều này chứng tỏ sự hiệu quả của hệ thống đề xuất. Các phần tiếp theo của bài báo được tổ chức như sau: các chi tiết của hệ thống đề xuất sẽ được trình bày chi tiết trong phần 2, trong phần 3 là mô tả về các thử nghiệm và phần kết quả nhận dạng cùng với các kết luận, dự kiến công việc trong tương lai. 2. Hệ thống nhận dạng mặt tự động sử dụng LPQ Trong phần này, tác giả sẽ đi sâu mô tả chi tiết về các bước của hệ thống nhận dạng giới tính tự động từ ảnh mặt người. Trước hết là sơ đồ mô tả về các kỹ thuật được dùng cho hệ thống được mô tả sơ bộ trong hình số 2. Cụ thể, hệ thống sẽ gồm 4 bước chính: phát hiện mặt người với các đặc trưng HOG, chuẩn hóa ánh sáng bằng kỹ thuật retinal filter, trích chọn đặc trưng với phương pháp LPQ và cuối cùng là sử dụng bộ phân lớp nhị phân SVM ở bước phân lớp. Các phần tiếp theo của bài báo sẽ đi vào từng bước cụ thể. Hình 2. Các bước của hệ thống nhận dạng giới tính tự động sử dụng LPQ 2.1. Phát hiện mặt người sử dụng các đặc trưng HOG 2.1.1. Phương pháp trích chọn đặc trưng HOG Ban đầu, phương pháp trích chọn đặc trưng HOG được đề xuất cho bài toán phát hiện người đi bộ (pedestrian detection) và đạt được kết quả tốt. Sau đó, phương pháp này được áp dụng cho các bài toán phát hiện đối tượng và cũng cho thấy hiệu năng rất tốt. So với phương phát phát hiện đối tượng phổ biến là dựa vào các đặc trưng Haar hay LBP, cách tiếp cận sử dụng HOG cho kết quả tốt hơn khi đối tượng trong ảnh bị ảnh hưởng bởi các điều kiện về hướng, ánh sáng hay bị che khuất. Tuy nhiên điểm trừ của HOG là chậm hơn. Về cơ bản, một vector đặc trưng HOG được thành lập từ việc tính các histogram về các hướng của đạo hàm của một ảnh tại các vùng cục bộ gọi là “tế bào” (cell). Cơ sở cho phương pháp này là thông tin của ảnh có thể được biểu diễn bằng cách sử dụng sự phân bố của các giá trị đạo hàm của ảnh hoặc hướng của các đạo hàm cục bộ tại các điểm ảnh. Ảnh được chia thành nhiều tế bào là các vùng con để tính các histogram của các hướng đạo hàm. Biểu diễn histogram của các tế bào khi hợp lại sẽ tạo thành biểu diễn HOG cho ảnh ban đầu. Chuỗi histogram có thể được chuẩn hóa để tăng hiệu quả nhận dạng vì chúng có tính bất biến cao hơn đối với các thay đổi về ánh sáng. THE INTERNATIONAL CONFERENCE ON MARINE SCIENCE AND TECHNOLOGY 2016 HỘI NGHỊ QUỐC TẾ KHOA HỌC CÔNG NGHỆ HÀNG HẢI 2016 463 Để tính một vector HOG từ một ảnh input chúng ta cần thực hiện qua 4 bước như mô tả sau đây. Bước 1: tính đạo hàm của ảnh. Bước này được thực hiện bằng cách nhân chập ảnh input với hai nhân 1 chiều tương ứng cho việc lấy đạo hàm theo hai hướng Ox và Oy, cụ thể giá trị của hai nhân là: Dx = [-1 0 1] và Dy = [1 0 -1] T, (1) Trong đó T là ký hiệu của phép toán lấy ma trận chuyển vị. Với một ảnh input I sẽ có 2 đạo hàm được tính là Ix = I * Gx, Iy = I * Gy. Tiếp đến hai thành phần cường độ (magnitude) và hướng (orientation) sẽ được tính theo các công thức: |G| = sqrt(Ix 2 + Iy 2), = arctan(Iy, Ix) (2) Bước 2: gán hướng. Sau khi tính xong hướng của các đạo hàm tại các điểm ảnh, ta sẽ nhóm các giá trị hướng khác nhau trong mỗi vùng của khoảng [0o, 360o] thành một nhãn duy nhất đại diện cho nhóm đó. Cụ thể sẽ có 9 nhãn từ 0 tới 8 tương ứng với các vùng giá trị của các hướng từ [0o, 360o/9), [360o/9, 2*360o/9), Sau đó histogram của các cell sẽ được tính dựa trên số lần xuất hiện của các nhãn được gán. Bước 3: Tính histogram của các khối. Các cell nhỏ sẽ được ghép với nhau tạo thành các khối (block) không tách rời nhau (các cell sẽ xuất hiện nhiều hơn 1 lần trong các khối). Vector HOG được tạo thành từ histogram đã được chuẩn hóa của các khối. Bước 4: chuẩn hóa khối. Ở bước này các vector HOG sẽ được chuẩn hóa bằng cách sử dụng các hàm chuẩn hóa thông dụng như L1-norm, L2-norm để có thể đáp ứng tốt hơn trong các điều kiện ánh sáng thay đổi. 2.1.2. Phát hiện mặt người sử dụng đặc trưng HOG Để phát hiện mặt người trong ảnh sử dụng đặc trưng HOG ta cần tiến hành các bước như sau: Bước 1: chuẩn bị P mẫu là các ảnh mặt người đúng và tính vector HOG cho các mẫu này. Bước 2: chuẩn bị N mẫu (N lớn hơn nhiều so với P) không phải là các ảnh mặt người và tính vector HOG cho các mẫu này. Bước 3: sử dụng bộ phân lớp SVM tuyến tính để học với P+N vector HOG đã tính để sinh ra một mô hình đoán nhận. Bước 4: với mỗi bức ảnh trong bộ N bức ảnh không phải là mặt người, di chuyển một cửa sổ trượt qua tất cả các vị trí không gian của ảnh và tính vector HOG của vùng ảnh bao bởi cửa sổ tương ứng rồi đưa vào bộ phân lớp. Nếu bộ phân lớp cho kết quả sai, đó là ảnh mặt người, thì ghi lại vector HOG tương ứng cùng với xác suất phân lớp. Bước 5: sắp xếp các vector HOG nhận dạng sai theo xác suất phân lớp và đưa vào bộ phân lớp SVM để học lại. Bước 6: sử dụng mô hình kết quả của bước 5 để phát hiện ảnh mặt người. Trong bài báo này, chúng tôi sử dụng thư viện mã nguồn mở dlib (dlib.net) với thuật toán phát hiện mặt người sử dụng đặc trưng HOG đã được cài đặt sẵn. 2.2. Kỹ thuật chuẩn hóa ánh sáng retinal filter Bộ lọc retinal filter là kỹ thuật dùng để chuẩn hóa ánh sáng dựa trên việc mô phỏng các bước xử lý hình ảnh trong hệ thống nhận thức hình ảnh của con người với 3 bước chính như mô tả trong hình 3. THE INTERNATIONAL CONFERENCE ON MARINE SCIENCE AND TECHNOLOGY 2016 HỘI NGHỊ QUỐC TẾ KHOA HỌC CÔNG NGHỆ HÀNG HẢI 2016 464 Hình 3. Các bước của kỹ thuật lọc ảnh retinal filter Cụ thể, ở bước đầu tiên độ tương phản của ảnh sẽ được cải thiện với một hàm Naka- Rushton [11]. Tiếp đến, hai bộ lọc thông thấp Gaussian sẽ loại bỏ các nhiễu khỏi ảnh. Nhằm tăng cường độ sắc nét của ảnh, một bộ lọc DoG (Difference of Gaussian) sẽ được áp dụng. Cuối cùng, một thao tác cắt bỏ các giá trị quá lớn hoặc quá bé (nhiễu gây ra do bộ lọc DoG) sẽ cho ra ảnh kết quả. Các công thức cụ thể cho các bước có thể tham khảo trong [3]. 2.3. Phương pháp trích chọn đặc trưng LPQ Phương pháp trích chọn đặc trưng LPQ sử dụng các thông tin về pha (phase information) trong biểu diễn ảnh nhận được từ một biến đổi Fourier ngắn hạn (Short Term Fourier Transform) để phân tích các lân cận kích thước MxM xung quanh mỗi điểm ảnh x ký hiệu là Nx của ảnh f(x) và được xác định như sau: 𝐹(𝑢, 𝑥) = ∑ 𝑓(𝑥 − 𝑦)𝑒−𝑗2𝜋𝑢 𝑇𝑦 = 𝑤𝑢 𝑓𝑓𝑥𝑦∈𝒩𝑥 (3) Với wu là vector cơ sở trong biến đổi DFT 2 chiều tại tần số u, còn fx là một vector chứa MxM mẫu của 𝒩𝑥. Phương pháp LPQ chỉ dùng 4 hệ số phức tương ứng với 4 giá trị tần số là u1 = [a, 0]T, u2 = [0, a]T, u3 = [a, a] T, u4 = [a, -a] T, trong đó a là một giá trị vô hướng đáp ứng điều kiện bất biến về độ mờ ảnh. Giả sử: F𝑥 𝑐 = [F(𝑢1, 𝑥), F(𝑢2, 𝑥), F(𝑢3, 𝑥), F(𝑢4, 𝑥)] , và F𝑥 = [Re{F𝑥 𝑐}, Im{F𝑥 𝑐}], trong đó Re{.} và Im{.} là các hàm tương ứng với phần thực và ảo trong biểu diễn của một số phức. Ma trận biến đổi có kích thước 8xM2 sẽ là: W = [Re{𝑤𝑢1, 𝑤𝑢2, 𝑤𝑢3, 𝑤𝑢4}, Im{𝑤𝑢1, 𝑤𝑢2, 𝑤𝑢3, 𝑤𝑢4}] 𝑇 . (4) Để tăng cường độ phân biệt của các đặc trưng LPQ trong các bài toán nhận dạng và phân tích hình ảnh, một hàm tách sự tương quan của các hệ số Fx sẽ được áp dụng như sau: G𝑥 = V 𝑇F𝑥, (5) với V là một ma trận trực giao nhận được bằng cách áp dụng một biến đổi SVD từ ma trận D: D = UΣV𝑇. (6) D là ma trận hiệp phương sai trên các hệ số Fx và được tính như theo công thức: D = WCW𝑇, (7) Với ma trận hiệp phương sai C của các mẫu thuộc 𝒩𝑥, nhận được tính từ công thức sau: C = ( 1 𝜎1,2 𝜎1,𝑀2 𝜎2,1 1 𝜎2,𝑀2 𝜎𝑀2,1 𝜎𝑀2,2 1 ). (8) Các phần tử trong ma trận C được tính theo công thức 𝜎𝑖,𝑗 = 𝜌 ‖𝒙𝑖 − 𝒙𝑗‖ (‖. ‖ là hàm chuẩn hóa L2 và 𝜌 là tương quan về giá trị giữa các điểm ảnh lân cận với giả thiết hàm ảnh f(x) là kết quả THE INTERNATIONAL CONFERENCE ON MARINE SCIENCE AND TECHNOLOGY 2016 HỘI NGHỊ QUỐC TẾ KHOA HỌC CÔNG NGHỆ HÀNG HẢI 2016 465 của chuỗi Markov bậc 1 và mỗi mẫu có phương sai bằng 1), và chính là hiệp phương sai của hai vị trí xi và xj trong 𝒩𝑥. Gọi kết quả của nhận được từ công thức (8) trên là Gx, một ảnh LPQ sẽ được tính từ việc lượng tử hóa 8 thành phần của nó như sau: LPQ𝑖𝑚𝑎𝑔𝑒 = ∑ 𝑞𝑘2 𝑘−18 𝑘=1 , (9) với qk là toán tử lượng tử hóa nhị phân áp dụng với thành phần thứ k của Gx: 𝑞𝑘 = { 1 𝑛ế𝑢 𝑔𝑘 ≥ 0 0 𝑛ế𝑢 𝑛𝑔ượ𝑐 𝑙ạ𝑖 . (10) Ảnh LPQ thu được sẽ được chia thành các vùng ảnh con không giao nhau để tính histogram cục bộ tương ứng của chúng. Các dãy histogram cuối cùng sẽ được ghép lại với nhau và tạo thành vector LPQ của ảnh ban đầu. Quá trình này diễn ra như minh họa trong hình 4. Hình 4. Các bước của tính vector LPQ của một ảnh mặt người 2.4. Bộ phân lớp SVM Bộ phân lớp SVM được sử dụng để học từ dữ liệu trong tập tham chiếu (reference set) nhằm sinh ra một siêu phẳng (hyperplane) hay mô hình được sử dụng ở bước nhận dạng. Cụ thể, ở bước học từ tập dữ liệu học gồm các vector LPQ nhận được (từ phần 2.3 ở trên) được gán nhãn tương ứng là Nam (1) hay Nữ (-1), bộ phân lớp SVM sẽ sinh một mô hình chia 2 tập mẫu con tương ứng với 2 nhãn thành 2 nửa của không gian đa chiều (số chiều tương ứng với số thành phần của một vector LPQ). Sau đó, ở bước nhận dạng, mô hình này sẽ được dùng để nhận dạng xem một bức ảnh sẽ tương ứng với một người có giới tính Nam hay Nữ. Trong bài báo này chúng tôi sử dụng SVM vì nó chính là phương pháp phổ biến được áp dụng cho các bài toán phân lớp nhị phân như nhận dạng giới tính. Các bước từ chuẩn hóa ánh sáng tới trích chọn đặc trưng và phân lớp (hình 2) được cài đặt trên thư viện OpenCV (opencv.org) sử dụng ngôn ngữ C++ và công cụ Visual Studio 2015. 3. Đánh giá kết quả Để đánh giá kết quả nhận dạng của hệ thống đề xuất, tác giả sử dụng cơ sở dữ liệu ảnh mặt người FERET [12], một trong số các cơ sở dữ liệu công cộng được sử dụng rộng rãi nhất cho các bài toán liên quan tới nhận dạng mặt người. FERET có 5 tập ảnh mặt ký hiệu là Fa, Fb, Fc, Dup1 và Dup2 (xem minh họa hình 5). Tập Fa (có 1196 ảnh) là tập tham chiếu được dùng cho bước học. Tập Fb (có 1195), Fc (194), Dup1 (722) và Dup2 (234) là các tập để test (nhận dạng). Các ảnh trong tập Fb có thay đổi về biểu hiện cảm xúc của khuôn mặt còn các ảnh trong tập Fc chịu ảnh hưởng của các điều kiện sáng khác nhau. Các ảnh thuộc tập Dup1 và Dup2 được chụp sau các ảnh trong tập Fa từ 1 tới 2 năm. THE INTERNATIONAL CONFERENCE ON MARINE SCIENCE AND TECHNOLOGY 2016 HỘI NGHỊ QUỐC TẾ KHOA HỌC CÔNG NGHỆ HÀNG HẢI 2016 466 Hình 5. Một số ảnh mẫu trong cơ sở dữ liệu FERET Kết quả nhận dạng của hệ thống đề xuất được cho trong bảng 1. Bảng 1. Kết quả nhận dạng trên cơ sở dữ liệu FERET Tập Test Tỉ lệ nhận dạng đúng Ghi chú Fb 98.1% (1172/1195) Fc 97.4% (189/194) Dup1 98.8% (713/722) Dup2 99.1% (232/234) Tỉ lệ trung bình 98.3% Có thể kết luận từ kết quả của bảng 1 là hệ thống đề xuất cho tỉ lệ nhận dạng đúng khá tốt khi mà hầu hết các tập test đều được nhận dạng chính xác với tỉ lệ hơn 98% trừ tập Fc. Từ các số liệu này cũng có thể nhận thấy rằng mức độ ảnh hưởng của yếu tố thời gian (2 tập Dup1 và Dup2) trong bài toán nhận dạng giới tính chưa chắc đã nghiêm trọng bằng yếu tố cảm xúc khuôn mặt (tập Fc). Nguyên nhân là do khi cảm xúc khuôn mặt thay đổi, hình dáng của các yếu tố ảnh hưởng tới việc nhận dạng đúng giới tính, ví dụ như mắt, mồm và vùng lông mày, bị ảnh hưởng khá nhiều. Với tỉ lệ nhận dạng trung bình trên 98%, có thể đi đến kết luận là hệ thống nhận dạng giới tính tự động dựa trên LPQ có khả năng xử lý tốt đối với các ảnh mặt thu nhận được ở điều kiện trong nhà, mặc dù có sự ảnh hưởng của các yếu tố như ánh sáng, cảm xúc khuôn mặt và thời gian. Trong tương lai, tác giả mong muốn thử nghiệm với các bộ dữ liệu thu nhận được từ môi trường không có kiểm soát để đánh giá chính xác hơn hiệu năng của hệ thống đề xuất. Một hướng nữa cũng rất thú vị là áp dụng các thuật toán học trên các vector đặc trưng trước khi đưa vào bộ phân lớp SVM. Tài liệu tham khảo [1]. P. Viola and M. J. Jones. Robust real-time face detection. Int. J. Comput. Vis. vol. 57. no. 2. pp. 137-154. 2004. [2]. N. Dalal and B. Triggs. Histograms of oriented gradients for human detection. in Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on, 2005. vol. 1. pp. 886-893. [3]. N. S. Vu and A. Caplier. Illumination-robust face recognition using retina modeling. in Image Processing (ICIP). 2009 16th IEEE International Conference on. 2009. pp. 3289- 3292. THE INTERNATIONAL CONFERENCE ON MARINE SCIENCE AND TECHNOLOGY 2016 HỘI NGHỊ QUỐC TẾ KHOA HỌC CÔNG NGHỆ HÀNG HẢI 2016 467 [4]. H. C. Lian and B. L. Lu. Multi-view gender classification using local binary patterns and support vector machines. Adv. Neural Netw.-ISNN 2006. pp. 202-209. 2006. [5]. R. Verschae, J. Ruiz-del-Solar, and M. Correa. Gender classification of faces using adaboost. Prog. Pattern Recognit. Image Anal. Appl. pp. 68-78. 2006. [6]. L. A. Alexandre. Gender recognition: A multiscale decision fusion approach. Pattern Recognit. Lett. vol. 31. no. 11. pp. 1422-1427. Aug. 2010. [7]. A. R. Ardakany and A. M. Jula. Gender Recognition Based On Edge Histogram. Int. J. Comput. Theory Eng. vol. 4, no. 2. pp. 127-130. 2012. [8]. A. M. Mirza, M. Hussain, H. Almuzaini, G. Muhammad, H. Aboalsamh, and G. Bebis. Gender Recognition Using Fusion of Local and Global Facial Features. in Advances in Visual Computing. Springer. 2013, pp. 493-502. [9]. E. Fazl-Ersi, M. E. Mousa-Pasandi, R. Laganiere, and M. Awad. Age and gender recognition using informative features of various types. in Image Processing (ICIP), 2014 IEEE International Conference on, 2014. pp. 5891-5895. [10]. H. Ren and Z.-N. Li. Gender Recognition Using Complexity-Aware Local Features. 2014. pp. 2389-2394. [11]. K.-I. Naka and W. A. Rushton. S-potentials from luminosity units in the retina of fish (Cyprinidae). J. Physiol., vol. 185, no. 3, pp. 587-599. 1966. [12]. P. J. Phillips, H. Moon, S. A. Rizvi, and P. J. Rauss. The FERET evaluation methodology for face-recognition algorithms. Pattern Anal. Mach. Intell. IEEE Trans. On, vol. 22. no. 10. pp. 1090-1104. 2000.
File đính kèm:
- xay_dung_he_thong_nhan_dang_gioi_tinh_tu_dong_su_dung_lpq.pdf