Nghiên cứu và phát triển cơ sở dữ liệu cử chỉ tay

Bài báo này trình bày một cơ sở dữ liệu cử chỉ tay bao gồm các chữ cái, chữ số trong ngôn ngữ cử

chỉ để phục vụ cho việc phát triển, thử nghiệm cũng như triển khai các hệ thống nhận dạng cử chỉ

tay. Cử chỉ là một tập các biểu tượng thường được sử dụng trong giao tiếp giữa con người - con

người. Hiện nay,việc nghiên cứu các phương pháp tự động nhận dạng cử chỉ để điều khiển các

phương tiện máy móc như điều khiển chương trình máy tính, giao tiếp với robot cũng như ứng

dụng trong hỗ trợ giao tiếp cho người khiếm thính đang được nhiều nhà khoa học quan tâm. Việc

nghiên cứu, triển khai này đòi hỏi có các cơ sở dữ liệu cử chỉ đa dạng, phù hợp với môi trường ứng

dụng thực tế. Trên thế giới đã tồn tại một số cơ sở dữ liệu cử chỉ tay nhằm đáp ứng nhu cầu này.

Tuy nhiên, mỗi cơ sở dữ liệu đang tồn tại đó đều có những hạn chế riêng, chưa đáp ứng được sự

phát triển nhanh chóng ở thời điểm hiện tại và tương lai. Do vậy, nhóm nghiên cứu xây dựng một

cơ sở dữ liệu cử chỉ tay tốt hơn, khắc phục những nhược điểm của những cơ sở dữ liệu đã tồn tại.

Cơ sở dữ liệu mà chúng tôi xây dựng dựa trên bảng chữ cái, chữ số của ngôn ngữ cử chỉ ASL

(American Sign Language), là một tập cử chỉ chuẩn mực và được sử dụng rộng rãi. Cơ sở dữ liệu

cử chỉ tay do chúng tôi xây dựng đa dạng. Chúng tôi tiến hành thu thập trong môi trường thực với

những điều kiện chiếu sáng khác nhau. Cơ sở dữ liệu này có thể đáp ứng nhu cầu trong việc

nghiên cứu, thử nghiệm các phương pháp cũng như triển khai các ứng dụng nhận dạng cử chỉ tay.

pdf 6 trang kimcuc 20500
Bạn đang xem tài liệu "Nghiên cứu và phát triển cơ sở dữ liệu cử chỉ tay", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Nghiên cứu và phát triển cơ sở dữ liệu cử chỉ tay

Nghiên cứu và phát triển cơ sở dữ liệu cử chỉ tay
Nguyễn Thị Tính và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 99(11): 145 - 150 
 145
NGHIÊN CỨU VÀ PHÁT TRIỂN CƠ SỞ DỮ LIỆU CỬ CHỈ TAY 
Nguyễn Thị Tính*, Nguyễn Thị Thanh Tâm, Nguyễn Văn Tới, Lê Thu Trang 
Trường Đại học Công nghệ thông tin và Truyền thông – ĐH Thái Nguyên 
TÓM TẮT 
Bài báo này trình bày một cơ sở dữ liệu cử chỉ tay bao gồm các chữ cái, chữ số trong ngôn ngữ cử 
chỉ để phục vụ cho việc phát triển, thử nghiệm cũng như triển khai các hệ thống nhận dạng cử chỉ 
tay. Cử chỉ là một tập các biểu tượng thường được sử dụng trong giao tiếp giữa con người - con 
người. Hiện nay,việc nghiên cứu các phương pháp tự động nhận dạng cử chỉ để điều khiển các 
phương tiện máy móc như điều khiển chương trình máy tính, giao tiếp với robot cũng như ứng 
dụng trong hỗ trợ giao tiếp cho người khiếm thính đang được nhiều nhà khoa học quan tâm. Việc 
nghiên cứu, triển khai này đòi hỏi có các cơ sở dữ liệu cử chỉ đa dạng, phù hợp với môi trường ứng 
dụng thực tế. Trên thế giới đã tồn tại một số cơ sở dữ liệu cử chỉ tay nhằm đáp ứng nhu cầu này. 
Tuy nhiên, mỗi cơ sở dữ liệu đang tồn tại đó đều có những hạn chế riêng, chưa đáp ứng được sự 
phát triển nhanh chóng ở thời điểm hiện tại và tương lai. Do vậy, nhóm nghiên cứu xây dựng một 
cơ sở dữ liệu cử chỉ tay tốt hơn, khắc phục những nhược điểm của những cơ sở dữ liệu đã tồn tại. 
Cơ sở dữ liệu mà chúng tôi xây dựng dựa trên bảng chữ cái, chữ số của ngôn ngữ cử chỉ ASL 
(American Sign Language), là một tập cử chỉ chuẩn mực và được sử dụng rộng rãi. Cơ sở dữ liệu 
cử chỉ tay do chúng tôi xây dựng đa dạng. Chúng tôi tiến hành thu thập trong môi trường thực với 
những điều kiện chiếu sáng khác nhau. Cơ sở dữ liệu này có thể đáp ứng nhu cầu trong việc 
nghiên cứu, thử nghiệm các phương pháp cũng như triển khai các ứng dụng nhận dạng cử chỉ tay. 
Từ khóa: cử chỉ tay, hệ thống nhận dạng, nhận dạng cử chỉ, dữ liệu cử chỉ, American Sign Language 
GIỚI THIỆU* 
Bài toán nhận dạng cử chỉ có nhiều ứng dụng 
[1], như: phát triển các công cụ trợ giúp nói 
chuyện bằng tay, hệ thống hỗ trợ người khiếm 
thính, giúp trẻ em có thể thao tác với máy 
tính, chuẩn đoán các cảm xúc của bệnh nhân, 
đo mức độ trầm cảm, phát hiện nói dối, tương 
tác trong môi trường ảo, trợ giúp dạy học từ 
xa v.v.. Thông thường một cử chỉ có thể là cử 
chỉ tĩnh hoặc động. Một cử chỉ tĩnh được mô 
tả bởi một hình trạng duy nhất của cơ thể 
hoặc một bộ phận của cơ thể. Một cử chỉ 
động là một chuỗi các hình trạng liên tiếp. Cử 
chỉ tay được sử dụng phổ biến và đóng vai trò 
quan trọng trong giao tiếp. Để nhận dạng cử 
chỉ tay, cần phải biểu diễn cử chỉ tay, phân 
tích các cử chỉ từ đó cho phép nhận dạng. 
Thông thường, trong mỗi ứng dụng cụ thể, 
một tập cử chỉ phải được định nghĩa trước. 
Việc nhận dạng các cử chỉ thường được làm 
sau khi đã học các cử chỉ định nghĩa. 
Hiện nay, việc nghiên cứu các phương pháp 
tự động nhận dạng cử chỉ đang thu hút sự 
quan tâm của nhiều nhà khoa học trên thế 
giới. Việc nghiên cứu, triển khai này đòi hỏi 
*
 Tel: 0986 060186, Email: nttinh@ictu.edu.vn 
có các cơ sở dữ liệu cử chỉ đa dạng, phù hợp 
với môi trường ứng dụng thực tế để đánh giá 
khách quan hiệu quả của các phương pháp và 
đánh giá khả năng ứng dụng trong thực tế. Từ 
nhu cầu trên, một số cơ sở dữ liệu cử chỉ tay 
đã ra đời và đang được sử dụng [2]. Tuy 
nhiên, những cơ sở dữ liệu đang tồn tại còn 
có những hạn chế như tập cử chỉ chưa đa 
dạng, phông nền đơn giản, chỉ bao gồm các 
ảnh đen trắng...ví dự các tập cơ sở dữ liệu 
được trình bày trong phần 3, chưa đáp ứng 
được nhu cầu nghiên cứu, phát triển ở thời 
điểm hiện tại và tương lai. Do đó, cần thiết 
phải xây dựng một cơ sở dữ liệu mới, tốt hơn 
đáp ứng nhu cầu nghiên cứu, thử nghiệm 
cũng như triển khai hệ thống nhận dạng cử 
chỉ tay. Tập cơ sở dữ liệu do chúng tôi xây 
dựng có hầu hết các ưu điểm để có thể sử 
dụng cho bài toán nhận dạng cử chỉ như: ảnh 
thu được là ảnh màu, với phông nền phức tạp, 
tập các cử chỉ tay là bảng chữ cái, chữ số 
trong ngôn ngữ cử chỉ ASL đa dạng, phổ biến, 
nhiều người biết. Đây là đóng góp chính của 
chúng tôi được trình bày trong bài báo này. 
Trong các phần tiếp theo trình bày các nội 
dung: Phần 2 trình bày các phương pháp thu 
Nguyễn Thị Tính và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 99(11): 145 - 150 
 146
thập dữ liệu và lựa chọn phương pháp phù 
hợp để xây dựng tập cơ sở dữ liệu của chúng 
tôi. Phần 3 giới thiệu một số cơ sở dữ liệu đã 
tồn tại và ưu nhược điểm của chúng. Phần 4 
trình bày quá trình thu nhập dữ liệu cử chỉ tay 
và kết quả. Cuối cùng là phần kết luận hướng 
nghiên cứu tiếp theo được trình bày trong 
phần 5 của bài báo. 
CÁC PHƯƠNG PHÁP THU THẬP DỮ LIỆU 
Thu thập dữ liệu là một khâu quan trọng trong 
bài toán xác định hình trạng của bàn tay (hand 
posture) và nhận dạng cử chỉ (gesture 
recognition). Có nhiều cách để thu thập dữ 
liệu trong đó 2 phương pháp được sử dụng 
nhiều nhất là: phương pháp dùng găng tay 
chuyên dụng (glove-based) và phương pháp 
sử dụng camera để thu nhận ảnh của bàn tay 
(vision-based) [3], [4]. 
Phương pháp thu thập dữ liệu sử dụng 
găng tay chuyên dụng: Phương pháp này đòi 
hỏi người thử nghiệm phải đeo vào tay một 
găng tay chuyên dụng. Găng tay có kết nối 
với thiết bị thu nhận và xử lý dữ liệu ở bên 
ngoài thông qua các dây cáp hoặc kết nối 
không dây. Các dữ liệu thu được phải mô tả 
được góc giữa các đốt tay cũng như vị trí của 
ngón tay và bàn tay. Kiểu dữ liệu đưa ra phụ 
thuộc hoàn toàn vào loại thiết bị sử dụng 
như các thiết bị đo sử dụng từ tính, âm tính, 
quán tính. 
Phương pháp thu nhận ảnh bàn tay sử 
dụng camera: Một trong số những hạn chế 
lớn nhất của phương pháp thu thập dữ liệu cử 
chỉ bàn tay sử dụng găng tay chuyên dụng là 
người sử dụng phải đeo vào một găng tay có 
tích hợp các bộ phát sóng điện từ, sóng siêu 
âm, ánh sáng, hoặc các thiết bị đo gia tốc, vận 
tốc, v.v.. Găng tay sau đó phải được kết nối 
(có dây, hoặc không dây) với máy tính để xử 
lý và nhận dạng. Việc đeo thiết bị khiến 
người sử dụng bị khó chịu vì cồng kềnh, bất 
tiện. Khi đeo vào một thiết bị như thế, các cử 
động của bàn tay cũng trở nên mất tự nhiên. 
Ngoài ra, giá thành của các loại găng tay khá 
đắt. Phương pháp thu nhận ảnh bằng camera 
tỏ ra hiệu quả hơn. 
Phương pháp dùng camera để thu nhận ảnh 
của bàn tay dùng trong bài toán nhận dạng cử 
chỉ dựa trên các kỹ thuật xử lý ảnh và nhận 
dạng là phù hợp với bài toán nhận dạng cử chỉ 
vì hai lý do chính sau: 1) Đơn giản, gọn nhẹ, 
không đòi hỏi phải đeo vào một loại găng tay 
đặc biệt, các thao tác của bàn tay tự nhiên, 
thoải mái. 2) Phạm vi thu nhận dữ liệu không 
bị hạn chế do tránh được việc gắn các thiết bị 
cồng kềnh vào bàn tay. 
Với các lợi thế về nhiều mặt, phương pháp sử 
dụng camera để thu nhận ảnh của bàn tay từ 
đó cho phép xác định hình trạng cũng như 
nhận dạng cử chỉ trở thành xu hướng chính 
hiện nay. Với mục đích xây dựng cơ sở dữ 
liệu cử chỉ tay cho hướng tiếp cận dựa trên thị 
giác máy tính, chúng tôi sử dụng phương 
pháp thu nhận ảnh bàn tay sử dụng camera. 
MỘT SỐ CƠ SỞ DỮ LIỆU ẢNH CỬ CHỈ 
ĐÃ CÓ 
Trong phần 2, chúng tôi đã phân tích các ưu 
nhược điểm của hai loại phương pháp thu 
nhận dữ liệu để phục vụ cho bài toán nhận 
dạng. Trong phần này chúng tôi trình bày kết 
quả khảo sát, phân tích, đánh giá các cơ sở dữ 
liệu đã tồn tại [2]. 
Cơ sở dữ liệu Cambridge [5]: Bộ dữ liệu 
này gồm 900 ảnh của 9 lớp cử chỉ khác nhau. 
Các lớp cử chỉ này được định nghĩa bởi 3 
hình trạng cơ bản của bàn tay và 3 cử động 
đơn giản. Mỗi lớp cử chỉ được mô tả bởi 100 
ảnh (5 loại ánh sáng khác nhau x 10 chuyển 
động ngẫu nhiên x 2 chủ thể khác nhau). Cơ 
sở dữ liệu này có ưu điểm là tập cơ sở dữ liệu 
gồm các ảnh màu, vì thế cho phép các giải 
thuật sử dụng tính chất của màu da để phát 
hiện bàn tay, mô tả về hệ cơ sở dữ liệu tương 
đối rõ ràng. Tuy nhiên cơ sở dữ liệu này vẫn 
có nhược điểm đó là nền của ảnh còn đơn 
giản (màu ghi xám đồng đều), 9 lớp cử chỉ 
đơn giản, các ngón tay và lòng bàn tay đều 
vẫn nằm trên một mặt phẳng. 
Cơ sở dữ liệu IDIAP-I [6], [7]: Cơ sở dữ 
liệu bao gồm 7 loại cử chỉ khác nhau tạo từ 6 
phép quay và một cử chỉ đẩy: quay lên, quay 
xuống, quay trước, quay sau, quay trái, quay 
phải, đẩy. Nhược điểm đó của cơ sở dữ liệu này 
là mỗi tay đeo một găng có màu dễ phân biệt. 
Cơ sở dữ liệu IDIAP-II [6], [7]: Cơ sở dữ 
liệu chứa hàng nghìn ảnh chụp 6 lớp cử chỉ 
Nguyễn Thị Tính và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 99(11): 145 - 150 
 147
khác nhau trên nền từ đơn giản đến phức tạp. 
Mỗi hình trạng của bàn tay được chuẩn hóa 
trong một cửa sổ với kích thước 20x20 với ký 
hiệu A, 18x20 cho ký hiệu C, 5; 18x30 cho ký 
hiệu B, Point,V. Cơ sở dữ liệu có ưu điểm là 
các cử chỉ tĩnh cũng như một số các cử chỉ 
động được mô tả. Nhược điểm là: ảnh đen 
trắng nên không thích hợp với các giải thuật 
sử dụng thuộc tính về màu sắc. 
Cơ sở dữ liệu FRUNKFURT [8]: Bộ dữ liệu 
bao gồm 10 tập cử chỉ (sign) thu nhận từ 24 
tay người khác nhau trên 3 loại phông nền 
khác nhau (nền đen, nền trắng, nền ngẫu 
nhiên). Ảnh đen trắng 8 bít. Tổng cộng có 
720 ảnh. Bộ dữ liệu này có điểm mạnh là: tập 
cử chỉ tương đối phức tạp, sự thu nhận ảnh 
của tay trên phông nền phức tạp cho phép thử 
nghiệm tính hiệu quả của thuật toán nhận 
dạng trong các điều kiện thu nhận khác nhau. 
Tuy nhiên, vẫn có những điểm yếu đó là: ảnh 
đen trắng vì thế không thể áp dụng các giải 
thuật sử dụng màu, các bộ cử chỉ để thử 
nghiệm mặc dù đã phức tạp hơn, trên phông 
nền phức tạp hơn nhưng vẫn cùng kích thước, 
hướng quay, v.v.. so với ảnh mẫu vì thế 
không thử nghiệm được hiệu quả bất biến 
của thuật toán đối với góc quay, sự thay 
đổi về thang đo (scale change) cũng như trong 
các điều kiện ánh sáng khác nhau. 
Cơ sở dữ liệu AALBORG – I:Cơ sở dữ liệu 
được xây dựng với 2060 ảnh đen trắng định 
dạng TIFF độ phân giải 248x256 trên phông 
đen. Mỗi cử chỉ được thu nhận nhiều lần 
trong những điều kiện sai khác về góc nhìn, 
thang đo, dịch chuyển, quay. Số lượng ảnh 
với từng ký tự như sau: A: 40 B: 60 C: 40 D: 
40 E: 40 F: 40 G: 100 H: 100 I: 100 K: 100 L: 
100 M: 100 N: 100 O: 100 P: 100 Q: 100 R: 
100 S: 100 T: 100 U: 100 V: 100 W: 100 X: 
100 Y: 100. Cơ sở dữ liệu này có thế mạnh là: 
một tập đầy đủ các cử chỉ tương ứng với bảng 
chữ cái. Điểm yếu của cơ sở dữ liệu là: ảnh 
đen trắng nên không cho phép sử dụng các 
giải thuật dựa trên tính chất màu sắc. 
Cơ sở dữ liệu AALBORG – II: Cơ sở dữ 
liệu bao gồm 13 loại cử chỉ phân biệt: 9 cử 
chỉ tĩnh và 4 loại cử chỉ động. Tất các các cử 
chỉ khác còn lại được xếp vào loại "không 
thuộc lớp cử chỉ định nghĩa" (unspecified 
gesture). Các ảnh được thu nhận bằng cách 
người đứng và tưởng tượng mình đang tương 
tác với các đối tượng "ảo" được đặt trên bàn 
để diễn tả các cử chỉ động (dynamique 
gesture). Một số đồ vật có thể được thêm vào 
hay bớt đi để tạo hiệu ứng phông nền, ánh 
sáng thay đổi. Các video được thu nhận có độ 
phân giải PAL (768x576). Cơ sở dữ liệu này 
có ưu điểm là hình ảnh thu nhận được có mô 
tả rất chi tiết, rõ ràng, ảnh mầu, có giá trị đối 
với các giải thuật sử dụng màu, tập cử chỉ 
tương đối đa dạng. Nhưng cơ sở dữ liệu này 
vẫn có một số nhược điểm là: các cử chỉ được 
thu nhận trong điều kiện tương đối đơn giản 
về nền, trong mặt phẳng, góc quay, ánh sáng, 
sự thay đổi về kích thước. 
Cơ sở dữ liệu INRIA: 8 videos ghi lại hình 
ảnh một người chỉ tay vào các vị trí khác 
nhau thông qua 4 camera trong điều kiện ánh 
sáng 60% ánh sáng ban ngày và 40% ánh 
sáng neon. Video được lấy mẫu với tốc độ 
25Hz độ phân giải 352x288. Cơ sở dữ liệu 
này có ưu điểm là: ảnh mầu, có thông tin về 
ground truth. Tuy nhiên còn có nhược điểm 
là: chỉ sử dụng để thử nghiệm một loại cử chỉ 
"Pointing". 
Cơ sở dữ liệu KYUSHU[9]: gồm các ảnh 
của 36 cử chỉ bàn tay (American Sign 
Language). Các tác giả đã chỉ ra tập CSDL 
được sử dụng nhưng lại không có mô tả về 
CSDL này cũng như không thể tìm thấy 
CSDL này để tải về sử dụng cho mục đích thử 
nghiệm. Cơ sở dữ liệu có ưu điểm là: 36 cử 
chỉ, thu nhận trên nền ảnh phức tạp. Những 
nhược điểm là: không tồn tại để có thể thử 
nghiệm, không có mô tả về CSDL. 
Cơ sở dữ liệu Freiburg: Có 4 cử chỉ được 
xem xét: vẫy tay; chỉ; kích thước (cử chỉ dùng 
hai tay); diễn tả sự không biết (don’t know). 
Cơ sở dữ liệu ảnh được thu thập từ ảnh của 5 
người với các điều kiện ánh sáng khác nhau, 
phông nền phức tạp. Ảnh được thu thập qua 
camera và được chụp liên tục với tốc độ 
20fps, độ phân giải 640x480. Mỗi cử chỉ bao 
gồm 75 mẫu. Cơ sở dữ liệu này có nhiều ưu 
điểm như: có sự đa dạng về chủ thể, điều kiện 
ánh sáng và phông nền, số lượng ảnh là rất 
lớn. Tuy nhiên vẫn có nhược điểm đó là: cơ 
sở dữ liệu chỉ bao gồm các ảnh của những cử 
Nguyễn Thị Tính và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 99(11): 145 - 150 
 148
chỉ liên tục, không có những cử chỉ tĩnh, chỉ 
có 4 cử chỉ. 
Từ những khảo sát, phân tích trên đây chúng 
ta thấy mỗi cơ sở dữ liệu đều tồn tại những 
nhược điểm như: nền chụp ảnh còn tương đối 
đơn giản, tập cử chỉ chưa phong phú, chưa 
đầy đủ, điều kiện thu nhận đơn giản. Như vậy 
cần phải xây dựng một cơ sở dữ liệu cử chỉ 
tay để khắc phục những nhược điểm của 
những cơ sở dữ liệu đã có. Phần tiếp theo 
chúng tôi trình bày quá trình xây dựng một 
tập cơ sở dữ liệu cử chỉ tay nhằm đáp ứng nhu 
cầu này. 
PHÁT TRIỂN CƠ SỞ DỮ LIỆU CỬ CHỈ TAY 
Chúng tôi sử dụng tập cử chỉ là bảng chữ cái, 
chữ số trong ngôn ngữ cử chỉ ASL, Hình 1 và 
Hình 2. Đây là những cử chỉ chuẩn, đầy đủ, 
đa dạng, số lượng cử chỉ lớn, có thể sử dụng 
để đánh giá các phương pháp nhận dạng cử 
chỉ một cách hiệu quả. Tập cử chỉ này phổ 
biến, được nhiều người trên thế giới biết đến. 
Nhóm nghiên cứu dùng các cử chỉ này để xây 
dựng nên một có sở dữ liệu mới lớn hơn, đầy 
đủ, đa dạng với ảnh màu, điều kiện chụp là 
môi trường thực tế. 
Hình 1. Tập các cử chỉ chữ cái 
Hình 2. Tập các cử chỉ chữ số 
Tập cơ sở dữ liệu mà chúng tôi xây dựng là 
tập ảnh màu, với đầy đủ 26 hình trạng chữ 
cái, 10 hình trạng chữ số với điều kiện phức 
tạp trong môi trường thực tế: phông nền phức 
tạp, ánh sáng thay đổi, điều kiện chụp phong 
phú, chụp trên nhiều đối tượng khác nhau. 
Cơ sở dữ liệu bao gồm hai phần: cơ sở dữ liệu 
huấn luyện để phục vụ cho các phương pháp 
tiếp cận theo hướng học máy và cơ sở dữ liệu 
thử nghiệm. 
Dữ liệu huấn luyện: Là các dữ liệu dùng cho 
việc học của một hệ nhận dạng. Trong quá 
trình huấn luyện, bộ nhận dạng sẽ học từ các 
dữ liệu này và ghi nhớ các đặc trưng của đối 
tượng cần nhận dạng. Sau này, việc nhận 
dạng sẽ thông qua các đặc trưng để nhận ra 
đối tượng. Dữ liệu huấn luyện gồm 2 tập: tập 
các ảnh chứa đối tượng cần nhận dạng 
(positive samples) và tập các ảnh không chứa 
đối tượng cần nhận dạng (negative samples). 
Dữ liệu thử nghiệm: Là dữ liệu dùng cho 
việc kiểm tra, đánh giá tỉ lệ nhận dạng của 
một hệ nhận dạng. Tập dữ liệu này phải 
không trùng với tập dữ liệu huấn luyện. Tỉ lệ 
nhận dạng đúng các mẫu trong tập thử 
nghiệm nói lên tính hiệu quả của hệ nhận 
dạng. Bởi vì các dữ liệu này không tham gia 
và quá trình huấn luyện của hệ nhận dạng cho 
nên nếu hệ nhận dạng vẫn nhận dạng đúng 
chứng tỏ các đặc trưng mà được trích rút ra 
thật sự là các đặc trưng của đối tượng. 
Xây dựng tập ảnh positive: Cơ sở dữ liệu 
gồm 36 tập ảnh positive tương ứng với 36 cử 
chỉ. Với mỗi cử chỉ, chúng tôi chụp hơn 1200 
ảnh của 60 người khác nhau bằng webcam 
hoặc camera với độ phân giải 640x480 pixels 
trong nhiều điều kiện ánh sáng và phông nền 
khác nhau: dưới ánh sáng đèn neon ở nhiều 
phòng khác nhau, ánh sáng tự nhiên vào các 
thời điểm khác nhau v.v Sau đó, loại các 
mẫu không đạt chất lượng như ảnh quá mờ, tư 
thế không rõ ràng, thực hiện sai cử chỉ, v.v... 
để còn lại 1200 mẫu cho mỗi cử chỉ. 
Tiến hành cắt ảnh để tách riêng vùng chứa cử 
chỉ tay nhằm xây dựng bộ cơ sở dữ liệu dùng 
để huấn luyện (positive samples). Cắt từ mỗi 
ảnh nguồn một vùng hình chữ nhật chứa bàn 
tay với yêu cầu: vùng hình chữ nhật bé nhất 
Nguyễn Thị Tính và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 99(11): 145 - 150 
 149
có thể nhưng phải chứa toàn bộ bàn tay và các 
ngón tay, không bao gồm cổ tay và cánh tay, 
Hình 3. Chúng tôi sử dụng tiện ích 
ImageCliper. 
Ảnh nguồnẢnh kết quả 
Hình 3. Tách vùng bàn tay ra khỏi ảnh nguồn 
Xây dựng tập dữ liệu ảnh negative: Tập dữ 
liệu gồm 1.500 ảnh đa mức xám kích thước 
640x480 ở định dạng JPG. Trong đó 1.000 
ảnh được lấy từ tập dữ liệu ảnh negative tải từ 
[10], [11]. 500 ảnh còn lại là các ảnh do 
chúng tôi bổ sung. Tất cả các ảnh này không 
chứa các cử chỉ trong tập cử chỉ mà chúng tôi 
sử dụng. Các ảnh này cũng là ảnh đa mức 
xám và ảnh màu ở định dạng JPG kích thước 
640x480. 
Xây dựng tập dữ liệu ảnh thử nghiệm: Cơ sở 
dữ liệu thử nghiệm cho 36 cử chỉ tương ứng 
có 36 tập ảnh, mỗi tập dùng thử nghiệm cho 
một cử chỉ. Các tập ảnh được thực hiện theo 
quy trình như sau: chụp bằng webcam hoặc 
camera ở độ phân giải 320x240 hoặc 640x480 
từ 100 người, mỗi người 100 ảnh cho mỗi cử 
chỉ trong các điều kiện chiếu sáng khác nhau 
và phông nền phức tạp như: dưới ánh sáng 
đèn neon ở nhiều phòng khác nhau, ánh sáng 
tự nhiên vào các thời điểm khác nhau. 
Như vậy, cơ sở dữ liệu do chúng tôi xây dựng 
có sự đa dạng về loại cử chỉ (36 cử chỉ). Đối 
tượng tham gia thu nhận đa dạng. Phông nền, 
điều kiện chiếu sáng đa dạng trong môi 
trường thực tế. Số lượng cử chỉ lớn. Cơ sở dữ 
liệu này có thể đáp ứng nhu cầu phát triển, 
thử nghiệm các thuật toán nhận dạng hình 
trạng bàn tay và đánh giá các thuật toán này ở 
nhiều khía cạnh khác nhau. 
KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU 
TIẾP THEO 
Chúng tôi đã xây dựng được một bộ cơ sở dữ 
liệu cử chỉ tay với tập cử chỉ đa dạng, số 
lượng lớn, điều kiện thu nhận phức tạp, đa 
dạng trong môi trường thực tế dựa trên tập 
quy ước của ngôn ngữ cử chỉ ASL. Nhóm 
nghiên cứu đã thực hiện chụp ảnh trong môi 
trường thực tế, sử dụng các phần mềm chuyên 
dụng để xử lý và xây dựng cơ sở dữ liệu cho 
quá trình huấn luyện. Cơ sở dữ liệu này tốt 
hơn những cơ sở dữ liệu đang tồn tại trong 
mục đích phát triển, thử nghiệm đánh giá các 
phương pháp nhận dạng cử chỉ tay cũng như 
việc phát triển hệ thống ứng dụng. Chúng tôi 
dự định sẽ sử dụng cơ sở dữ liệu này trong 
việc nghiên cứu phát triển các hệ thống nhận 
dạng cử chỉ tay, đồng thời tiếp tục đánh giá và 
bổ sung cơ sở dữ liệu để nâng cao chất lượng. 
TÀI LIỆU THAM KHẢO 
[1]. S. Mitra and T. Acharya, “Gesture 
Recognition: A Survey,” IEEE Transactions on 
Systems, Man and Cybernetics, Part C 
(Applications and Reviews), vol. 37, no. 3, pp. 
311–324, May 2007. 
[2]. T. T. T. Hai, N. Q. Cuong, M. D. Khoa, and 
V. X. Huy, “Báo cáo về nhận dạng cử chỉ bàn 
tay,” 2010. 
[3]. J. J. and L. Jr, “A Survey of Hand Posture and 
Gesture Recognition Techniques and Technology, 
Technical Report CS-99-11, Brown University, 
Department of Computer Science.,” 1999. 
[4]. R. Watson, “A Survey of Gesture Recognition 
Techniques Technical Report TCD-CS-93-11, 
Department of Computer Science Trinity College, 
Dublin 2,” 1993. 
[5]. T. Kim, S. Wong, and R. Cipolla, “Tensor 
Canonical Correlation Analysis for Action 
Classification,” in IEEE Conference on Computer 
Vision and Pattern Recognition (CVPR), 2007. 
[6]. S. Marcel, “Hand posture recognition in a 
body-face centered space,” in CHI EA ’99 CHI 
'99 extended abstracts on Human factors in 
computing systems, 1999, pp. 302–303. 
[7]. S. Marcel, O. Bernier, J.-E. Viallet, and D. 
Collobert, “Hand gesture recognition using input-
output hidden Markov models,” in Proceedings 
Fourth IEEE International Conference on 
Automatic Face and Gesture Recognition (Cat. 
No. PR00580), 2000, no. Figure 1, pp. 456–461. 
[8]. J. . Triesch and C. von der Malsburg, “Robust 
classification of hand postures against complex 
backgrounds,” in The Second International 
Conference on Automatic Face and Gesture 
Recognition, 1996., 1996, pp. 170 – 175. 
[9]. N. D. Binh and T. Ejima, “Hand Gesture 
Recognition Using Fuzzy Neural Network,” in 
GVIP 2005, 2005, no. December, pp. 19–21. 
Nguyễn Thị Tính và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 99(11): 145 - 150 
 150
[10].“
haartraining.googlecode.com/svn/trunk/data/negati
ves/.” . 
[11]. 
“
tml#z97120d9.” . 
SUMMARY 
BUILDING A NEW AND DIVERSE HAND-GESTURE DATABASE 
Nguyen Thi Tinh*, Nguyen Thi Thanh Tam, Nguyen Van Toi, Le Thu Trang 
College of Information and Communication Technology – TNU 
This article presents a hand gesture database including letters, digits in sign language for the 
purpose of the development, testing and implementation of the hand gesture recognition system. 
The hand gesture is an effective means of communication among humans. Currently, the study of 
automatic methods for gesture recognition to control machines such as computer programs, 
communication with the robot as well as applications in supporting communication for the hearing 
impaired people is interested by many scientists. The research and development require a diverse 
gesture database, consistent with the realistic application environment. There exist a number of 
hand gesture database meeting this demand. However, each type of existing databases has its own 
limitations, and cannot meet the rapid development in the present and the future. Therefore, we 
built a better database of hand gestures overcoming the disadvantages of the existing databases. 
Database that we built based on the alphabet, numbers of sign language ASL (American Sign 
Language). This is a set of standard gestures and widely used. Hand gesture database that we built 
is diverse. We collected data in real environments with different lighting conditions. This database 
can meet the needs of the research, testing methods as well as the implementation of hand gesture 
recognition application. 
Key words: hand gesture, recognition system, gesture recognition, gesture database, American 
Sign Language 
Ngày nhận bài:06/11/2012, ngày duyệt đăng:18/11/2012, ngày duyệt đăng:10/12/2012 
*
 Tel: 0986 060186, Email: nttinh@ictu.edu.vn 

File đính kèm:

  • pdfnghien_cuu_va_phat_trien_co_so_du_lieu_cu_chi_tay.pdf