Thiết kế hệ thống nhúng nhận dạng chữ viết tay

Nhận dạng chữ viết tay là vấn đề đang được nghiên cứu và phát triển. Công việc xây dựng các hệ

thống nhận dạng chữ viết tay được thực hiện khá nhiều trên các hệ thống máy tính cá nhân. Ngày nay,

hệ thống nhúng đang được nghiên cứu và ứng dụng rộng rãi trong đời sống. Các hệ thống phần cứng

được thiết kế ngày càng nhỏ gọn và có tính linh hoạt cao. Nội dung bài báo sẽ giới thiệu quá trình xây

dựng hệ thống nhận dạng chữ viết tay off-line trên board nhúng Beagleboard xM (BBxM). Bài toán nhận

dạng được thực hiện dưới sự hỗ trợ của thư viện xử lý ảnh OpenCV và phương pháp phân lớp SVM

(Support vector machines). Ảnh các chữ viết tay sẽ được chụp từ camera. Hệ thống thực hiện công việc

phát hiện và tách các ký tự thành các mẫu. Các mẫu ký tự sẽ được trích chọn đặc trưng theo phương

pháp chu tuyến kết hợp với phương pháp xác định mật độ điểm ảnh. Quá trình xây dựng các ứng dụng

trên hệ điều hành nhúng được thực hiện trên hệ điều hành Linux với sự hỗ trợ của phần mềm QtCreator

và công cụ biên dịch chéo Qt-Everywhere. Kết quả thực nghiệm được thực hiện trên các mẫu chữ cái in

hoa với tỉ lệ nhận dạng đúng đạt gần 95%.

9 trang kimcuc 18660

Download

Bạn đang xem tài liệu "Thiết kế hệ thống nhúng nhận dạng chữ viết tay", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Thiết kế hệ thống nhúng nhận dạng chữ viết tay

4 5
Soá 12, thaùng 3/2014 4 Soá 12, thaùng 3/2014 5
Khoa hoïc Coâng ngheä Khoa hoïc Coâng ngheä
THIẾT KẾ HỆ THỐNG NHÚNG NHẬN DẠNG CHỮ VIẾT TAY
Trần Song Toàn *
Đặng Hữu Phúc **
*,** Thạc sĩ - Khoa Kỹ thuật & Công nghệ, Trường Đại học Trà Vinh
Tóm tắt
Nhận dạng chữ viết tay là vấn đề đang được nghiên cứu và phát triển. Công việc xây dựng các hệ
thống nhận dạng chữ viết tay được thực hiện khá nhiều trên các hệ thống máy tính cá nhân. Ngày nay,
hệ thống nhúng đang được nghiên cứu và ứng dụng rộng rãi trong đời sống. Các hệ thống phần cứng
được thiết kế ngày càng nhỏ gọn và có tính linh hoạt cao. Nội dung bài báo sẽ giới thiệu quá trình xây
dựng hệ thống nhận dạng chữ viết tay off-line trên board nhúng Beagleboard xM (BBxM). Bài toán nhận
dạng được thực hiện dưới sự hỗ trợ của thư viện xử lý ảnh OpenCV và phương pháp phân lớp SVM
(Support vector machines). Ảnh các chữ viết tay sẽ được chụp từ camera. Hệ thống thực hiện công việc
phát hiện và tách các ký tự thành các mẫu. Các mẫu ký tự sẽ được trích chọn đặc trưng theo phương
pháp chu tuyến kết hợp với phương pháp xác định mật độ điểm ảnh. Quá trình xây dựng các ứng dụng
trên hệ điều hành nhúng được thực hiện trên hệ điều hành Linux với sự hỗ trợ của phần mềm QtCreator
và công cụ biên dịch chéo Qt-Everywhere. Kết quả thực nghiệm được thực hiện trên các mẫu chữ cái in
hoa với tỉ lệ nhận dạng đúng đạt gần 95%.
Từ khóa: Beagleboard xM, hệ thống nhúng, nhận dạng chữ viết tay, phương pháp phân lớp Support
Vector Machines.
Abstract
Handwriting recognition is an issue that is being studied and developed. The handwriting recognition
systems are designed on personal computers. Nowadays, the embedded system is being studied and
applied widely in life. The hardware systems are more compact and flexible. The content of the paper
will introduce the process of building the offline handwriting recognition system on embedded board
BeagleBoard xM (BBxM). The identification is carried out with the support of image processing
library OpenCV and classification method SVM (Support vector machines). The handwriting letters
will be captured by camera. The system will detect and separate the letter into samples. The features
are extracted from these samples by the methods of circumference and pixel density. The process of
building applications on embedded operating system is implemented on Linux operating system with
the assistance of QtCreator software and Qt-Everywhere cross-compiler. The experimental result is
performed on the Latin uppercase letterswith the correct recognition rate up to approximately 95%.
Keywords: Beagleboard xM, Embedded system, Handwriting recognition, classification method Support
Vector Machines.
1. Giới thiệu
Vấn đề nhận dạng chữ viết tay đang được quan
tâm nghiên cứu và có vai trò rất quan trọng trong
công nghiệp. Trọng tâm của vấn đề nằm ở khả
năng thiết kế một giải thuật hiệu quả để có thể
nhận dạng được các ký tự viết tay bởi người dùng
qua tablet, scanner và các thiết bị số khác. Các ứng
dụng của nhận dạng chữ viết tay đã và đang có
nhiều đóng góp vào đời sống. Nhận dạng chữ viết
tay có thể phục vụ cho các ứng dụng đọc và xử
lý các chứng từ, hóa đơn, phiếu ghi, bản viết tay
chương trình. Tuy nhiên, cho đến nay, việc nhận
dạng chữ viết tay vẫn còn là thách thức lớn đối
với các nhà nghiên cứu. Đã có nhiều công trình
nghiên cứu về nhận dạng các mẫu chữ viết tay của
các hệ chữ cái Latin, Ả Rập, Trung Quốc,... nhưng
kết quả vẫn còn khá hạn chế do chữ viết tay rất đa
dạng về mẫu chữ cũng như các biến thể.
Nhận dạng chữ viết tay được thực hiện dựa trên
hai giải thuật chính: memory base và learning base.
Memory base lưu trữ ảnh các ký tự mẫu và nhận
dạng một ký tự chưa biết bằng cách so sánh với
các ký tự mẫu. Learning base là giải thuật cố gắng
học các mẫu ký tự chưa biết và xây dựng hàm nhận
dạng tương ứng. Các nghiên cứu về nhận dạng chữ
số viết tay đã đạt được các kết quả trên 90%. Nhận
dạng chữ viết tay thực hiện dựa trên sự kết hợp giữa
các thuật toán xử lý ảnh và các phương pháp phân
lớp nhận dạng như mạng Neural, Support Vector
Machines,... Các nghiên cứu về bài toán nhận dạng
chữ viết tay đều thực hiện trên máy tính cá nhân.
Nội dung bài báo gồm các phần sau: phần 2
trình bày về hệ thống nhận dạng chữ viết tay, phần
3 trình bày các bước xây dựng ứng dụng trên board
nhúng, phần 4 tổng hợp các kết quả thực hiện được
và phần 5 trình bày kết luận và hướng nghiên cứu
tiếp theo.
2. Hệ thống nhận dạng chữ viết tay
Hình 1 là sơ đồ khối của hệ thống nhận dạng
chữ viết tay. Hệ thống gồm bốn khối chức năng
chính: tiền xử lý, tách ký tự, trích chọn đặc trưng,
nhận dạng.
Hình 1. Sơ đồ hệ thống nhận dạng chữ viết tay
2.1. Tiền xử lý
Quá trình tiền xử lý thực hiện các phương pháp
lọc nhiễu, hiệu chỉnh độ nghiêng, tìm ngưỡng để
đưa ảnh về dạng nhị phân phục vụ cho các bước
tiếp theo. Ảnh nhị phân phục vụ cho quá trình nhận
dạng là ảnh có nền đen và nét chữ trắng.
Hình 2. Quá trình tiền xử lý
2.2. Tách ký tự
Ảnh sau khi được nhị phân hóa sẽ được tách ra
thành từng dòng chữ, từng chữ và cuối cùng là các
ký tự rời rạc.
2.2.1. Tách dòng chữ
Quá trình tách dòng chữ được thực hiện theo
các bước sau:
+ Xác định phân bố điểm ảnh theo dòng được
thực hiện theo (1)
Với i = 0->high-1 (high: chiều cao ảnh); width:
độ rộng ảnh.
+ Xác định giá trị điểm bắt đầu dòng chữ và độ
rộng dòng chữ. Giải thuật được thể hiện trong lưu
đồ hình 3.
(1)
Hình 3. Giải thuật xác định dòng chữ
4 5
Soá 12, thaùng 3/2014 4 Soá 12, thaùng 3/2014 5
Khoa hoïc Coâng ngheä Khoa hoïc Coâng ngheä
THIẾT KẾ HỆ THỐNG NHÚNG NHẬN DẠNG CHỮ VIẾT TAY
Trần Song Toàn *
Đặng Hữu Phúc **
*,** Thạc sĩ - Khoa Kỹ thuật & Công nghệ, Trường Đại học Trà Vinh
Tóm tắt
Nhận dạng chữ viết tay là vấn đề đang được nghiên cứu và phát triển. Công việc xây dựng các hệ
thống nhận dạng chữ viết tay được thực hiện khá nhiều trên các hệ thống máy tính cá nhân. Ngày nay,
hệ thống nhúng đang được nghiên cứu và ứng dụng rộng rãi trong đời sống. Các hệ thống phần cứng
được thiết kế ngày càng nhỏ gọn và có tính linh hoạt cao. Nội dung bài báo sẽ giới thiệu quá trình xây
dựng hệ thống nhận dạng chữ viết tay off-line trên board nhúng Beagleboard xM (BBxM). Bài toán nhận
dạng được thực hiện dưới sự hỗ trợ của thư viện xử lý ảnh OpenCV và phương pháp phân lớp SVM
(Support vector machines). Ảnh các chữ viết tay sẽ được chụp từ camera. Hệ thống thực hiện công việc
phát hiện và tách các ký tự thành các mẫu. Các mẫu ký tự sẽ được trích chọn đặc trưng theo phương
pháp chu tuyến kết hợp với phương pháp xác định mật độ điểm ảnh. Quá trình xây dựng các ứng dụng
trên hệ điều hành nhúng được thực hiện trên hệ điều hành Linux với sự hỗ trợ của phần mềm QtCreator
và công cụ biên dịch chéo Qt-Everywhere. Kết quả thực nghiệm được thực hiện trên các mẫu chữ cái in
hoa với tỉ lệ nhận dạng đúng đạt gần 95%.
Từ khóa: Beagleboard xM, hệ thống nhúng, nhận dạng chữ viết tay, phương pháp phân lớp Support
Vector Machines.
Abstract
Handwriting recognition is an issue that is being studied and developed. The handwriting recognition
systems are designed on personal computers. Nowadays, the embedded system is being studied and
applied widely in life. The hardware systems are more compact and flexible. The content of the paper
will introduce the process of building the offline handwriting recognition system on embedded board
BeagleBoard xM (BBxM). The identification is carried out with the support of image processing
library OpenCV and classification method SVM (Support vector machines). The handwriting letters
will be captured by camera. The system will detect and separate the letter into samples. The features
are extracted from these samples by the methods of circumference and pixel density. The process of
building applications on embedded operating system is implemented on Linux operating system with
the assistance of QtCreator software and Qt-Everywhere cross-compiler. The experimental result is
performed on the Latin uppercase letterswith the correct recognition rate up to approximately 95%.
Keywords: Beagleboard xM, Embedded system, Handwriting recognition, classification method Support
Vector Machines.
1. Giới thiệu
Vấn đề nhận dạng chữ viết tay đang được quan
tâm nghiên cứu và có vai trò rất quan trọng trong
công nghiệp. Trọng tâm của vấn đề nằm ở khả
năng thiết kế một giải thuật hiệu quả để có thể
nhận dạng được các ký tự viết tay bởi người dùng
qua tablet, scanner và các thiết bị số khác. Các ứng
dụng của nhận dạng chữ viết tay đã và đang có
nhiều đóng góp vào đời sống. Nhận dạng chữ viết
tay có thể phục vụ cho các ứng dụng đọc và xử
lý các chứng từ, hóa đơn, phiếu ghi, bản viết tay
chương trình. Tuy nhiên, cho đến nay, việc nhận
dạng chữ viết tay vẫn còn là thách thức lớn đối
với các nhà nghiên cứu. Đã có nhiều công trình
nghiên cứu về nhận dạng các mẫu chữ viết tay của
các hệ chữ cái Latin, Ả Rập, Trung Quốc,... nhưng
kết quả vẫn còn khá hạn chế do chữ viết tay rất đa
dạng về mẫu chữ cũng như các biến thể.
Nhận dạng chữ viết tay được thực hiện dựa trên
hai giải thuật chính: memory base và learning base.
Memory base lưu trữ ảnh các ký tự mẫu và nhận
dạng một ký tự chưa biết bằng cách so sánh với
các ký tự mẫu. Learning base là giải thuật cố gắng
học các mẫu ký tự chưa biết và xây dựng hàm nhận
dạng tương ứng. Các nghiên cứu về nhận dạng chữ
số viết tay đã đạt được các kết quả trên 90%. Nhận
dạng chữ viết tay thực hiện dựa trên sự kết hợp giữa
các thuật toán xử lý ảnh và các phương pháp phân
lớp nhận dạng như mạng Neural, Support Vector
Machines,... Các nghiên cứu về bài toán nhận dạng
chữ viết tay đều thực hiện trên máy tính cá nhân.
Nội dung bài báo gồm các phần sau: phần 2
trình bày về hệ thống nhận dạng chữ viết tay, phần
3 trình bày các bước xây dựng ứng dụng trên board
nhúng, phần 4 tổng hợp các kết quả thực hiện được
và phần 5 trình bày kết luận và hướng nghiên cứu
tiếp theo.
2. Hệ thống nhận dạng chữ viết tay
Hình 1 là sơ đồ khối của hệ thống nhận dạng
chữ viết tay. Hệ thống gồm bốn khối chức năng
chính: tiền xử lý, tách ký tự, trích chọn đặc trưng,
nhận dạng.
Hình 1. Sơ đồ hệ thống nhận dạng chữ viết tay
2.1. Tiền xử lý
Quá trình tiền xử lý thực hiện các phương pháp
lọc nhiễu, hiệu chỉnh độ nghiêng, tìm ngưỡng để
đưa ảnh về dạng nhị phân phục vụ cho các bước
tiếp theo. Ảnh nhị phân phục vụ cho quá trình nhận
dạng là ảnh có nền đen và nét chữ trắng.
Hình 2. Quá trình tiền xử lý
2.2. Tách ký tự
Ảnh sau khi được nhị phân hóa sẽ được tách ra
thành từng dòng chữ, từng chữ và cuối cùng là các
ký tự rời rạc.
2.2.1. Tách dòng chữ
Quá trình tách dòng chữ được thực hiện theo
các bước sau:
+ Xác định phân bố điểm ảnh theo dòng được
thực hiện theo (1)
Với i = 0->high-1 (high: chiều cao ảnh); width:
độ rộng ảnh.
+ Xác định giá trị điểm bắt đầu dòng chữ và độ
rộng dòng chữ. Giải thuật được thể hiện trong lưu
đồ hình 3.
(1)
Hình 3. Giải thuật xác định dòng chữ
6 7
Soá 12, thaùng 3/2014 6 Soá 12, thaùng 3/2014 7
Khoa hoïc Coâng ngheä Khoa hoïc Coâng ngheä
2.2.3. Tách ký tự
Quá trình tách ký tự được thực hiện theo giải
thuật phát hiện hình bao của đối tượng và sau
đó cắt các ký tự theo hình chữ nhật nhỏ nhất bao
quanh ký tự.
Hình 7. Kết quả quá trình tách ký tự
2.3. Trích chọn đặc trưng
Quá trình trích chọn đặc trưng sẽ được thực
hiện trên từng ký tự nhận được sau khi tách ký tự.
Đặc trưng có ý nghĩa quan trọng trong việc quyết
định tỷ lệ nhận dạng đúng ký tự. Để tránh những
phức tạp của chữ viết tay cũng như tăng cường
độ chính xác, ta cần phải biểu diễn thông tin chữ
viết dưới những dạng đặc biệt hơn và cô đọng hơn,
rút trích các đặc điểm riêng nhằm phân biệt các
ký tự khác nhau. Đặc trưng của các ký tự có thể
tìm ra bằng các phương pháp biến đổi, giải thuật
toán học. Có nhiều hình thức trích đặc trưng thông
dụng trong nhận dạng ký tự viết tay: đặc trưng nhị
phân, đặc trưng vùng, đặc trưng theo chu tuyến,
dùng biến đổi Haar Wavelet...
Phương pháp trích chọn đặc trưng được sử
dụng trong bài báo là phương pháp trích đặc trưng
theo chu tuyến kết hợp với phân bố điểm ảnh theo
chiều ngang và chiều dọc. Ảnh ký tự được chuẩn
hóa kích thước 22x30. Ảnh có nền màu đen nét
chữ màu trắng. Với phương pháp trích đặc trưng
trong bài báo thì chiều dài vector đặc trưng là
156. So với sử dụng phương pháp đặc trưng nhị
phân (chiều dài vector đặc trưng là 660), phương
pháp sử dụng trong bài báo sẽ giúp cho thời gian
huấn luyện cũng như nhận dạng nhanh hơn gấp
nhiều lần.
Vector đặc trưng F có được từ sự kết hợp của
6 giá trị.
F = {L, R, U, D, V, H} (3)
Vector đặc trưng F có chiều dài là 156, trong đó
L: đặc trưng lấy từ trái sang có 30 giá trị; R: đặc
trưng lấy từ phải sang có 30 giá trị; U: đặc trưng
lấy từ trên xuống có 22 giá trị; D: đặc trưng lấy từ
dưới lên có 22 giá trị; V: đặc trưng phân bố dòng
có 30 giá trị; H: đặc trưng phân bố cột có 22 giá trị.
2.3.1. Đặc trưng theo chiều từ trái sang
Việc lấy chu tuyến từ trái sang là xác định
khoảng cách từ lề trái của mẫu đến vị trí điểm ảnh
trắng đầu tiên theo từng dòng. Các giá trị đặc trưng
L được xác định theo công thức (4).
L[i] = d[P(0,i),PW] (4)
Với i = 0->29; d[P(0,i),PW] là khoảng cách từ
điểm ảnh có tọa độ (0,i) đến điểm ảnh có giá trị
255 đầu tiên theo chiều từ trái sang.
2.3.2. Đặc trưng theo chiều từ phải sang
Chu tuyến từ phải sang xác định khoảng cách
từ lề phải đến điểm trắng đầu tiên trên từng dòng.
Các giá trị đặc trưng R được xác định theo công
thức (5).
R[i] = d[P(21,i),PW] (5)
Với i = 0->29; d[P(21,i),PW] là khoảng cách
từ điểm ảnh có tọa độ (21,i) đến điểm ảnh có giá trị
255 đầu tiên theo chiều từ phải sang.
2.3.3. Đặc trưng theo chiều từ trên xuống
Xác định khoảng cách từ lề trên của mẫu đến
điểm trắng đầu tiên theo từng cột. Các giá trị đặc
trưng U được xác định theo công thức (6).
U[j] = d[P(j,0),PW] (6)
Với j = 0->21; d [P(j,0),PW] là khoảng cách
từ điểm ảnh có tọa độ (j,0) đến điểm ảnh có giá trị
255 đầu tiên theo chiều từ trên xuống.
2.3.4. Đặc trưng theo chiều từ dưới lên
Xác định khoảng cách từ lề dưới của mẫu đến
điểm trắng đầu tiên theo từng cột. Các giá trị đặc
trưng D được xác định theo công thức (7).
D[j] = d[P(j,29),PW] (7)
Với j = 0->21; d[P(j,29),PW] là khoảng cách từ
điểm ảnh có tọa độ (j,29) đến điểm ảnh có giá trị
255 đầu tiên theo chiều từ dưới lên.
2.3.5. Đặc trưng phân bố điểm ảnh theo dòng
Đặc trưng này dựa trên tổng số điểm trắng
phân bố trên từng dòng ảnh. Các giá trị đặc trưng
V được xác định theo công thức (8).
Với j = 0->21; P(i,j) giá trị điểm ảnh (i,j)
+ Cắt ảnh dòng chữ từ ảnh gốc: Việc cắt ảnh các
dòng được thực hiện bằng các hàm của thư viện
OpenCV với vị trí độ lớn được xác định từ lưu đồ
hình 3.
2.2.2. Tách chữ trên từng dòng chữ
Quá trình thực hiện việc tách chữ được thực hiện
theo các bước:
+ Xác định phân bố điểm ảnh theo cột được thực
hiện theo (2)
Với i = 0->width-1 (width: độ rộng ảnh);
high: chiều cao ảnh.
+ Xác định điểm bắt đầu khoảng trắng, độ rộng
kho ... á trình tách
ký tự sẽ được đưa vào kết hợp với bộ huấn luyện
sẽ cho kết quả nhận dạng. Kết quả sau khi nhận
dạng với phương pháp phân lớp Support Vector
machines (SVM) sẽ trả về một giá trị nhãn trong
bộ huấn luyện SVM. Hàm nhân (kernel) được sử
dụng trong phương pháp SVM là hàm tuyến tính
theo biểu thức (10), các tham số được thiết lập theo
phương pháp C-SVM được thể hiện theo công
thức (11) và các giá trị tham số được thể hiện trong
hình 12.
K(x
i
,xj) = xi
Txj (10)
Quá trình huấn luyện được thực hiện với sự hỗ
trợ của thư viện OpenCV với các tham số được
trình bày trong hình 8. Giá trị nhãn sẽ cho ta một
ký tự tương ứng. Kết quả sẽ được ghi vào file đồng
thời hiển thị trên giao diện của ứng dụng.
(11)
Hình 8. Quá trình nhận dạng mẫu
3. Xây dựng ứng dụng trên board nhúng
BeagleBoard xM (BBxM)
3.1. Hệ thống phần cứng
Sơ đồ hệ thống phần cứng của ứng dụng được
thể hiện trong Hình 9. Ảnh các ký tự được thu
qua camera đưa vào board để xử lý và kết quả của
chương trình được hiển thị trên màn hình LCD.
BBxM sử dụng CPU ARM-Cortex A8 có thể
hoạt động tối đa ở tốc độ 1Ghz cùng với bộ nhớ
DDRAM công suất thấp 512MB. Kích thước của
BBxM khá nhỏ gọn: 3.25” × 3.25”. BBxM cung
cấp khá đầy đủ các kết nối của một máy tính mini:
USB port, Audio input conector, Audio output
connector, Svideo connector, DVI-D connector,
LCD header...
Hình 9. Hệ thống phần cứng
Hình 10. Sơ đồ khối BBxM
Hệ thống nhận dạng chữ viết tay được thực
hiện và kiểm tra trên máy tính cá nhân. Sau khi kết
quả đạt yêu cầu, nó sẽ được biên dịch thành ứng
dụng có thể thực thi trên board nhúng BBxM. Quá
trình này được trình bày trong phần 3.3.
3.2. Hệ thống phần mềm
Hệ thống hỗ trợ thiết kế phần mềm gồm có:
+ Hệ điều hành Ubuntu 10.10: xây dựng và
thiết kế các giao tiếp với BBxM.
+ Angstrom-toolchain: công cụ biên dịch chéo
các ứng dụng và các gói cho kiến trúc ARM-
Cortex A8.
+ Qt Creator 2.0.1: công cụ thiết kế giao diện
và ứng dụng.
+ Qt-Everywhere 4.8.2: Công cụ biên dịch Qt
cho kiến trúc ARM.
+ OpenCV library: thư viện hỗ trợ cho công
việc xử lý ảnh.
Quá trình cài đặt các ứng dụng cần quan tâm
đến vấn đề cài đặt driver cho hệ thống. Hệ thống
nhận dạng có sử dụng USB camera nên cần phải
cài đặt trước khi sử dụng cho hệ thống.
3.3. Biên dịch ứng dụng cho BBxM
Ứng dụng được xây dựng với phần mềm Qt
Creator được cài đặt trên hệ điều hành Ubuntu
10.10. Công việc xử lý ảnh được thực hiện với thư
viện OpenCV. Để có thể thực thi ứng dụng trên
BBxM các thư viện hỗ trợ của Qt và OpenCV phải
chạy được trên nền kiến trúc ARM. Một toolchain
cần được cài đặt để biên dịch code trên hệ thống
Linux có thể thực thi trên vi xử lý ARM của
BBxM. Các vi xử lý ARM khác nhau sẽ được biên
dịch khác nhau. Toolchain hỗ trợ cho việc build
ứng dụng trên BBxM với hệ điều hành Angstrom
là Angstrom toolchain.
Để có thể sử dụng thư viện OpenCV trên BBxM
cần phải build các thư viện này với angstrom-
toolchain.
Hình 11. Hệ thống phần mềm
(9)
10 11
Soá 12, thaùng 3/2014 10 Soá 12, thaùng 3/2014 11
Khoa hoïc Coâng ngheä Khoa hoïc Coâng ngheä
Chương trình được xây dựng trên phần mềm
Qt nên cần phải build các ứng dụng này với Qt-
Everywhere.
Hệ điều hành được sử dụng trên BBxM là
Angstrom OS. Để các ứng dụng có thể chạy được
trên BBxM, cần cài đặt hệ điều hành trên BBxM.
4. Kết quả
Ứng dụng được thiết kế trực quan với giao diện
dễ dàng sử dụng và kiểm tra. Kết quả cho phép
nhận dạng các chữ viết tay rời rạc trên các dòng
chữ khác nhau. Hình 14a, hình 14b và 14c cho thấy
kết quả nhận dạng trên các loại văn bản khác nhau.
Kết quả quá trình tách ký tự đối với các văn
bản các ký tự không dính nét đạt xấp xỉ 95%. Do
phương pháp tách dòng và tách ký tự được sử
dụng trong bài báo là phương pháp hình chiếu nên
đối với các ảnh văn bản có độ nghiêng lớn dễ gây
nhầm lẫn trong quá trình tách dòng và tách chữ.
Bài báo sử dụng ba phương pháp trích đặc
trưng: đặc trưng theo chu tuyến (CT), đặc trưng
nhị phân (NP) và đặc trưng chu tuyến kết hợp với
phân bố mật độ điểm ảnh (CT+PB). Số lượng mẫu
được sử dụng trong bài báo bao gồm 4799 mẫu
trong đó bao gồm 1504 mẫu được dùng để training
và 3295 mẫu dùng để testing.
Phương pháp trích đặc trưng được sử dụng
trong bài báo đã cho thời gian huấn luyện cũng
như nhận dạng ngắn hơn so với các phương pháp
trích đặc trưng nhị phân, đặc trưng vùng hay biến
đổi Haar Wavelet.
Thời gian training và testing (thực hiện trên
máy tính cá nhân, CPU core i3, 2GB RAM) được
thể hiện trong bảng 1.
Bảng 1: Thời gian training và testing
Đặc trưng CT + PB CT NP
Training ~0.66s ~0.51s ~1.8
Testing ~1.17s ~0.88s ~3.78s
Thời gian nhận dạng được thể hiện trong Bảng 2.
Thời gian này phụ thuộc vào kích thước bức ảnh,
độ phức tạp và số lượng ký tự có trên bức ảnh.
Bảng 2: Thời gian nhận dạng
Kết quả nhận dạng trên các mẫu ký tự được thể
hiện trong bảng 3. Kết quả này được thực hiện trên
các mẫu ký tự rời rạc, các mẫu này gồm 26 mẫu
ký tự in hoa (A->Z). Kết quả thể hiện trong Bảng 3
là kết quả trung bình cộng của 26 kết quả đối với
từng ký tự riêng lẻ.
Bảng 3: Kết quả nhận dạng
Từ kết quả trên, ta nhận thấy phương pháp trích
đặc trưng theo chu tuyến kết hợp với mật độ điểm
ảnh cho hiệu suất nhận dạng tốt nhất và thời gian
xử lý ngắn. Phương pháp trích đặc trưng nhị phân
thời gian xử lý nhiều nhưng tỉ lệ nhận dạng vẫn
thấp hơn so với phương pháp chu tuyến.
5. Kết luận
Bài báo đã đưa ra giải thuật nhận dạng chữ viết
tay và thực hiện trên board nhúng BBxM. Kết quả
thực hiện trên BBxM có thể áp dụng được trên
thực tế (thời gian nhận dạng khoảng 100ms với kết
quả đạt được xấp xỉ 95%).
Kết quả của bài toán xử lý ảnh chỉ dừng lại ở
mức độ tách các chữ viết rời rạc không bị dính
nét. Hướng nghiên cứu và phát triển tiếp theo là
xây dựng mô hình nhận dạng chữ viết để có thể
nhận dạng được các chữ viết bị dính nét. Việc này
đòi hỏi cần phải sử dụng kỹ thuật phân đoạn ảnh
nâng cao để có thể tách được các ký tự dính nét.
Phát triển mô hình nhận dạng chữ viết tay tiếng
Việt. Xây dựng giải thuật hậu xử lý để nâng cao tỷ
lệ nhận dạng. Kết quả sau khi nhận dạng sẽ được
xem xét trong ngữ cảnh để có thể giải quyết một số
trường hợp sai so với cấu trúc ngữ pháp tiếng Việt.
Cải tiến giải thuật giúp cho hệ thống hoạt động
nhanh hơn để có thể đáp ứng với hệ thống thời
gian thực.
Hình 12. Build thư viện OpenCV cho BBxM
Hình 13. Build thư viện Qt cho BBxM
Hình 14a. Nhận dạng văn bản với nhiều dòng chữ
Hình 14b. Nhận dạng văn bản nghiêng
Hình 14c. Nhận dạng văn bản có nhiễu
10 11
Soá 12, thaùng 3/2014 10 Soá 12, thaùng 3/2014 11
Khoa hoïc Coâng ngheä Khoa hoïc Coâng ngheä
Chương trình được xây dựng trên phần mềm
Qt nên cần phải build các ứng dụng này với Qt-
Everywhere.
Hệ điều hành được sử dụng trên BBxM là
Angstrom OS. Để các ứng dụng có thể chạy được
trên BBxM, cần cài đặt hệ điều hành trên BBxM.
4. Kết quả
Ứng dụng được thiết kế trực quan với giao diện
dễ dàng sử dụng và kiểm tra. Kết quả cho phép
nhận dạng các chữ viết tay rời rạc trên các dòng
chữ khác nhau. Hình 14a, hình 14b và 14c cho thấy
kết quả nhận dạng trên các loại văn bản khác nhau.
Kết quả quá trình tách ký tự đối với các văn
bản các ký tự không dính nét đạt xấp xỉ 95%. Do
phương pháp tách dòng và tách ký tự được sử
dụng trong bài báo là phương pháp hình chiếu nên
đối với các ảnh văn bản có độ nghiêng lớn dễ gây
nhầm lẫn trong quá trình tách dòng và tách chữ.
Bài báo sử dụng ba phương pháp trích đặc
trưng: đặc trưng theo chu tuyến (CT), đặc trưng
nhị phân (NP) và đặc trưng chu tuyến kết hợp với
phân bố mật độ điểm ảnh (CT+PB). Số lượng mẫu
được sử dụng trong bài báo bao gồm 4799 mẫu
trong đó bao gồm 1504 mẫu được dùng để training
và 3295 mẫu dùng để testing.
Phương pháp trích đặc trưng được sử dụng
trong bài báo đã cho thời gian huấn luyện cũng
như nhận dạng ngắn hơn so với các phương pháp
trích đặc trưng nhị phân, đặc trưng vùng hay biến
đổi Haar Wavelet.
Thời gian training và testing (thực hiện trên
máy tính cá nhân, CPU core i3, 2GB RAM) được
thể hiện trong bảng 1.
Bảng 1: Thời gian training và testing
Đặc trưng CT + PB CT NP
Training ~0.66s ~0.51s ~1.8
Testing ~1.17s ~0.88s ~3.78s
Thời gian nhận dạng được thể hiện trong Bảng 2.
Thời gian này phụ thuộc vào kích thước bức ảnh,
độ phức tạp và số lượng ký tự có trên bức ảnh.
Bảng 2: Thời gian nhận dạng
Kết quả nhận dạng trên các mẫu ký tự được thể
hiện trong bảng 3. Kết quả này được thực hiện trên
các mẫu ký tự rời rạc, các mẫu này gồm 26 mẫu
ký tự in hoa (A->Z). Kết quả thể hiện trong Bảng 3
là kết quả trung bình cộng của 26 kết quả đối với
từng ký tự riêng lẻ.
Bảng 3: Kết quả nhận dạng
Từ kết quả trên, ta nhận thấy phương pháp trích
đặc trưng theo chu tuyến kết hợp với mật độ điểm
ảnh cho hiệu suất nhận dạng tốt nhất và thời gian
xử lý ngắn. Phương pháp trích đặc trưng nhị phân
thời gian xử lý nhiều nhưng tỉ lệ nhận dạng vẫn
thấp hơn so với phương pháp chu tuyến.
5. Kết luận
Bài báo đã đưa ra giải thuật nhận dạng chữ viết
tay và thực hiện trên board nhúng BBxM. Kết quả
thực hiện trên BBxM có thể áp dụng được trên
thực tế (thời gian nhận dạng khoảng 100ms với kết
quả đạt được xấp xỉ 95%).
Kết quả của bài toán xử lý ảnh chỉ dừng lại ở
mức độ tách các chữ viết rời rạc không bị dính
nét. Hướng nghiên cứu và phát triển tiếp theo là
xây dựng mô hình nhận dạng chữ viết để có thể
nhận dạng được các chữ viết bị dính nét. Việc này
đòi hỏi cần phải sử dụng kỹ thuật phân đoạn ảnh
nâng cao để có thể tách được các ký tự dính nét.
Phát triển mô hình nhận dạng chữ viết tay tiếng
Việt. Xây dựng giải thuật hậu xử lý để nâng cao tỷ
lệ nhận dạng. Kết quả sau khi nhận dạng sẽ được
xem xét trong ngữ cảnh để có thể giải quyết một số
trường hợp sai so với cấu trúc ngữ pháp tiếng Việt.
Cải tiến giải thuật giúp cho hệ thống hoạt động
nhanh hơn để có thể đáp ứng với hệ thống thời
gian thực.
Hình 12. Build thư viện OpenCV cho BBxM
Hình 13. Build thư viện Qt cho BBxM
Hình 14a. Nhận dạng văn bản với nhiều dòng chữ
Hình 14b. Nhận dạng văn bản nghiêng
Hình 14c. Nhận dạng văn bản có nhiễu
12 13
Soá 12, thaùng 3/2014 12 Soá 12, thaùng 3/2014 13
Khoa hoïc Coâng ngheä Khoa hoïc Coâng ngheä
Tài liệu tham khảo
BeagleBoard-xM Rev C System Reference Manual. April 4th, 2010.
Bui Minh Thanh, Truong Quang Vinh, Hoang Trang. 2012. “An Automatic Licence Plate Recognition
System Based on Support Vector Machine”. The Second Solid-State Systems Symposium – VLSIs and
Semiconductor Related Technologies. pp 31-36.
Jose Israel Pacheco. 2011. “A comparative study for the handwritten digit recognition problem”.
Presented to the Department of Mathematics and Statistics California State University, Long Beach.
Le Anh Cuong, Ngo Tien Dat, Nguyen Viet Ha. 2010. “Isolated Handwritten Vietnamese Character
Recognition with Feature Extraction and Classifier Combination”. VNU Journal of Science, Mathematics
- Physics 26. pp 123-139.
Lê Trần Hùng Ân. 2012. “Nhận dạng chữ viết tay”. Luận văn tốt nghiệp đại học. Trường Đại học
Bách Khoa, Đại học QG TPHCM.
Merciadri Luca, Köen Kooi. 2010. Ångström Manual.
OpenCV Reference Manual v2.1. 2010.
Phạm Anh Phương. 2009. “Một số phương pháp trích chọn đặc trưng hiệu quả cho bài toán nhận
dạng chữ viết tay rời rạc”. Tạp chí khoa học, Đại học Huế. số 53. pp. 73-79.
Phạm Anh Phương, Ngô Quốc Tạo, Lương Chi Mai. 2008. “Vietnamese Handwritten Character
Recognition By Combining SVM and Haar Wavelet Features”. Các công trình nghiên cứu khoa học,
nghiên cứu triển khai CNTT - TT. Số 20. pp. 36-42.
Y. LeCun and C. Cortes. 2012. “The MNIST Database of Handwritten Digits.” Internet:
lecun.com/exdb/mnist/
PHƯƠNG PHÁP CHIẾT HESPERIDIN TỪ VỎ QUẢ QUÝT HỒNG
Ở HUYỆN LAI VUNG - ĐỒNG THÁP
Lê Thị Thanh Xuân *
* Thạc sĩ - Khoa Hóa-Sinh-KTNN, Trường Đại học Đồng Tháp
Tóm tắt
Quả quýt hồng thu hái tại vườn ở huyện Lai Vung, tỉnh Đồng Tháp, được xử lý sơ bộ và thực hiện
phương pháp tách, chiết để tiến hành tách hesperidin từ vỏ quả quýt hồng, sản phẩm thu được là tinh thể
màu trắng kết tinh trong methanol. Tinh thể sau khi thu được tiến hành xác định nhóm chức bằng phổ
IR. Đồng thời thực hiện quá trình chưng cất thu được tinh dầu và xác định thành phần hóa học chính
trong tinh dầu là limonene chiếm 86,162%.
Từ khóa: Quýt hồng, phương pháp tách, tách hesperidin, tinh dầu, thành phần hóa học.
Abstract
Tangerines are harvested in the garden of Lai Vung district, Dong Thap province, which are treated
crudely. Through extraction method, hesperidin is separated from Tangerine’s skin and a white crystal
is obtained, which is crystalized in methanol. After the crystal is obtained, it is defined its group by
spectrum IR. At the same time, as the process of distillation is carried out, essential oil is obtained, and
the main chemical composition in essential oil to be defined is limonene with 86,162%.
Keywords: Tangerines of Lai Vung, separation method, separation hesperidin, essential oil, chemical
composition.
1. Mở đầu
Quýt (Citrus Reticulata Blanco) thuộc chi Cam
(Citrus), họ Cam (Rutaceae), là cây ăn quả được
trồng phổ biến ở Việt Nam nhưng nhiều nhất là ở
các tỉnh miền Đông Nam Bộ và Đồng bằng sông
Cửu Long. Vỏ quả quýt hồng có chứa nhiều tinh
dầu và hợp chất hesperidin. Hesperidin là một loại
hoạt chất quý được sử dụng rộng rãi trong bào chế
nhiều loại thuốc, biệt dược và thực phẩm chức
năng. Hesperidin có tác dụng kháng viêm, chống
ôxy hóa, chống dị ứng, chống ung thư, kháng vi
sinh vật (vi khuẩn, nấm, vi rút), chống loãng
xương và đặc biệt khi dùng phối hợp với vitamin C
có tác dụng cộng hưởng và hỗ trợ hấp thụ vitamin
C rất tốt. Ngày nay, trong y học lâm sàng, người
ta đang sử dụng nhiều loại thuốc và biệt dược
được bào chế từ hesperidin để điều trị một số bệnh
theo nhóm dược lý như bệnh về hệ mạch, bệnh
thấp khớp và bệnh khớp, Hesperidin thuộc vào
nhóm các hợp chất flavonoid có trong hầu hết các
phần của thực vật bao gồm: trong quả, thân, lá, rễ
và hoa, trong đó hesperidin tập trung chủ yếu ở
lớp vỏ cùi dưới dạng kết tinh. Hesperidin là hợp
chất flavonoid chủ yếu trong vỏ quả cây họ Cửu
lý hương (Rutaceae) thường được gọi là họ Cam.
Nhiều loại thuốc trong số này đã và đang được sử
dụng trong điều trị bệnh tại Việt Nam.
2. Thực nghiệm
2.1. Quy trình tách Hesperidin từ vỏ quả
quýt hồng
2.1.1. Chiết citroflavonoid toàn phần bằng ethanol
Thuyết minh quy trình
Vỏ quả quýt hồng sau khi xử lý sơ bộ, được
chiết nóng với cồn ở nhiệt độ 70 – 800C trong 2
giờ. Dịch chiết thu được đem cô quay thu hồi dung
môi được cao ethanol, cao ethanol sau khi cô quay
tiến hành acid hóa điều chỉnh pH=5-6 sẽ thu được
tủa hoạt chất thô có màu vàng. Tủa tan trong cồn
700 sau đó lọc nóng để loại bỏ bã và tạp chất, thu
được dịch lọc, dịch lọc đem kết tinh 24 giờ thu
citroflavonoid toàn phần.
2.1.2. Tách và tinh chế hesperidin ra khỏi
citroflavonoid toàn phần
Thuyết minh quy trình
- Citroflavonoid toàn phần được chiết ra từ vỏ
quả quýt hồng. Sau đó, chúng tôi tiến hành tách
hesperidin ra khỏi hỗn hợp citroflavonoid toàn

File đính kèm:

thiet_ke_he_thong_nhung_nhan_dang_chu_viet_tay.pdf