Nhận dạng đối tượng xuất hiện vào vùng nguy hiểm phía trước xe ôtô có lắp đặt hệ thống thị giác máy tính

Ngày nay, sự phát triển bùng nổ của khoa học công nghệ đã đưa máy móc đến gần và hỗ

trợ con người trong các ứng dụng cụ thể trong cuộc sống hằng ngày. Trong đó, đã có rất

nhiều ứng dụng có kết quả khả quan, đặc biệt là lĩnh vực xe tự hành, cảnh báo tai nạn. Trong

bài báo này, tác giả đề xuất phương pháp sử dụng hệ thống thị giác máy tinh gắn trên xe ôtô

đang di chuyển trên đường để nhận biết những đối tượng phía trước như oto, xe máy khác

xuất hiện trong vùng nguy hiểm phía trước có khả năng gây va chạm. Phương pháp đề xuất

dựa trên đặc trưng kênh tổng hợp (Aggregate Channel Features – ACF) để nhận dạng đối

tượng xe máy và ô tô trong quá trình tham gia giao thông trên các tuyến đường khác nhau

trong môi trường đô thị. Bên cạnh đó tác giả cũng kết hợp kỹ thuật xử lý ảnh để phát hiện làn

đường bằng phép biến đổi mắt chim (Bird’s-Eye View transformation) và ước lượng khoảng

cách từ camera đến vật thể để hỗ trợ cho việc cảnh báo va chạm phía trước. Kết quả cho thấy

phương pháp đề xuất hiệu quả trong việc nhận dạng với thuật toán đơn giản và tốc độ xử lý

nhanh.

pdf 9 trang kimcuc 20780
Bạn đang xem tài liệu "Nhận dạng đối tượng xuất hiện vào vùng nguy hiểm phía trước xe ôtô có lắp đặt hệ thống thị giác máy tính", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Nhận dạng đối tượng xuất hiện vào vùng nguy hiểm phía trước xe ôtô có lắp đặt hệ thống thị giác máy tính

Nhận dạng đối tượng xuất hiện vào vùng nguy hiểm phía trước xe ôtô có lắp đặt hệ thống thị giác máy tính
32 
Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 54 (09/2019) 
Trường Đại Học Sư Phạm Kỹ Thuật TP. Hồ Chí Minh 
NHẬN DẠNG ĐỐI TƯỢNG XUẤT HIỆN VÀO VÙNG NGUY HIỂM 
PHÍA TRƯỚC XE ÔTÔ CÓ LẮP ĐẶT HỆ THỐNG THỊ GIÁC MÁY TÍNH 
RECOGNIZING OBJECTS APPEARED IN DANGEROUS REGION IN 
FRONT OF VEHICLES MOUNTED COMPUTER VISION SYSTEM 
Lê Mỹ Hà 
Trường đại học Sư phạm Kỹ thuật TP.HCM, Việt Nam 
Ngày toà soạn nhận bài 2/4/2019, ngày phản biện đánh giá 18/4/2019 , ngày chấp nhận đăng 8/5/2019 
TÓM TẮT 
Ngày nay, sự phát triển bùng nổ của khoa học công nghệ đã đưa máy móc đến gần và hỗ 
trợ con người trong các ứng dụng cụ thể trong cuộc sống hằng ngày. Trong đó, đã có rất 
nhiều ứng dụng có kết quả khả quan, đặc biệt là lĩnh vực xe tự hành, cảnh báo tai nạn. Trong 
bài báo này, tác giả đề xuất phương pháp sử dụng hệ thống thị giác máy tinh gắn trên xe ôtô 
đang di chuyển trên đường để nhận biết những đối tượng phía trước như oto, xe máy khác 
xuất hiện trong vùng nguy hiểm phía trước có khả năng gây va chạm. Phương pháp đề xuất 
dựa trên đặc trưng kênh tổng hợp (Aggregate Channel Features – ACF) để nhận dạng đối 
tượng xe máy và ô tô trong quá trình tham gia giao thông trên các tuyến đường khác nhau 
trong môi trường đô thị. Bên cạnh đó tác giả cũng kết hợp kỹ thuật xử lý ảnh để phát hiện làn 
đường bằng phép biến đổi mắt chim (Bird’s-Eye View transformation) và ước lượng khoảng 
cách từ camera đến vật thể để hỗ trợ cho việc cảnh báo va chạm phía trước. Kết quả cho thấy 
phương pháp đề xuất hiệu quả trong việc nhận dạng với thuật toán đơn giản và tốc độ xử lý 
nhanh. 
Từ khóa: Máy học; đặc trưng kênh tổng hợp; kỹ thuật mắt chim; nhận dạng làn đường; nhận 
dạng người. 
ABSTRACT 
Today, the rapid growth of the new techniques has brought machines close to people. 
There are many applications that have positive results in our life, especially in autonomous 
vehicle and collision warning or avoidance. In this article, the authors proposed a method 
using a computer vision system mounted on moving vehicle to detect the objects appeared in 
the dangerous region to warning for a collision. The proposed method applied Aggregate 
Channel Features (ACF) to identify motorbikes and cars in different urban roads. In addition, 
the author combined lane detection using the bird-eyes view transformation algorithm and 
estimated the distance from the camera to other objects to support frontal warning. The result 
showed that this proposed method is an efficient technique with simplicity and fast processing 
speeds. 
Keywords: Machine learning; Aggregate Channel Features; bird-eyes image technique; lane 
detection; human detection. 
1. GIỚI THIỆU 
Một trong những ứng dụng rất quan 
trọng của AI đó là trong lĩnh vực giao thông 
– ngành công nghiệp ô tô. Nhắc tới ngành 
này thì ta không thể không kể đến công nghệ 
tự lái thông minh (hay còn gọi là xe tự lái, xe 
tự hành) mà không cần đến bàn tay của con 
người, công nghệ này gắn liền với các tên 
tuổi nổi bật như Ford, Testa, Daimler, Nissan, 
Toyota Nhà sản xuất ô tô Nhật Bản Nissan 
mới đây thông báo đang có kế hoạch thử 
nghiệm xe tự hành trên các đường phố Nhật 
Bản ở gần trụ sở chính của công ty tại 
Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 54 (09/2019) 
Trường Đại Học Sư Phạm Kỹ Thuật TP. Hồ Chí Minh 
33 
Yokohama vào tháng 3 năm 2018. Hệ thống 
giao thông thông minh – ITS là sự ứng dụng 
công nghệ cao điện tử, tin học và viễn thông 
để điều hành và quản lý hệ thống giao thông 
vận tải. ITS được coi là một hệ thống lớn, 
trong đó con người, phương tiện giao thông, 
mạng lưới đường giao thông là các thành 
phần của hệ thống, liên kết chặt chẽ với nhau. 
ITS được hoạch định để giảm bớt tắc nghẽn 
giao thông, đảm bảo an toàn, giảm nhẹ 
những tác dộng xấu tới môi trường, tăng 
cường năng lực vận tải hành khách. Các 
nghiên cứu về công nghệ trên xe tự hành chủ 
yếu tập trung vào 2 lĩnh vực chính, đó là phát 
hiện làn đường và nhận dạng đối tượng. Vấn 
đề phát hiện làn đường đã được nghiên cứu 
trong nhiều thập kỷ qua và đã được một số 
thành quả nhất định, được phát triển và ứng 
dụng trong nhiều loại xe. Đó là một trong 
những quá trình quan trọng dựa trên tầm nhìn 
trong hệ thống hỗ trợ lái xe và có thể được sử 
dụng để điều hướng xe, kiểm soát hướng, 
chống va chạm, hoặc cảnh báo khi đi trong 
làn đường nhỏ. Điều kiện đường xá khác 
nhau làm cho vấn đề này trở nên rất khó khăn 
bao gồm các loại khác nhau của các tuyến 
đường (thẳng hoặc cong), sự che khuất gây ra 
bởi vật cản, bóng, ánh sáng thay đổi (như 
thời gian ban đêm),  đã có nhiều phương 
pháp tiếp cận đề xuất để giải quyết các vấn 
đề trên trong việc phát hiện làn đường. Bên 
cạnh đó, nhận dạng đối tượng là một thành 
phần quan trọng của hệ thống xe tự hành. 
Công nghệ này đã có những bước tiến bộ lớn 
như nhận dạng được đối tượng tĩnh như xe 
đạp, người đi bộ, ô tô, biển báo giao thông 
và những năm gần đây, thì cũng đã có những 
kết quả khả quan trong việc nhận dạng đối 
tượng động như xe hay người đang di chuyển 
trên đường. Việc gia tăng mức độ tự động 
hóa hay khả năng tự hành có thể mang lại 
nhiều lợi ích, như tăng độ an toàn (có thể 
giảm tới hơn 90% các vụ tai nạn) và độ tin 
cậy, cải thiện thời gian (mẫu xe Cadillac thử 
nghiệm tự lái của GM có thể tự vận hành với 
vận tốc lên đến 70 dặm/giờ), tiết kiệm chi phí, 
hay giảm gánh nặng đặt lên người điều khiển 
trên đường cao tốc hay khi tắt đường. Trên 
thế giới, đã có rất nhiều nghiên cứu xoay 
quanh những hướng phát triển trong công 
nghệ ô tô / giao thông được trình bày tóm tắt 
dưới đây. Thứ nhất trong nghiên cứu [1], 
Yongzheng Xu đã đề xuất phát hiện phương 
tiện giao thông từ hình ảnh vệ tinh bằng thuật 
toán phân lớp SVM kết hợp với đặc trưng 
HoG, phương pháp này có độ chính xác cao 
nhưng không phù hợp để áp dụng vào bài 
toán hướng di chuyển của xe nhiều hơn hai. 
Trong bài báo [2], biến đổi Hough thực hiện 
rất tốt trong việc theo dõi làn đường khi đã 
mất đổi lại một phần của xe sẽ bị mất khi xe 
chạy lấn sang làn đường khác. Trong bài báo 
[3] của Zhaojin Zhang, sử dụng Deep Neural 
Network (DNN) có độ chính xác cao hơn 
những phương pháp trước đó, nhưng tốc độ 
xử lý còn chậm. Nghiên cứu về nhận dạng xe 
dùng mạng nơ-ron tích chập của Jeffrey de 
Deijn [4], sử dụng CNN để nhận biết một 
chiếc xe có bị hư hỏng hay không, nhưng độ 
chính xác chưa cao vì giới hạn của bộ dữ liệu 
huấn luyện. Trong bài báo [5] Qingpeng Li 
đã sử dụng một phương pháp mới R3-Net 
của Neural Network (bao gồm CNN, R-RPN, 
R-DN kết hợp) để nhận dạng phương tiện. 
Tuy có thể theo dõi thêm nhiều thông tin của 
phương tiện như quỹ đạo nhằm nâng cao 
hiệu suất trong phát hiện xe đa hướng nhưng 
thuật toán khá phức tạp và chi phí cao. Trong 
công trình công bố của Daniel Neumann [6] 
có thể dự đoán gần đúng khoảng cách từ 
camera tới đối tượng được phát hiện, tuy 
nhiên tỉ lệ phát hiện đúng chưa cao do tập dữ 
liệu huấn luyện và độ phân giải của máy ảnh 
còn thấp. Qua các khảo sát các nghiên cứu 
gần đây về vấn đề nhận dạng đối tượng thì 
chủ yếu xoay quanh vào việc tăng độ chính 
xác và tốc độ xử lý bằng cách sử dụng Deep 
Learning (một nhánh nổi trội của AI) kết hợp 
các thuật toán để nhận dạng đối tượng. Với 
cách đó, trong bài báo này tác giả sử dụng 
phương pháp đặc trưng kênh tổng hợp 
Aggregate Channel Features (ACF) để nhận 
dạng khuôn mặt người hay nhận dạng chữ 
viết tương tự như trong [7], [8]. Xét về độ 
phức tạp thì thuật toán trích đặc trưng ACF 
đơn giản hơn so với Deep Learning, ACF còn 
có tốc độ nhận dạng khá nhanh do không cần 
xây dựng các ảnh tích phân và các kênh trong 
34 
Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 54 (09/2019) 
Trường Đại Học Sư Phạm Kỹ Thuật TP. Hồ Chí Minh 
ACF được xấp xỉ bằng phương pháp ngoại 
suy để thu được kết quả mong muốn. Chính 
vì ưu điểm đó, tác đã chọn ACF để thực hiện 
việc nhận dạng xe máy và ô tô trong môi 
trường đô thị. Ngoài ra, học viên kết hợp 
nhận dạng làn đường và dự đoán khoảng 
cách từ mono-camera tới đối tượng được 
nhận dạng. Những vấn đề này chính là một 
trong những bài toán của hệ thống lái xe tự 
động đang phát triển mạnh mẽ hiện nay. 
Phương pháp thực hiện được đề xuất theo 4 
bước như trình bày trong Hình 1. 
2. PHÁT HIỆN LÀN ĐƯỜNG VÀ 
NHẬN DẠNG ĐỐI TƯỢNG 
2.1. Xác định bộ thông số camera 
Những đối tượng trong hình ảnh được 
thu lại bằng camera đơn được nhận dạng 
chính xác hay việc dự đoán khoảng cách phụ 
thuộc rất nhiều vào các thông số camera sử 
dụng, bao gồm: thông số nội, thông số ngoại 
và hệ số biến dạng. Để xác định các thông số 
này, tác giả sử dụng Camera Calibration 
toolbox của Matlab. Để ước tính các thông số 
của camera đã sử dụng, tác giả sử dụng 11 
bức ảnh chụp chess board, với khoảng cách 
từ camera tới vật thể trung bình là 2m. Kết 
quả của quá trình này sẽ xác định được các 
thông số của camera để sử dụng cho các 
bước tính toán sau này. 
2.2. Phát hiện làn đường 
2.2.1. Kỹ thuật mắt chim 
Trong bài báo này, người thực hiện sử 
dụng phương pháp kỹ thuật mắt chim đảo 
tầm nhìn hình ảnh (Inverse perspective 
mapping – IPM) để phát hiện làn đường [9]. 
Kỹ thuật này đòi hỏi yêu cầu cao cho việc 
kiểm tra các thông số của camrera đầu vào, 
để đảm bảo cho việc chuyển đổi hình ảnh đạt 
được chất lượng cao hơn so với kĩ thuật uốn 
cong. 
Hình 2. Kết quả hiệu chỉnh camera 
Theo phương pháp toán học, IPM có thể 
được mô hình hóa như một phép chiếu từ 
một không gian 3D Euclide W, chứa các 
phần tử 
2, ,x y z R 
 thành một không 
gian con phẳng 2D của R , được biểu hiễn 
Hình 
ảnh/Video 
đầu vào 
Trích đặc 
trưng 
Xác định 
làn đường 
Xác định 
đối tượng 
- Hiệu chỉnh camera 
- Xác định vị trí lắp 
đặt camera 
- Tiền xử lý ảnh đầu 
vào 
- Sử dụng Image 
Label để tạo traning 
data 
- Sử dụng ACF để 
trích đặc trưng 
- Chuyển đổi hình ảnh 
thành hình ảnh mắt 
chim. 
- Xác định vùng để 
chuyển đổi 
- Tạo ảnh xám và lấy 
biên cho hình ảnh mắt 
chim. 
- Dò và nhận dạng 
đối tượng trên hình 
ảnh mắt chim. 
- Chuyển sang tọa độ 
thực 
- Lọc nhiễu bằng 
RANSAC 
- Dự đoán khoảng 
cách. 
Hình 1. Sơ đồ khối của phương pháp đề xuất 
Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 54 (09/2019) 
Trường Đại Học Sư Phạm Kỹ Thuật TP. Hồ Chí Minh 
35 
bởi I, với các thành phần 
2u, v R . Ánh 
xạ từ I sang W được tính như công thức (1) 
0 0
0 0
2 2
, cot cos
1 1
, 0
2 2
, cot cos
1 1
u v
u v
u v
u v
u v h u v l
m n
y u v
z u v h u v d
m n
x
  
  
  
    
  
  
    
   
(1) 
Hình 3. Hình ảnh từ kỹ thuật mắt chim sử 
dụng WPM và IPM [10] 
2.2.2. Phát hiện biên bằng kỹ thuật mắt chim 
Bằng việc so sánh điểm ảnh hiện tại với 
điểm ảnh kế bên để phát hiện ra cạnh của 
một hình ảnh. 
, , ,
, , ,
m
m
B x y b x y b x m y
B x y b x y b x m y
(2) 
Theo công thức (3), nếu hiệu của 2 điểm 
ảnh này lớn hơn một mức ngưỡng thì có thể 
phát hiện ra cạnh của làn đường. 
1, 0, 0, 0
,
0, otherwise
m m m mif B B and B B
r x y
 (3) 
Hình 4. Phát hiện biên [9] 
2.2.3. Dự đoán khoảng cách từ camera 
tới hình ảnh mắt chim 
Nhắc lại một số thông số khi chuyển đổi 
hình ảnh từ tầm nhìn sang hình ảnh mắt chim. 
- h là chiều cao của máy ảnh từ mặt đất, 
- θ0: góc được hình thành bởi trục quang 
học và trục ngang. 
- Góc quan sát của máy ảnh là 2αu theo 
hàng và 2αv theo cột. 
- γ0: góc được hình thành bởi phép chiếu 
của trục quang trên mặt phẳng xz 
- n x m là độ phân giải của máy ảnh 
- f là tiêu cự camera 
Hình 5. Cấu hình camera 
Ta có: 
1
0
1
tan 1 2 tan
1
H
v
r
m
 
(4) 
Từ công thức (4) có thể ước tính được vị 
trí của vật thể đang di chuyển trên đường với 
camera đơn gắn cố định với góc nghiêng xác 
định trước, được kí hiệu là rH. 
Hình 6. Vị trí (rH) của vật thể theo chiều 
ngang trong hình ảnh camera 
Các vị trí của các khoảng cách khác 
nhau phía trước xe trong hình ảnh mắt chim. 
Khu vực được sử dụng để xử lý tiếp theo 
được thể hiện bằng hình chữ nhật màu vàng 
chấm đứt nét. 
36 
Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 54 (09/2019) 
Trường Đại Học Sư Phạm Kỹ Thuật TP. Hồ Chí Minh 
2.3. Đặc trưng kênh tổng hợp (Aggregate 
Channel Features – ACF) 
Đặc trưng kênh tổng hợp (Aggregate 
Channel Features – ACF) được đề xuất bởi 
Dollar [10] sử dụng việc tra cứu điểm ảnh 
trong các kênh tổng hợp để giảm thời gian 
trích đặc trưng mà không cần xây dựng các 
ảnh tích phân. Hiệu quả phối hợp của các 
kênh đặc trưng và việc chiến lược lựa chọn 
đặc trưng bằng cách xếp chồng các bộ phân 
loại làm các khung cửa sổ ACF hoạt động tốt 
hơn hầu hết các phương pháp khác về cả độ 
chính xác, tốc độ xử lý và có cách thực hiện 
đơn giản hơn. 
2.3.1. Đặc điểm 
a. Tập dữ liệu huấn luyện 
Các dữ liệu huấn luyện (training data) 
được tạo từ Image Label Toolbox do Matlab hỗ 
trợ. Trong bài báo này, tập dữ liệu bao gồm: 
- Tập dữ liệu huấn luyện của xe máy: 207 
bức ảnh trong đó có một số bức ảnh có 
nhiều hơn một chiếc xe máy. 
- Tập dữ liệu huấn luyện của xe hơi: 331 
bức ảnh trong đó có một số bức ảnh có 
nhiều hơn một chiếc xe hơi. 
Hình 7. Tracking đối tượng cho dữ liệu huấn 
luyện xe máy và xe hơi 
b. Mô hình thực hiện 
Với hình I ngõ vào được tính toán với 
với một vài kênh C = Ω(I), tổng hợp mỗi 
khối pixel trong C, làm phẳng các kênh có độ 
phân giải thấp. Các đặc trưng được tra cứu 
trong các điểm ảnh đơn lẻ trong các kênh 
tổng hợp. Tăng cường được sử dụng để huấn 
luyện và kết hợp trên các tính năng này theo 
dạng cây để phân biệt đối tượng từ nền và sử 
dụng phương pháp tiếp cận đa cửa sổ trượt. 
Với sự lựa chọn thích hợp của các kênh và 
cấu trúc thiết kế đáng tin cậy, ACF đạt được 
hiệu quả tốt trong phát hiện người (hình 8). 
Hình 8. Mô hình ACF trong nhận dạng đối 
tượng 
Kênh (Channels) 
ACF sử dụng 10 kênh như sau: 
- Biên độ dốc (gradient magnitude): 1 
kênh, độ lớn:
 2 2, x yM x y I I . Với 
xI và y
I
là giá trị cường độ màu theo trục 
x và y tại vị trí thứ (x, y). 
- Hướng dốc (gradient histogram): 6 kênh, 
từ 0⁰ ~ 30⁰ ; 31⁰ ~ 60⁰ ; 61⁰ ~ 90⁰ ; 
91⁰ ~ 120⁰ ; 121⁰ ~ 150⁰ ; 151⁰ ~ 
180⁰ ). 
- Kênh màu LUV (3 kênh): L – độ sáng, U 
và V – giá trị của màu trong ảnh. Kênh 
màu LUV ít bị ảnh hưởng từ các điều 
kiện sáng khác nhau. 
Trước khi tính toán 10 kênh, hình ảnh 
ngõ vào I được làm phẳng với một bộ lọc có 
kích thước [1 2 1]/4. 
2.4. Thuật toán RANSAC 
Từ tập dữ liệu ban đầu, ta sẽ có hai loại 
dữ liệu nội tuyến và ngoại tuyến (outliers và 
(1)Hình ảnh 
ban đầu 
(2)Mở 
rộng kênh 
(3)Tổng 
hợp kênh 
(4)Trích xuất 
đặc trưng 
(5)Sắp xếp 
các đặc trưng 
3 
n 
p 
n 
p 
1 
nxnxp 
Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 54 (09/2019) 
Trường Đại Học Sư Phạm Kỹ Thuật TP. Hồ Chí Minh 
37 
inliers), vì thế ta phải đi tính toán để tìm ra 
mô hình tốt nhất cho tập dữ liệu. Việc tính 
toán và chọn ra mô hình tốt nhất sẽ được lặp 
đi lặp lại k lần, với giá trị được chọn sao cho 
đủ lớn để đảm bảo xác suất p (thường rơi vào 
giá trị 0.99) của tập dữ liệu mẫu ngẫu nhiên 
không chứa dữ liệu nhiễu. Nếu gọi u là ước 
lượng dữ liệu không nhiễu thì v = 1 – u là 
ước lượng dữ liệu nhiễu và m là số lượng dữ 
liệu đầu vào cần xây dựng mô hình. Khi đó: 
 1 1
k
mp u 
(5) 
k sẽ được tính theo công thức: 
log 1
log 1 1
m
p
k
v
(6) 
Kết quả thu được sẽ là mô hình cần xây 
dựng phù hợp nhất với dữ liệu đầu vào, tập các 
dữ liệu nhiễu và tập các dữ liệu không nhiễu. 
3. KẾT QUẢ THỰC NGHIỆM 
Để thực hiện việc phát hiện làn đường và 
các đối tượng trên đường, tác giả sử dụng 
những video trên đường thực tế trong đô thị, 
lưu lại bằng camera điện thoại với cảm biến 
chính có độ phân giải 13MP, khẩu độ f/2.2 và 
kích thước cảm biến lớn 1/3inch, xử lý 
offline bằng phần mềm Matlab 2018a, với 
cấu hình máy tính như sau: 
- System Information: Intel(R) Core(TM) 
i5-5200U CPU @ 2.20GHz (4 CPUs), 
~2.2GHz. Memory: 4096MB RAM. 
- Display Devices: Card name: NVIDIA 
GeForce 940M. Memory: 3994 MB 
Dữ liệu 1: Trên đường Phạm Văn Đồng, 
được quay lúc 12h trưa, với vị trí đặt của 
camera khoảng 1m7 tính từ mặt đất, góc 
nghiêng khoảng 10⁰ . 
Hình 9. Kết quả nhận dạng từ dữ liệu 1 
Dữ liệu 2: Trên đường Khu Công Nghệ 
cao quận 9, được quay lúc 16h, với vị trí đặt 
của camera khoảng 2m tính từ mặt đất, góc 
nghiêng khoảng 12⁰ . 
Hình 10. Kết quả nhận dạng từ dữ liệu 2 
Dữ liệu 3: Trên đường Lê Duẩn, trong 
điều kiện hơi âm u (có mưa), được quay lúc 
16h, với vị trí đặt của camera khoảng 2m tính 
từ mặt đất, góc nghiêng khoảng 4⁰ . 
38 
Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 54 (09/2019) 
Trường Đại Học Sư Phạm Kỹ Thuật TP. Hồ Chí Minh 
Hình 11. Kết quả nhận dạng từ dữ liệu 3 
Dữ liệu 4: trên đường Nam Kỳ Khởi 
Nghĩa, trong điều kiện hơi âm u (có mưa), 
được quay lúc 16h, với vị trí đặt của camera 
khoảng 2m tính từ mặt đất, góc nghiêng 
khoảng 4⁰ . 
Hình 12. Kết quả nhận dạng từ dữ liệu 4 
Trường hợp nhận dạng chưa chính 
xác: Làn đường có thể bị phát hiện chưa đúng 
do phụ thuộc vào cảm biến máy ảnh trong 
việc tạo hình ảnh mắt chim; nhận dạng sai 
giữa phương tiện là xe hơi hay xe máy hay 
không do dữ liệu huấn luyện không nhiều. 
Hình 13. Một số kết quả nhận dạng chưa 
chính xác 
Đánh giá độ chính xác 
Để đánh giá độ chính xác của kết quả 
nhận dạng, tác giả sử dụng thông số ROC 
(Receiver Operating Characteristic0, để xác 
định là phần nhận được có tín hiệu hay chỉ là 
do nhiễu. 
- True possitive (TP): Nếu kết quả từ dự 
đoán là có xe máy và giá trị thực tế cũng 
là có xe máy – Phân loại chính xác. 
- True negatives (TN): Xảy ra khi cả kết 
quả dự đoán và giá trị thực tế là không có 
xe máy. 
- False positives (FP): Nếu giá trị thực tế 
là không có xe máy thì nó được cho có x.e 
máy – phân loại không chính xác 
- False negatives (FN): Khi kết quả dự 
đoán là không có xe máy trong khi giá trị 
thực tế là có xe máy. 
Đánh giá độ chính xác theo công thức (7): 
TP TN
accuracy
P N
 (7) 
Bảng 1. Thống kê độ chính xác của 4 video 
clip trong vấn đề nhận dạng xe hơi, xe máy 
và làn đường 
 TP TN FP FN 
Video 1 
15 20 0 5 
ACC = 87.5 % 
Video 2 
18 10 10 2 
ACC = 70 % 
Video 3 
15 13 7 5 
ACC = 70 % 
Video 4 
16 16 4 4 
ACC = 80 % 
Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 54 (09/2019) 
Trường Đại Học Sư Phạm Kỹ Thuật TP. Hồ Chí Minh 
39 
Thời gian xử lý: Trong nghiên cứu này, 
tác giả đã thực nghiệm nhận dạng đối tượng 
offline từ các đoạn dữ liệu trên môi trường 
Matlab với thiết bị phần cứng là máy tính cá 
nhân với cấu hình trình bày bên trên. Các 
frame ảnh từ video đầu vào được điều chỉnh 
kích thước lại [480x320]. Thời gian nhận 
dạng các đối tượng trong ảnh xấp xỉ 0,03 
giây/ 1 frame. 
Bảng 2. So sánh độ chính xác lý của phương 
pháp sử dụng đặc trưng ACF và phương pháp 
dùng Adaboost kết hợp đặc trưng Haar liked 
Data Phương 
pháp dùng 
ACF 
Phương pháp 
dùng Adaboost 
kết hợp Haar 
liked 
Video 1 87.5 % 85.8% 
Video 2 70 % 69% 
Video 3 70 % 73.4% 
Video 4 80 % 78% 
Khi so sánh độ chính xác của phương 
pháp dùng đặc trưng ACF và phương pháp 
dùng bộ phân loại Adaboost kết hợp đặc 
trưng Haar like trên một số tập dữ liệu thực 
được khảo sát dễ dàng nhận thấy rằng đối với 
những đối tượng có cấu trúc đối xứng và 
hình khối độ chính xác nhận dạng dùng đặc 
trưng Haar like chiếm ưu thế, trong những 
trường hợp con lại, kết quả nhận dạng khi 
dùng đặc trưng ACF cho kết quả tốt hơn. 
4. KẾT LUẬN 
Nghiên cứu này đã đề xuất phương pháp 
và thực nghiệm nhận dạng các đối tượng 
trong môi trường ngoài trời phức tạp. Tác giả 
đã áp dụng được kỹ thuật ACF trong nhận 
dạng một số đối tượng tham gia giao thông 
phổ biến trên các tập dữ liệu đa dạng với điều 
kiện khác nhau. Đề tài cũng đã sử dụng kỹ 
thuật mắt chim đảo tầm nhìn của hình ảnh – 
IPM để phát hiện làn đường. Đề tài cũng dự 
đoán được khoảng cách từ camera đơn đến 
đối tượng phía trước. Nghiên cứu cũng đã 
trình bày cách sử dụng Camera Calibration 
Toolbox trong việc hiệu chỉnh camera và 
Image Label Toolbox để tạo các tập dữ liệu 
huấn luyện. Ngoài ra, đề tài cũng sử dụng 
thuật toán RANSAC trong việc loại bỏ nhiễu 
và sử dụng thông số ROC để đánh giá độ 
chính xác. 
Tuy nhiên, nghiên cứu vẫn còn một số 
hạn chế cần cải tiến trong thời gian sắp tới. 
Nghiên cứu chưa thực hiện trên các tập dữ 
liệu ban đêm hay đường đi dưới bóng cây 
(trong điều kiện thiếu ánh sáng). Dữ liệu 
huấn luyện còn hạn chế ảnh hưởng đến độ 
chính xác trong quá trình nhận dạng. Phần dự 
đoán khoảng cách chỉ sử dụng camera đơn 
nên cần sử dụng stereo camera để có kết quả 
chính xác hơn. Dựa vào những hạn chế này, 
đề tài có thể định hướng được hướng cải 
thiện và phát triển cho những nghiên cứu tiếp 
theo áp dụng trong lĩnh cảnh báo tai nạn, 
giao thông thông minh.
TÀI LIỆU THAM KHẢO 
[1] Yongzheng Xu, Guizhen Yu, Yunpeng Wang, Xinkai Wu, and Yalong Ma, “A Hybrid 
Vehicle Detection Method Based on Viola-Jones and HOG + SVM from UAV Images”, 
Sensors, 2016. 
[2] Nur Shazwani Aminuddin, Masrullizam Mat Ibrahim, Nursabillilah Mohd Ali, Syafeeza 
Ahmad Radzi, Wira Hidayat Mohd Saad & Abdul Majid Darsono, “A new approach to 
highway lane detection by using HOUGH transform technique”, Faculty of Electronic 
and Computer Engineering - Universiti Teknikal Malaysia Melaka, Malaysia, 2017. 
[3] Zhaojin Zhang, Cunlu Xu and Wei Feng, “Road Vehicle Detection and Classification 
based on Deep Neural Network”, IEEE, 2016. 
[4] Jeffrey de Deijn, “Automatic Car Damage Recognition using Convolutional Neural 
Networks”, Vrije Universiteit Amsterdam, 2018. 
40 
Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 54 (09/2019) 
Trường Đại Học Sư Phạm Kỹ Thuật TP. Hồ Chí Minh 
[5] Qingpeng Li, Lichao Mou, Qizhi Xu, Yun Zhang and Xiao Xiang Zhu, “R3-Net: A Deep 
Network for Multi-oriented Vehicle Detection in Aerial Images and Videos”, IEEE, 2018. 
[6] Daniel Neumann, Tobias Langner, Fritz Ulbrich, Dorothee Spitta and Daniel Goehring, 
“Online Vehicle Detection using Haar-like, LBP and HOG Feature based Image 
Classifiers with Stereo Vision Preselection” 
[7] Bin Yang, Junjie Yan, Zhen Lei, Stan Z. Li, “Aggregate Channel Features for Multi-view 
Face Detection”, Center for Biometrics and Security Research & National Laboratory of 
Pattern Recognition Institute of Automation, Chinese Academy of Sciences, China. 
[8] Piotr Doll, Ron Appel, Serge Belongie, and Pietro Perona. “Fast Feature Pyramids for 
Object Detection, Submission to IEEE transactions on Pattern Analysis and Machine 
Intelligence. 
[9] Ruyi Jiang, Mutsuhiro Terauchi, Reinhard Klette, Shigang Wang, and Tobi Vaudrey, 
“Low-level Image Processing for Lane Detection and Tracking”, Shanghai Jiao Tong 
University, Shanghai, China, Hiroshima International University, Japan, The University 
of Auckland, Auckland, New Zealand, pp. 3-7, 2009. 
[10] Piotr Dollar, Ron Appel, Serge Belongie, and Pietro Perona. “Fast Feature Pyramids for 
Object Detection”, IEEE, pp. 9-10, 2014. 
Tác giả chịu trách nhiệm bài viết: 
Lê Mỹ Hà 
Trường Đại học Sư phạm Kỹ thuật TP.HCM 
Email: halm@hmute.edu.vn 

File đính kèm:

  • pdfnhan_dang_doi_tuong_xuat_hien_vao_vung_nguy_hiem_phia_truoc.pdf