Nghiên cứu thuật toán học tăng cường sâu cho bài toán tìm kiếm cứu nạn trong môi trường mô phỏng 3-D Gazebo

Vấn đề tìm kiếm cứu nạn (TK-CN) là một yêu cầu rất cấp thiết ở trong

và ngoài Quân đội. Trong những môi trường đặc thù, như trong trận chiến hay

trong địa hình rừng núi phức tạp và nguy hiểm, đề giảm thiểu yếu tố nguy hiểm tới

người cứu hộ, việc sử dụng các robot đang là một xu thế tất yếu trong các hoạt

động TK-CN. Trong bài báo này, nhóm tác giả đề xuất một mô hình học tăng cường

sâu (DRL) để xây dựng hệ thống Trí tuệ nhân tạo (AI) cho robot di chuyển trên mặt

đất trong bài toán TK-CN. Trong mô hình học tăng cường sâu chúng tôi đề xuất sử

dụng dữ liệu ảnh từ camera và tín hiệu từ các sensors gắn trên robot.

pdf 9 trang thom 08/01/2024 220
Bạn đang xem tài liệu "Nghiên cứu thuật toán học tăng cường sâu cho bài toán tìm kiếm cứu nạn trong môi trường mô phỏng 3-D Gazebo", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Nghiên cứu thuật toán học tăng cường sâu cho bài toán tìm kiếm cứu nạn trong môi trường mô phỏng 3-D Gazebo

Nghiên cứu thuật toán học tăng cường sâu cho bài toán tìm kiếm cứu nạn trong môi trường mô phỏng 3-D Gazebo
Nghiên cứu khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 33
NGHIÊN CỨU THUẬT TOÁN HỌC TĂNG CƯỜNG SÂU 
CHO BÀI TOÁN TÌM KIẾM CỨU NẠN 
TRONG MÔI TRƯỜNG MÔ PHỎNG 3-D GAZEBO 
Lê Phú Cường1,*, Nguyễn Thế Hùng2, Lê Đình Sơn3, 
Phạm Quang Chiến3, Lại Phú Minh3 
Tóm tắt: Vấn đề tìm kiếm cứu nạn (TK-CN) là một yêu cầu rất cấp thiết ở trong 
và ngoài Quân đội. Trong những môi trường đặc thù, như trong trận chiến hay 
trong địa hình rừng núi phức tạp và nguy hiểm, đề giảm thiểu yếu tố nguy hiểm tới 
người cứu hộ, việc sử dụng các robot đang là một xu thế tất yếu trong các hoạt 
động TK-CN. Trong bài báo này, nhóm tác giả đề xuất một mô hình học tăng cường 
sâu (DRL) để xây dựng hệ thống Trí tuệ nhân tạo (AI) cho robot di chuyển trên mặt 
đất trong bài toán TK-CN. Trong mô hình học tăng cường sâu chúng tôi đề xuất sử 
dụng dữ liệu ảnh từ camera và tín hiệu từ các sensors gắn trên robot. Việc kết hợp 
giữa dữ liệu ảnh và tín hiệu sensor cho phép robot có khả năng di chuyển thông 
minh hơn so với một số hướng tiếp cận khác khi mà chỉ dùng dữ liệu ảnh hoặc tín 
hiệu sensor. Bên cạnh đó, chúng tôi cũng đưa ra một hàm giá trị trong mô hình 
được đề xuất giúp cho việc học của robot nhanh và đồng thời chính xác hơn. Môi 
trường thực nghiệm được xây dựng trên nền môi trường mô phỏng thế giới thực 3-D 
Gazebo mã nguồn mở. Các kết quả thu được chỉ ra rằng mô hình DRL được đề xuất 
trong bài báo là có tính khả thi khi robot vượt qua được những môi trường kiểm thử 
khác nhau. 
Từ khóa: Học tăng cường sâu (Deep reinforcement learning); Học sâu (Deep learning); Tìm kiếm và cứu nạn; 
Thiết bị tự hành. 
1. MỞ ĐẦU 
Học tăng cường (Reinforcement Learning hay RL) [1] là một lĩnh vực đã được 
thế giới nghiên cứu và phát triển từ lâu. Lịch sử phát triển của RL ban đầu được đi 
theo hai hướng độc lập. Trong đó, hướng thứ nhất phát triển theo phương pháp học 
dựa trên quá trình thử-sai “trial and error”; hướng thứ hai phát triển dựa trên cơ sở 
giải quyết các bài toán điều khiển tối ưu thông qua quy hoạch động và hàm giá trị 
(value function). Đến cuối những năm 1980, các hướng này được kết hợp lại với 
nhau và hình thành một ngành học mới mà hiện nay chúng ta gọi là RL. 
Trong những năm gần đây, chịu ảnh hưởng từ sự phát triển vượt bậc của AI nói 
chung và Deep learning (DL) [2] nói riêng, RL đã có những thành tựu mang tính 
chất bước ngoặt, có thể kể đến là sự ra đời của một hướng đi mới: Học tăng cường 
sâu (Deep Reinforcement Learning -DRL) [3]. DRL có thể nói là hoàn toàn tương 
tự như RL, điểm khác biệt duy nhất nằm ở việc ứng dụng DL trong RL. Trước đây, 
để tiến hành huấn luyện các mô hình của RL, các đại lượng biểu diễn trạng thái của 
môi trường (đóng vai trò mô tả môi trường, hoàn cảnh mà tác tử đang gặp phải) 
thường được xây dựng dựa vào kinh nghiệm của người phát triển. Rõ ràng, đối với 
môi trường có tính chất phức tạp, đa dạng, việc xây dựng các đại lượng này trở nên 
vô cùng khó khăn và khả năng xuất hiện thiếu sót là cao. Ngày nay, tận dụng khả 
năng tự học đặc trưng của DL, quá trình “mô tả” trạng thái của môi trường diễn ra 
hoàn toàn tự động và có độ tin cậy cao. Chính ưu điểm này đã đẩy RL nói chung 
lên một nấc thang mới, đồng thời tạo ra nhiều thành tựu, sản phẩm có tính đột phá, 
Công nghệ thông tin 
L. P. Cường, , L. P. Minh, “Nghiên cứu thuật toán học  mô phỏng 3-D Gazebo.” 34 
như: chương trình chơi cờ vây AlphaGo [4][5], các thiết bị bay hay dưới mặt đất 
không người lái (UAV) tự hành [6][7]. 
Bài toán tự hành tìm kiếm và cứu nạn đối tượng từ lâu đã là một trong các nhu 
cầu cần thiết đối với các hoạt động trong quân đội cũng như dân sự [8]. Đa phần 
công việc tìm kiếm phải diễn ra trong điều kiện môi trường phức tạp, gây nguy 
hiểm đến tính mạng con người. Do đó, việc nghiên cứu xây dựng các robot có khả 
năng hoạt động độc lập trong các điều kiện môi trường không biết trước là một yêu 
cầu cấp thiết hiện nay. 
Trong nội dung của bài báo, nhóm tác giả đề xuất một mô hình học tăng cường 
sâu (DRL) cho bài toán tự hành tìm kiếm và cứu nạn trong một môi trường có các 
chướng ngại vật. Môi trường thực nghiệm được xây dựng trên nền tảng mô phỏng 3-
D Gazebo [9]. Các kết quả thu được chỉ ra rằng mô hình đề xuất của chúng tôi cho 
phép thiết bị tự hành có khả năng đi đến được đích trong các môi trường khác nhau. 
Bài báo được cấu trúc như sau: Mục 2 trình bày về cơ sở lý thuyết, mục 3 đề 
xuất mô hình thuật toán học tăng cường sâu, mục 4 thực nghiệm và kết quả đạt 
được, mục 5 là kết luận và hướng phát triển tiếp theo. 
2. CƠ SỞ LÝ THUYẾT 
2.1. Học tăng cường (Reinforcement learning - RL) 
Học tăng cường được sử dụng để tính toán các chiến lược hành vi, hay còn gọi 
là chính sách (policy), để tối đa hoá một tiêu chí thoả mãn của bài toán – tổng phần 
thưởng dài hạn, bằng cách tương tác với môi trường thông qua thử nghiệm và lỗi 
(Hình 1). 
Hình 1. Giao thức tương tác giữa tác tử và môi trường. 
Một bài toán học tăng cường bao gồm một tác tử/đối tượng ra quyết định, gọi là 
agent, hoạt động trong một môi trường được mô hình hoá bởi trang thái ( st ∈	S). 
Agent có khả năng thực hiện hành động at ∈A(st), là một hàm của trạng thái hiện 
tại st. Sau khi chọn một hành động ở thời điểm t, agent nhận được một giá trị 
thưởng rt+1 ∈	R và chuyển sang một trạng thái mới st+1 phụ thuộc vào trạng thái 
hiện tại và hành động được chọn. 
Ở mỗi thời điểm, agent đi theo một chiến lược, gọi là chính sách πt, ánh xạ từ 
trạng thái đến xác suất chọn hành động: π(s,a) ký hiệu xác suất mà a=at nếu s=st 
Mục tiêu của học tăng cường là sử dụng các tương tác của agent với môi trường 
để suy ra (ước lượng) một chính sách tối ưu (optimal policy) để tối đa hoá lượng 
điểm thưởng nhận được bởi agent sau thời gian dài huấn luyện. 
Nghiên cứu khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 35
Hình 2. Ví dụ về học tăng cường trong bài toán robot dập lửa. 
Một quy trình quyết định Markov (MDP) là một ví dụ riêng của học tăng cường 
tại đó tập hợp trạng thái là hữu hạn, tập hợp hành động là hữu hạn, và môi trường 
thoả mãn tính Markov như sau: 
Công thức 1. Tính xác suất chuyển từ trạng thái tới trạng thái . 
Nói cách khác, xác suất đạt được trạng thái từ trạng thái bằng cách thực 
hiện hành động là độc lập với các hành động khác hoặc trạng thái khác trong quá 
khứ (trước thời điểm ). Như vậy, ta có thể biểu diễn một chuỗi các hành động, 
trạng thái, giá trị thưởng từ một MDP bởi một mạng quyết định (decision network) 
(xem Hình 3). 
Hình 3. Mạng quyết định biểu diễn một chu kỳ học (episode) trong MDP. 
Để tối đa hoá điểm thưởng tích luỹ dài hạn sau thời điểm hiện tại t, trong trường 
hợp thời gian hữu hạn (finite time horizon) kết thúc ở thời điểm T, kết quả Rt bằng: 
Công thức 2. Công thức tính giá trị thưởng trả về theo thời gian hữu hạn. 
Trong trường hợp thời gian vô hạn, thông thường người ta hay sử dụng kết quả 
khấu hao: 
Công nghệ thông tin 
L. P. Cường, , L. P. Minh, “Nghiên cứu thuật toán học  mô phỏng 3-D Gazebo.” 36 
Công thức 3. Công thức tính giá trị thưởng trả về theo thời gian vô hạn. 
Kết quả này sẽ hội tụ nếu ta giả định là điểm thưởng có giới hạn và γ < 1. Ở đây 
γ là một hằng số trong khoảng từ [0,1], và được gọi là hệ số khấu hao (discount 
factor). Nói chung ta sẽ sử dụng định nghĩa về khấu hao này cho kết quả trả về. 
Để tìm được chính sách tối ưu (optimal policy), một số thuật toán dựa trên các 
hàm giá trị (value functions), V(s), để biểu diễn agent được hưởng lợi như thế nào 
nếu đạt được một trạng thái s cho trước. Hàm này cung cấp cho mỗi trạng thái một 
giá trị ước lượng về điểm thưởng tiềm năng có thể đạt được ở tương lai tính từ 
trạng thái đó, và do đó nó phụ thuộc vào chính sách π được sử dụng thực tế bởi 
agent: 
Công thức 4. Tính giá trị của một trạng thái s. 
Trong đó Eπ [.] là giá trị kỳ vọng khi agent theo chính sách π, và t ở bất cứ thời 
điểm nào. 
Tương tự, ta định nghĩa giá trị của việc thực hiện hành động a trong trạng thái s 
dưới chính sách π là hàm hành động-giá trị Q: 
Công thức 5. Tính giá trị hành động của một trạng thái s. 
Chính sách tối ưu π* là một chính sách đạt được giá trị thưởng kỳ vọng dài hạn 
lớn nhất. Chính sách π được định nghĩa là bằng hoặc tốt hơn chính sách π' nếu giá 
trị kỳ vọng của nó lớn hơn hoặc bằng giá trị kỳ vọng của π' cho tất cả các trạng 
thái. Do vậy: 
Công thức 6. Chính sách tối ưu π* một trạng thái s. 
2.2. Thuật toán Học tăng cường sâu (Deep Q- learning - DQL) 
Thuật toán DQN nguyên gốc được trình bày trong bài báo [3], chúng tôi chỉ 
phân tích các điểm chính của thuật toán ở phần dưới. Trước đây, người ta biết rằng 
RL không ổn định hoặc thậm chí có hiện tượng phân kỳ khi hàm giá trị hành động 
được ước lượng với một hàm phi tuyến như các mạng nơron. Thuật toán DQN [3] 
ra đời đã có giải quyết một số vấn đề quan trọng: 
 Ổn định việc huấn luyện phép ước lượng hàm giá trị hành động với mạng 
nơron sâu (CNN) sử dụng thuật tái hiện trải nghiệm (experience replay) 
[10] và mạng mục tiêu; 
Nghiên cứu khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 37
 Thiết kế phương pháp RL đầu cuối end-to-end, chỉ với các pixel và điểm số 
trong game là đầu vào, do đó chỉ cần có kiến thức tối thiểu về lĩnh vực áp 
dụng; 
 Huấn luyện một mạng linh hoạt với cùng một thuật toán, kiến trúc mạng và 
các tham số để thực hiện tốt nhiều tác vụ khác nhau, ví dụ: 49 trò chơi Atari 
[11], và vượt qua các thuật toán trước đó thậm chí ở mức tương đương với 
trình độ chuyên nghiệp của con người. 
3. MÔ HÌNH HỌC TĂNG CƯỜNG SÂU CHO BÀI TOÁN TK-CN 
Trong mô hình học tăng cường sâu chúng tôi đề xuất được phát triển dựa trên 
nền thuật toán DQN [3]. Kiến trúc mạng trong mô hình được đề xuất (Hình 4), sẽ 
có 3 khối chính: khối xử lý ảnh từ camera gắn trên robot (chúng tôi gọi là khối 
CNNs); khối xử lý tín hiệu từ các sensors trên robot (khối Sensors); và khối cuối là 
một mạng sâu 2 lớp kết nối đầy đủ (khối FNNs). 
Hình 4. Mô hình học tăng cường sâu. 
Trong quá trình tương tác với môi trường (environment), qua mỗi bước robot 
thu được hình ảnh từ camera và tín hiệu sensor, sau đó dữ liệu này được lưu vào 
trong bộ đệm sử dụng lại (replay buffer). Đầu vào dữ liệu cho mô hình mạng được 
lấy từ bộ đệm trên. Với mô hình học tăng cường sâu được thiết kế như trên, cho 
phép xử lý đầy đủ các đầu vào dữ liệu từ robot như dữ liệu ảnh, tín hiệu 
LIDAR,; và dữ liệu sẽ được phân chia ra các khối riêng để xử lý, điều này giúp 
cho việc học hiệu quả hơn trước khi đẩy vào khối mạng sâu để cho ra các hành 
động của robot. Thông tin từ tín hiệu sensor sẽ giúp đưa ra chỉ dẫn thêm cho robot 
bên cạnh ảnh từ camera. Ví dụ như: robot khi nhìn thấy vật cản thông qua ảnh, 
robot có thể xác định được khoảng cách bao xa tới vật cản, từ đó robot có thể đưa 
ra quyết định tốt hơn để tránh vật cản. 
Công nghệ thông tin 
L. P. Cường, , L. P. Minh, “Nghiên cứu thuật toán học  mô phỏng 3-D Gazebo.” 38 
Thuật toán 1. Thuật toán thiết kế hàm giá trị F(r). 
Trong bài báo này, chúng tôi nghiên cứu đề xuất một hàm giá trị F(r) (reward 
function) cho mô hình học tăng cường sâu trên. Chi tiết về hàm giá trị F(r) được 
miêu tả trong Thuật toán 1. Dữ liệu đầu vào cho mô hình học tăng cường sâu của 
chúng tôi bao gồm dữ liệu ảnh và sensors. Dữ liệu ảnh được xử lý qua khối mạng 
học sâu CNN, khi đó đầu vào mạng bao gồm một ảnh 84x84x4 được tạo ra từ ánh xạ 
tiền xử lý ϕ. Lớp ẩn đầu tiên là lớp tích chập (convolutional) gồm 32 bộ lọc 8x8 với 
bước trượt stride = 4 trên ảnh đầu vào và áp dụng chỉnh lưu phi tuyến (rectifier 
nonlinearity). Lớp ẩn thứ hai là lớp tích chập 64 bộ lọc 4x4 với stride 2, và chỉnh lưu 
phi tuyến. Tiếp theo là một lớp liên kết thứ ba kết hợp 64 bộ lọc 3x3 với stride 1 và 
chỉnh lưu. Trong khi đó dữ liệu sensors qua khối Sensors sẽ cho ra 6 giá trị số liên 
tục: một là khoảng cách từ robot tới mục tiêu, góc giữa robot và mục tiêu, vận tốc x 
và z của robot, và cuối cùng là khoảng cách và góc giữa robot và vật cản gần nhất. 
4. THỰC NGHIỆM VÀ KẾT QUẢ 
4.1. Thiết kế môi trường thực nghiệm 
Trong bài báo, môi trường học được thiết kế trên nền tảng mô phỏng 3-D 
Gazebo [9]. Môi trường bao gồm một số vật cản được đặt cố định ở các vị trí khác 
nhau; mục tiêu đích được khởi tạo cố định ở một vị trí (ta gọi vị trí đích, vị trí này 
khác với các vị trí của các vật cản); vị trí bắt đầu của agent được khởi tạo cố định 
trong môi trường và khác với những vị trị vật cản và vị trí đích. Chúng tôi muốn 
tăng độ khó trong nhiệm vụ tìm kiếm, do đó, vị trí của các vật cản được đặt giữa vị 
trí đích và vị trí bắt đầu, khi đó agent cần phải vượt qua tất cả vật cản trước khi 
vươn tới mục tiêu hay đích. Môi trường được sử dụng để huấn luyện agent bao 
gồm 3 vật cản (là các khối hình chứ nhật màu đen), mục tiêu là hình trụ màu đỏ, và 
bao xung quanh là tường có màu xám. Môi trường thử nghiệm trên phần mềm 3D 
Gazebo bao gồm một phòng kín, có tường bao, trong phòng có 03 vật cản có kích 
thước tương đương với robot. Mục tiêu tìm kiếm là một khối hình trụ, có màu đỏ. 
Nghiên cứu khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 39
Vị trí của các vật cản, mục tiêu sẽ được thay đổi ở nhiều vị trí khác nhau trong 
trường hợp learning và testing. Hình 5 dưới đây mô tả chính xác môi trường huấn 
luyện trong bài báo. 
Hình 5. Môi trường huấn luyện. 
Chúng tôi sử dụng thư viện nguồn mới Tensorflow [12] và Keras [13] để thiết 
kế các mạng học sâu cho mô hình thuật toán được đề xuất. Giao thức tương tác 
giữa agent và môi trường là thông qua hệ điều hành dành cho robotic (Robotic 
operating system - ROS) [14]. Tham số huấn luyện cho mô hình học tăng cường 
sâu là được miêu tả trong Bảng 1. 
 Bảng 1. Tham số trong mô hình học tăng cường sâu. 
Tham số Giá trị 
Gamma 0.9 
Tốc độ học (Learning rate) 0.0025 
Epsilon khởi tạo ban đầu 1 
Epsilon nhỏ nhất (Epsilon min) 0.1 
Tốc độ giảm epsilon 0.95 
Minibatch 32 
Replay memory D 10000 
Sau khi huấn luyện mô hình thuật toán của chúng tôi thực hiện kiểm thử trên 
các môi trường khác với môi trường huấn luyện. Trong bài báo, chúng tôi xây 
dựng 02 môi trường kiểm thử khác nhau (được thể hiện trong Hình 6, 7 với vị trí 
của vật cản là được thay đổi). Robot được kiểm thử trên 02 môi trường trên, và kết 
quả cho thấy robot có thể vượt qua các vật cản và vươn tới mục tiêu đích. So việc 
chỉ dùng dữ liệu ảnh hoặc tín hiệu sensor khi mà robot không thể vượt vươn tới 
mục tiêu, Hình 6 và 7 chỉ ra đường đi của robot trong những môi trường kiểm thử 
được huấn luyện bằng mô hình được đề xuất có thể dễ dàng vươn tới mục tiêu 
đích, và đường đi gần như là đường đi ngắn nhất. 
Hình 6. Đường đi của robot trong môi trường kiểm thử thứ nhất. 
Công nghệ thông tin 
L. P. Cường, , L. P. Minh, “Nghiên cứu thuật toán học  mô phỏng 3-D Gazebo.” 40 
Hình 7. Đường đi của robot trong môi trường kiểm thử thứ 2. 
5. KẾT LUẬN 
Trong bài này chúng tôi đã trình bày những vấn đề cơ sở lý thuyết tổng quan 
về hướng tiếp cận học tăng cường sâu, cũng như nhu cầu cấp thiết trong bài toán 
tìm kiếm cứu nạn. Đề xuất một mô hình học tăng cường sâu cho thiết bị tự hành 
trong bài toán tìm kiếm cứu nạn. Hiệu quả của việc đề xuất này đã được chứng 
minh khi robot sau khi đươc huấn luyện có thể vượt qua được các môi trường 
kiểm thử khác nhau. 
TÀI LIỆU THAM KHẢO 
[1]. Sutton.R.S., Barto.A.G, “Reinforcement Learning: An Introduction”. MIT 
Press, Cambridge (1998). 
[2]. Schmidhuber.J, “Deep learning in neural networks: an overview.”, Neural 
Netw. 61, 85–117 (2015). 
[3]. Mnih.V, et al, “Human-level control through deep reinforcement learning”, 
Nature. 518(7540), 529–533 (2015). 
[4]. Silver, D., et al, “Mastering the game of go with deep neural networks and 
tree search”, Nature 529(7587), 484–489 (2016). 
[5]. Silver, D., et al. “Mastering the game of go without human knowledge”, 
Nature 550(7676), 354 (2017). 
[6]. Kober.J, Bagnell.J.A, Peters.J., “Reinforcement learning in robotics: a 
survey”, Int. J. Robot. Res. 32, 1238–1274 (2013). p. 0278364913495721. 
[7]. Ng. A.Y, et al, “Autonomous inverted helicopter flight via reinforcement 
learning”, In: Ang, M.H., Khatib, O. (eds.) Experimental Robotics IX. 
STAR, vol. 21, pp. 363–372. Springer, Heidelberg (2006). 
https://doi.org/10.1007/11552246 35. 
[8]. Liu Yugang, and Goldie Nejat. "Multirobot cooperative learning for 
semiautonomous control in urban search and rescue applications." Journal of 
Field Robotics 33.4 (2016): 512-536. 
[9]. Koenig, Nathan P., and Andrew Howard. "Design and use paradigms for 
Gazebo, an open-source multi-robot simulator." IROS. Vol. 4. 2004. 
[10]. Lin, Long-Ji. "Self-improving reactive agents based on reinforcement learning, 
planning and teaching." Machine learning 8.3-4 (1992): 293-321. 
[11]. Mnih, Volodymyr, et al. "Playing atari with deep reinforcement learning." arXiv 
preprint arXiv:1312.5602 (2013). 
[12].Abadi, Martín, et al. "Tensorflow: a system for large-scale machine 
Nghiên cứu khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 41
learning." OSDI. Vol. 16. 2016. 
[13]. Chollet, François. "Keras." (2015). 
[14].Quigley, Morgan, et al. "ROS: an open-source Robot Operating 
System." ICRA workshop on open source software. Vol. 3. No. 3.2. 2009. 
ABSTRACT 
DOING A RESEARCH ON DEEP REINFORCEMENT LEARNING 
FOR THE SEARCH AND RESCUE PROBLEM IN 3D-GAZEBO 
SIMULATION ENVIRONMENT 
The problem of rescue and search is a necessary requirement not only in 
military but also in civilian areas. In special environments such as in battlefield or 
in complex and dangerous mountain-forest terrains, using robots to reduce the 
unexpected factors, which might cause dangers to rescuers, has been being 
promising for the search and rescue operations. In this paper, we propose a Deep 
reinforcement learning (DRL) model allowing develop an artificial intelligence 
system for an unmanned ground vehicle (UGV) in the search and rescue problem. 
In our proposed model, the camera-image and sensors data is extracted when the 
robot is operating. The combination between image and sensors data enables the 
UGV be able to operate smarter than the traditional approaches in which only 
image or sensors data is used for training. Additionally, in this paper we also 
provide a reward function helping to increase the leaning time of the UGV as well 
as the learning efficiency. An experimental environment is designed on the open-
source 3-D simulation framework, namely Gazebo, and the robot operating system 
(ROS). The results show that our proposed DRL model is feasible and practical 
when the UGV is able to pass various testing environments. 
Từ khóa: Deep reinforcement learning; Deep learning; Search and rescue; Unmanned ground vehicle (UGV). 
Nhận bài ngày 16 tháng 08 năm 2018 
Hoàn thiện ngày 06 tháng 11 năm 2018 
Chấp nhận đăng ngày 18 tháng 3 năm 2019 
Địa chỉ: 1 Viện Công nghệ thông tin, Viện KHCNQS, Bộ Quốc phòng; 
 2 Bộ Tư lệnh 86, Bộ Quốc phòng; 
 3 Bệnh viện TWQĐ 108, Bộ Quốc phòng. 
 * Email: cuongle1981@gmail.com. 

File đính kèm:

  • pdfnghien_cuu_thuat_toan_hoc_tang_cuong_sau_cho_bai_toan_tim_ki.pdf