Nghiên cứu thuật toán học tăng cường sâu cho bài toán tìm kiếm cứu nạn trong môi trường mô phỏng 3-D Gazebo

Vấn đề tìm kiếm cứu nạn (TK-CN) là một yêu cầu rất cấp thiết ở trong

và ngoài Quân đội. Trong những môi trường đặc thù, như trong trận chiến hay

trong địa hình rừng núi phức tạp và nguy hiểm, đề giảm thiểu yếu tố nguy hiểm tới

người cứu hộ, việc sử dụng các robot đang là một xu thế tất yếu trong các hoạt

động TK-CN. Trong bài báo này, nhóm tác giả đề xuất một mô hình học tăng cường

sâu (DRL) để xây dựng hệ thống Trí tuệ nhân tạo (AI) cho robot di chuyển trên mặt

đất trong bài toán TK-CN. Trong mô hình học tăng cường sâu chúng tôi đề xuất sử

dụng dữ liệu ảnh từ camera và tín hiệu từ các sensors gắn trên robot.

9 trang thom 08/01/2024 5700

Download

Bạn đang xem tài liệu "Nghiên cứu thuật toán học tăng cường sâu cho bài toán tìm kiếm cứu nạn trong môi trường mô phỏng 3-D Gazebo", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Nghiên cứu thuật toán học tăng cường sâu cho bài toán tìm kiếm cứu nạn trong môi trường mô phỏng 3-D Gazebo

Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 33
NGHIÊN CỨU THUẬT TOÁN HỌC TĂNG CƯỜNG SÂU
CHO BÀI TOÁN TÌM KIẾM CỨU NẠN
TRONG MÔI TRƯỜNG MÔ PHỎNG 3-D GAZEBO
Lê Phú Cường1,*, Nguyễn Thế Hùng2, Lê Đình Sơn3,
Phạm Quang Chiến3, Lại Phú Minh3
Tóm tắt: Vấn đề tìm kiếm cứu nạn (TK-CN) là một yêu cầu rất cấp thiết ở trong
và ngoài Quân đội. Trong những môi trường đặc thù, như trong trận chiến hay
trong địa hình rừng núi phức tạp và nguy hiểm, đề giảm thiểu yếu tố nguy hiểm tới
người cứu hộ, việc sử dụng các robot đang là một xu thế tất yếu trong các hoạt
động TK-CN. Trong bài báo này, nhóm tác giả đề xuất một mô hình học tăng cường
sâu (DRL) để xây dựng hệ thống Trí tuệ nhân tạo (AI) cho robot di chuyển trên mặt
đất trong bài toán TK-CN. Trong mô hình học tăng cường sâu chúng tôi đề xuất sử
dụng dữ liệu ảnh từ camera và tín hiệu từ các sensors gắn trên robot. Việc kết hợp
giữa dữ liệu ảnh và tín hiệu sensor cho phép robot có khả năng di chuyển thông
minh hơn so với một số hướng tiếp cận khác khi mà chỉ dùng dữ liệu ảnh hoặc tín
hiệu sensor. Bên cạnh đó, chúng tôi cũng đưa ra một hàm giá trị trong mô hình
được đề xuất giúp cho việc học của robot nhanh và đồng thời chính xác hơn. Môi
trường thực nghiệm được xây dựng trên nền môi trường mô phỏng thế giới thực 3-D
Gazebo mã nguồn mở. Các kết quả thu được chỉ ra rằng mô hình DRL được đề xuất
trong bài báo là có tính khả thi khi robot vượt qua được những môi trường kiểm thử
khác nhau.
Từ khóa: Học tăng cường sâu (Deep reinforcement learning); Học sâu (Deep learning); Tìm kiếm và cứu nạn;
Thiết bị tự hành.
1. MỞ ĐẦU
Học tăng cường (Reinforcement Learning hay RL) [1] là một lĩnh vực đã được
thế giới nghiên cứu và phát triển từ lâu. Lịch sử phát triển của RL ban đầu được đi
theo hai hướng độc lập. Trong đó, hướng thứ nhất phát triển theo phương pháp học
dựa trên quá trình thử-sai “trial and error”; hướng thứ hai phát triển dựa trên cơ sở
giải quyết các bài toán điều khiển tối ưu thông qua quy hoạch động và hàm giá trị
(value function). Đến cuối những năm 1980, các hướng này được kết hợp lại với
nhau và hình thành một ngành học mới mà hiện nay chúng ta gọi là RL.
Trong những năm gần đây, chịu ảnh hưởng từ sự phát triển vượt bậc của AI nói
chung và Deep learning (DL) [2] nói riêng, RL đã có những thành tựu mang tính
chất bước ngoặt, có thể kể đến là sự ra đời của một hướng đi mới: Học tăng cường
sâu (Deep Reinforcement Learning -DRL) [3]. DRL có thể nói là hoàn toàn tương
tự như RL, điểm khác biệt duy nhất nằm ở việc ứng dụng DL trong RL. Trước đây,
để tiến hành huấn luyện các mô hình của RL, các đại lượng biểu diễn trạng thái của
môi trường (đóng vai trò mô tả môi trường, hoàn cảnh mà tác tử đang gặp phải)
thường được xây dựng dựa vào kinh nghiệm của người phát triển. Rõ ràng, đối với
môi trường có tính chất phức tạp, đa dạng, việc xây dựng các đại lượng này trở nên
vô cùng khó khăn và khả năng xuất hiện thiếu sót là cao. Ngày nay, tận dụng khả
năng tự học đặc trưng của DL, quá trình “mô tả” trạng thái của môi trường diễn ra
hoàn toàn tự động và có độ tin cậy cao. Chính ưu điểm này đã đẩy RL nói chung
lên một nấc thang mới, đồng thời tạo ra nhiều thành tựu, sản phẩm có tính đột phá,
Công nghệ thông tin
L. P. Cường, , L. P. Minh, “Nghiên cứu thuật toán học mô phỏng 3-D Gazebo.” 34
như: chương trình chơi cờ vây AlphaGo [4][5], các thiết bị bay hay dưới mặt đất
không người lái (UAV) tự hành [6][7].
Bài toán tự hành tìm kiếm và cứu nạn đối tượng từ lâu đã là một trong các nhu
cầu cần thiết đối với các hoạt động trong quân đội cũng như dân sự [8]. Đa phần
công việc tìm kiếm phải diễn ra trong điều kiện môi trường phức tạp, gây nguy
hiểm đến tính mạng con người. Do đó, việc nghiên cứu xây dựng các robot có khả
năng hoạt động độc lập trong các điều kiện môi trường không biết trước là một yêu
cầu cấp thiết hiện nay.
Trong nội dung của bài báo, nhóm tác giả đề xuất một mô hình học tăng cường
sâu (DRL) cho bài toán tự hành tìm kiếm và cứu nạn trong một môi trường có các
chướng ngại vật. Môi trường thực nghiệm được xây dựng trên nền tảng mô phỏng 3-
D Gazebo [9]. Các kết quả thu được chỉ ra rằng mô hình đề xuất của chúng tôi cho
phép thiết bị tự hành có khả năng đi đến được đích trong các môi trường khác nhau.
Bài báo được cấu trúc như sau: Mục 2 trình bày về cơ sở lý thuyết, mục 3 đề
xuất mô hình thuật toán học tăng cường sâu, mục 4 thực nghiệm và kết quả đạt
được, mục 5 là kết luận và hướng phát triển tiếp theo.
2. CƠ SỞ LÝ THUYẾT
2.1. Học tăng cường (Reinforcement learning - RL)
Học tăng cường được sử dụng để tính toán các chiến lược hành vi, hay còn gọi
là chính sách (policy), để tối đa hoá một tiêu chí thoả mãn của bài toán – tổng phần
thưởng dài hạn, bằng cách tương tác với môi trường thông qua thử nghiệm và lỗi
(Hình 1).
Hình 1. Giao thức tương tác giữa tác tử và môi trường.
Một bài toán học tăng cường bao gồm một tác tử/đối tượng ra quyết định, gọi là
agent, hoạt động trong một môi trường được mô hình hoá bởi trang thái ( st ∈ S).
Agent có khả năng thực hiện hành động at ∈A(st), là một hàm của trạng thái hiện
tại st. Sau khi chọn một hành động ở thời điểm t, agent nhận được một giá trị
thưởng rt+1 ∈ R và chuyển sang một trạng thái mới st+1 phụ thuộc vào trạng thái
hiện tại và hành động được chọn.
Ở mỗi thời điểm, agent đi theo một chiến lược, gọi là chính sách πt, ánh xạ từ
trạng thái đến xác suất chọn hành động: π(s,a) ký hiệu xác suất mà a=at nếu s=st
Mục tiêu của học tăng cường là sử dụng các tương tác của agent với môi trường
để suy ra (ước lượng) một chính sách tối ưu (optimal policy) để tối đa hoá lượng
điểm thưởng nhận được bởi agent sau thời gian dài huấn luyện.
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 35
Hình 2. Ví dụ về học tăng cường trong bài toán robot dập lửa.
Một quy trình quyết định Markov (MDP) là một ví dụ riêng của học tăng cường
tại đó tập hợp trạng thái là hữu hạn, tập hợp hành động là hữu hạn, và môi trường
thoả mãn tính Markov như sau:
Công thức 1. Tính xác suất chuyển từ trạng thái tới trạng thái .
Nói cách khác, xác suất đạt được trạng thái từ trạng thái bằng cách thực
hiện hành động là độc lập với các hành động khác hoặc trạng thái khác trong quá
khứ (trước thời điểm ). Như vậy, ta có thể biểu diễn một chuỗi các hành động,
trạng thái, giá trị thưởng từ một MDP bởi một mạng quyết định (decision network)
(xem Hình 3).
Hình 3. Mạng quyết định biểu diễn một chu kỳ học (episode) trong MDP.
Để tối đa hoá điểm thưởng tích luỹ dài hạn sau thời điểm hiện tại t, trong trường
hợp thời gian hữu hạn (finite time horizon) kết thúc ở thời điểm T, kết quả Rt bằng:
Công thức 2. Công thức tính giá trị thưởng trả về theo thời gian hữu hạn.
Trong trường hợp thời gian vô hạn, thông thường người ta hay sử dụng kết quả
khấu hao:
Công nghệ thông tin
L. P. Cường, , L. P. Minh, “Nghiên cứu thuật toán học mô phỏng 3-D Gazebo.” 36
Công thức 3. Công thức tính giá trị thưởng trả về theo thời gian vô hạn.
Kết quả này sẽ hội tụ nếu ta giả định là điểm thưởng có giới hạn và γ < 1. Ở đây
γ là một hằng số trong khoảng từ [0,1], và được gọi là hệ số khấu hao (discount
factor). Nói chung ta sẽ sử dụng định nghĩa về khấu hao này cho kết quả trả về.
Để tìm được chính sách tối ưu (optimal policy), một số thuật toán dựa trên các
hàm giá trị (value functions), V(s), để biểu diễn agent được hưởng lợi như thế nào
nếu đạt được một trạng thái s cho trước. Hàm này cung cấp cho mỗi trạng thái một
giá trị ước lượng về điểm thưởng tiềm năng có thể đạt được ở tương lai tính từ
trạng thái đó, và do đó nó phụ thuộc vào chính sách π được sử dụng thực tế bởi
agent:
Công thức 4. Tính giá trị của một trạng thái s.
Trong đó Eπ [.] là giá trị kỳ vọng khi agent theo chính sách π, và t ở bất cứ thời
điểm nào.
Tương tự, ta định nghĩa giá trị của việc thực hiện hành động a trong trạng thái s
dưới chính sách π là hàm hành động-giá trị Q:
Công thức 5. Tính giá trị hành động của một trạng thái s.
Chính sách tối ưu π* là một chính sách đạt được giá trị thưởng kỳ vọng dài hạn
lớn nhất. Chính sách π được định nghĩa là bằng hoặc tốt hơn chính sách π' nếu giá
trị kỳ vọng của nó lớn hơn hoặc bằng giá trị kỳ vọng của π' cho tất cả các trạng
thái. Do vậy:
Công thức 6. Chính sách tối ưu π* một trạng thái s.
2.2. Thuật toán Học tăng cường sâu (Deep Q- learning - DQL)
Thuật toán DQN nguyên gốc được trình bày trong bài báo [3], chúng tôi chỉ
phân tích các điểm chính của thuật toán ở phần dưới. Trước đây, người ta biết rằng
RL không ổn định hoặc thậm chí có hiện tượng phân kỳ khi hàm giá trị hành động
được ước lượng với một hàm phi tuyến như các mạng nơron. Thuật toán DQN [3]
ra đời đã có giải quyết một số vấn đề quan trọng:
 Ổn định việc huấn luyện phép ước lượng hàm giá trị hành động với mạng
nơron sâu (CNN) sử dụng thuật tái hiện trải nghiệm (experience replay)
[10] và mạng mục tiêu;
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 37
 Thiết kế phương pháp RL đầu cuối end-to-end, chỉ với các pixel và điểm số
trong game là đầu vào, do đó chỉ cần có kiến thức tối thiểu về lĩnh vực áp
dụng;
 Huấn luyện một mạng linh hoạt với cùng một thuật toán, kiến trúc mạng và
các tham số để thực hiện tốt nhiều tác vụ khác nhau, ví dụ: 49 trò chơi Atari
[11], và vượt qua các thuật toán trước đó thậm chí ở mức tương đương với
trình độ chuyên nghiệp của con người.
3. MÔ HÌNH HỌC TĂNG CƯỜNG SÂU CHO BÀI TOÁN TK-CN
Trong mô hình học tăng cường sâu chúng tôi đề xuất được phát triển dựa trên
nền thuật toán DQN [3]. Kiến trúc mạng trong mô hình được đề xuất (Hình 4), sẽ
có 3 khối chính: khối xử lý ảnh từ camera gắn trên robot (chúng tôi gọi là khối
CNNs); khối xử lý tín hiệu từ các sensors trên robot (khối Sensors); và khối cuối là
một mạng sâu 2 lớp kết nối đầy đủ (khối FNNs).
Hình 4. Mô hình học tăng cường sâu.
Trong quá trình tương tác với môi trường (environment), qua mỗi bước robot
thu được hình ảnh từ camera và tín hiệu sensor, sau đó dữ liệu này được lưu vào
trong bộ đệm sử dụng lại (replay buffer). Đầu vào dữ liệu cho mô hình mạng được
lấy từ bộ đệm trên. Với mô hình học tăng cường sâu được thiết kế như trên, cho
phép xử lý đầy đủ các đầu vào dữ liệu từ robot như dữ liệu ảnh, tín hiệu
LIDAR,; và dữ liệu sẽ được phân chia ra các khối riêng để xử lý, điều này giúp
cho việc học hiệu quả hơn trước khi đẩy vào khối mạng sâu để cho ra các hành
động của robot. Thông tin từ tín hiệu sensor sẽ giúp đưa ra chỉ dẫn thêm cho robot
bên cạnh ảnh từ camera. Ví dụ như: robot khi nhìn thấy vật cản thông qua ảnh,
robot có thể xác định được khoảng cách bao xa tới vật cản, từ đó robot có thể đưa
ra quyết định tốt hơn để tránh vật cản.
Công nghệ thông tin
L. P. Cường, , L. P. Minh, “Nghiên cứu thuật toán học mô phỏng 3-D Gazebo.” 38
Thuật toán 1. Thuật toán thiết kế hàm giá trị F(r).
Trong bài báo này, chúng tôi nghiên cứu đề xuất một hàm giá trị F(r) (reward
function) cho mô hình học tăng cường sâu trên. Chi tiết về hàm giá trị F(r) được
miêu tả trong Thuật toán 1. Dữ liệu đầu vào cho mô hình học tăng cường sâu của
chúng tôi bao gồm dữ liệu ảnh và sensors. Dữ liệu ảnh được xử lý qua khối mạng
học sâu CNN, khi đó đầu vào mạng bao gồm một ảnh 84x84x4 được tạo ra từ ánh xạ
tiền xử lý ϕ. Lớp ẩn đầu tiên là lớp tích chập (convolutional) gồm 32 bộ lọc 8x8 với
bước trượt stride = 4 trên ảnh đầu vào và áp dụng chỉnh lưu phi tuyến (rectifier
nonlinearity). Lớp ẩn thứ hai là lớp tích chập 64 bộ lọc 4x4 với stride 2, và chỉnh lưu
phi tuyến. Tiếp theo là một lớp liên kết thứ ba kết hợp 64 bộ lọc 3x3 với stride 1 và
chỉnh lưu. Trong khi đó dữ liệu sensors qua khối Sensors sẽ cho ra 6 giá trị số liên
tục: một là khoảng cách từ robot tới mục tiêu, góc giữa robot và mục tiêu, vận tốc x
và z của robot, và cuối cùng là khoảng cách và góc giữa robot và vật cản gần nhất.
4. THỰC NGHIỆM VÀ KẾT QUẢ
4.1. Thiết kế môi trường thực nghiệm
Trong bài báo, môi trường học được thiết kế trên nền tảng mô phỏng 3-D
Gazebo [9]. Môi trường bao gồm một số vật cản được đặt cố định ở các vị trí khác
nhau; mục tiêu đích được khởi tạo cố định ở một vị trí (ta gọi vị trí đích, vị trí này
khác với các vị trí của các vật cản); vị trí bắt đầu của agent được khởi tạo cố định
trong môi trường và khác với những vị trị vật cản và vị trí đích. Chúng tôi muốn
tăng độ khó trong nhiệm vụ tìm kiếm, do đó, vị trí của các vật cản được đặt giữa vị
trí đích và vị trí bắt đầu, khi đó agent cần phải vượt qua tất cả vật cản trước khi
vươn tới mục tiêu hay đích. Môi trường được sử dụng để huấn luyện agent bao
gồm 3 vật cản (là các khối hình chứ nhật màu đen), mục tiêu là hình trụ màu đỏ, và
bao xung quanh là tường có màu xám. Môi trường thử nghiệm trên phần mềm 3D
Gazebo bao gồm một phòng kín, có tường bao, trong phòng có 03 vật cản có kích
thước tương đương với robot. Mục tiêu tìm kiếm là một khối hình trụ, có màu đỏ.
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 39
Vị trí của các vật cản, mục tiêu sẽ được thay đổi ở nhiều vị trí khác nhau trong
trường hợp learning và testing. Hình 5 dưới đây mô tả chính xác môi trường huấn
luyện trong bài báo.
Hình 5. Môi trường huấn luyện.
Chúng tôi sử dụng thư viện nguồn mới Tensorflow [12] và Keras [13] để thiết
kế các mạng học sâu cho mô hình thuật toán được đề xuất. Giao thức tương tác
giữa agent và môi trường là thông qua hệ điều hành dành cho robotic (Robotic
operating system - ROS) [14]. Tham số huấn luyện cho mô hình học tăng cường
sâu là được miêu tả trong Bảng 1.
Bảng 1. Tham số trong mô hình học tăng cường sâu.
Tham số Giá trị
Gamma 0.9
Tốc độ học (Learning rate) 0.0025
Epsilon khởi tạo ban đầu 1
Epsilon nhỏ nhất (Epsilon min) 0.1
Tốc độ giảm epsilon 0.95
Minibatch 32
Replay memory D 10000
Sau khi huấn luyện mô hình thuật toán của chúng tôi thực hiện kiểm thử trên
các môi trường khác với môi trường huấn luyện. Trong bài báo, chúng tôi xây
dựng 02 môi trường kiểm thử khác nhau (được thể hiện trong Hình 6, 7 với vị trí
của vật cản là được thay đổi). Robot được kiểm thử trên 02 môi trường trên, và kết
quả cho thấy robot có thể vượt qua các vật cản và vươn tới mục tiêu đích. So việc
chỉ dùng dữ liệu ảnh hoặc tín hiệu sensor khi mà robot không thể vượt vươn tới
mục tiêu, Hình 6 và 7 chỉ ra đường đi của robot trong những môi trường kiểm thử
được huấn luyện bằng mô hình được đề xuất có thể dễ dàng vươn tới mục tiêu
đích, và đường đi gần như là đường đi ngắn nhất.
Hình 6. Đường đi của robot trong môi trường kiểm thử thứ nhất.
Công nghệ thông tin
L. P. Cường, , L. P. Minh, “Nghiên cứu thuật toán học mô phỏng 3-D Gazebo.” 40
Hình 7. Đường đi của robot trong môi trường kiểm thử thứ 2.
5. KẾT LUẬN
Trong bài này chúng tôi đã trình bày những vấn đề cơ sở lý thuyết tổng quan
về hướng tiếp cận học tăng cường sâu, cũng như nhu cầu cấp thiết trong bài toán
tìm kiếm cứu nạn. Đề xuất một mô hình học tăng cường sâu cho thiết bị tự hành
trong bài toán tìm kiếm cứu nạn. Hiệu quả của việc đề xuất này đã được chứng
minh khi robot sau khi đươc huấn luyện có thể vượt qua được các môi trường
kiểm thử khác nhau.
TÀI LIỆU THAM KHẢO
[1]. Sutton.R.S., Barto.A.G, “Reinforcement Learning: An Introduction”. MIT
Press, Cambridge (1998).
[2]. Schmidhuber.J, “Deep learning in neural networks: an overview.”, Neural
Netw. 61, 85–117 (2015).
[3]. Mnih.V, et al, “Human-level control through deep reinforcement learning”,
Nature. 518(7540), 529–533 (2015).
[4]. Silver, D., et al, “Mastering the game of go with deep neural networks and
tree search”, Nature 529(7587), 484–489 (2016).
[5]. Silver, D., et al. “Mastering the game of go without human knowledge”,
Nature 550(7676), 354 (2017).
[6]. Kober.J, Bagnell.J.A, Peters.J., “Reinforcement learning in robotics: a
survey”, Int. J. Robot. Res. 32, 1238–1274 (2013). p. 0278364913495721.
[7]. Ng. A.Y, et al, “Autonomous inverted helicopter flight via reinforcement
learning”, In: Ang, M.H., Khatib, O. (eds.) Experimental Robotics IX.
STAR, vol. 21, pp. 363–372. Springer, Heidelberg (2006).
https://doi.org/10.1007/11552246 35.
[8]. Liu Yugang, and Goldie Nejat. "Multirobot cooperative learning for
semiautonomous control in urban search and rescue applications." Journal of
Field Robotics 33.4 (2016): 512-536.
[9]. Koenig, Nathan P., and Andrew Howard. "Design and use paradigms for
Gazebo, an open-source multi-robot simulator." IROS. Vol. 4. 2004.
[10]. Lin, Long-Ji. "Self-improving reactive agents based on reinforcement learning,
planning and teaching." Machine learning 8.3-4 (1992): 293-321.
[11]. Mnih, Volodymyr, et al. "Playing atari with deep reinforcement learning." arXiv
preprint arXiv:1312.5602 (2013).
[12].Abadi, Martín, et al. "Tensorflow: a system for large-scale machine
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 41
learning." OSDI. Vol. 16. 2016.
[13]. Chollet, François. "Keras." (2015).
[14].Quigley, Morgan, et al. "ROS: an open-source Robot Operating
System." ICRA workshop on open source software. Vol. 3. No. 3.2. 2009.
ABSTRACT
DOING A RESEARCH ON DEEP REINFORCEMENT LEARNING
FOR THE SEARCH AND RESCUE PROBLEM IN 3D-GAZEBO
SIMULATION ENVIRONMENT
The problem of rescue and search is a necessary requirement not only in
military but also in civilian areas. In special environments such as in battlefield or
in complex and dangerous mountain-forest terrains, using robots to reduce the
unexpected factors, which might cause dangers to rescuers, has been being
promising for the search and rescue operations. In this paper, we propose a Deep
reinforcement learning (DRL) model allowing develop an artificial intelligence
system for an unmanned ground vehicle (UGV) in the search and rescue problem.
In our proposed model, the camera-image and sensors data is extracted when the
robot is operating. The combination between image and sensors data enables the
UGV be able to operate smarter than the traditional approaches in which only
image or sensors data is used for training. Additionally, in this paper we also
provide a reward function helping to increase the leaning time of the UGV as well
as the learning efficiency. An experimental environment is designed on the open-
source 3-D simulation framework, namely Gazebo, and the robot operating system
(ROS). The results show that our proposed DRL model is feasible and practical
when the UGV is able to pass various testing environments.
Từ khóa: Deep reinforcement learning; Deep learning; Search and rescue; Unmanned ground vehicle (UGV).
Nhận bài ngày 16 tháng 08 năm 2018
Hoàn thiện ngày 06 tháng 11 năm 2018
Chấp nhận đăng ngày 18 tháng 3 năm 2019
Địa chỉ: 1 Viện Công nghệ thông tin, Viện KHCNQS, Bộ Quốc phòng;
2 Bộ Tư lệnh 86, Bộ Quốc phòng;
3 Bệnh viện TWQĐ 108, Bộ Quốc phòng.
* Email: cuongle1981@gmail.com.

File đính kèm:

nghien_cuu_thuat_toan_hoc_tang_cuong_sau_cho_bai_toan_tim_ki.pdf