Cải tiến thuật toán tối ưu giải bài toán suy diễn hậu nghiệm với mô hình chủ đề

Bài toán suy diễn hậu nghiệm cho mỗi văn bản đóng vai trò quan trọng trong mô hình chủ đề. Tuy

nhiên, trong quá trình giải bài toán suy diễn này thường đưa về dưới dạng một bài toán tối ưu

không lồi với dữ liệu lớn, do đó nó thường là bài toán NP-khó. Có nhiều phương pháp được đề

xuất để giải xấp xỉ bài toán suy diễn hậu nghiệm như phương pháp Variational Bayes (VB),

collapsed variational Bayes (CVB) hay phương pháp collapsed Gibbs sampling (CGS),. Tuy

nhiên các phương pháp này hầu hết không đảm bảo về chất lượng cũng như tốc độ hội tụ của thuật

toán. Với ý tưởng sử dụng thuật toán Online Frank-Wolfe (OFW) và thuật toán Online Maximum

a Posterior Estimation (OPE), chúng tôi đề xuất hai thuật toán cải tiến có hiệu quả giải bài toán suy

diễn hậu nghiệm với mô hình chủ đề, đó là IOPE1, IOPE2. Bằng việc sử dụng biên ngẫu nhiên,

xấp xỉ ngẫu nhiên và phân phối ngẫu nhiên như phân phối Uniform, phân phối Bernoulli, các đề

xuất của chúng tôi được sử dụng để phát triển các phương pháp mới có hiệu quả để học các mô

hình chủ đề từ bộ sưu tập văn bản lớn. Các kết quả thực nghiệm cho thấy các phương pháp tiếp

cận của chúng tôi thường hiệu quả hơn các phương pháp trước đó.

pdf 6 trang kimcuc 3940
Bạn đang xem tài liệu "Cải tiến thuật toán tối ưu giải bài toán suy diễn hậu nghiệm với mô hình chủ đề", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Cải tiến thuật toán tối ưu giải bài toán suy diễn hậu nghiệm với mô hình chủ đề

Cải tiến thuật toán tối ưu giải bài toán suy diễn hậu nghiệm với mô hình chủ đề
ISSN: 1859-2171 TNU Journal of Science and Technology 200(07): 69 - 74 
 Email: jst@tnu.edu.vn 69 
CẢI TIẾN THUẬT TOÁN TỐI ƯU 
GIẢI BÀI TOÁN SUY DIỄN HẬU NGHIỆM VỚI MÔ HÌNH CHỦ ĐỀ 
Dương Thị Nhung, Bùi Thị Thanh Xuân* 
Trường Đại học Công nghệ thông tin và truyền thông - ĐH Thái Nguyên 
TÓM TẮT 
Bài toán suy diễn hậu nghiệm cho mỗi văn bản đóng vai trò quan trọng trong mô hình chủ đề. Tuy 
nhiên, trong quá trình giải bài toán suy diễn này thường đưa về dưới dạng một bài toán tối ưu 
không lồi với dữ liệu lớn, do đó nó thường là bài toán NP-khó. Có nhiều phương pháp được đề 
xuất để giải xấp xỉ bài toán suy diễn hậu nghiệm như phương pháp Variational Bayes (VB), 
collapsed variational Bayes (CVB) hay phương pháp collapsed Gibbs sampling (CGS),... Tuy 
nhiên các phương pháp này hầu hết không đảm bảo về chất lượng cũng như tốc độ hội tụ của thuật 
toán. Với ý tưởng sử dụng thuật toán Online Frank-Wolfe (OFW) và thuật toán Online Maximum 
a Posterior Estimation (OPE), chúng tôi đề xuất hai thuật toán cải tiến có hiệu quả giải bài toán suy 
diễn hậu nghiệm với mô hình chủ đề, đó là IOPE1, IOPE2. Bằng việc sử dụng biên ngẫu nhiên, 
xấp xỉ ngẫu nhiên và phân phối ngẫu nhiên như phân phối Uniform, phân phối Bernoulli, các đề 
xuất của chúng tôi được sử dụng để phát triển các phương pháp mới có hiệu quả để học các mô 
hình chủ đề từ bộ sưu tập văn bản lớn. Các kết quả thực nghiệm cho thấy các phương pháp tiếp 
cận của chúng tôi thường hiệu quả hơn các phương pháp trước đó. 
Từ khóa: Suy diễn hậu nghiệm, OPE, Online Frank-Wolfe, mô hình chủ đề, học trực tuyến, xấp xỉ 
ngẫu nhiên. 
Ngày nhận bài: 11/3/2019;Ngày hoàn thiện: 03/4/2019;Ngày duyệt đăng: 07/5/2019 
IMPROVEMENT OPTIMIZATION ALGORITHMS APPLIED FOR SOLVING 
THE POSTERIOR INFERENCE PROBLEM IN TOPIC MODELS 
Duong Thi Nhung, Bui Thi Thanh Xuan
* 
University of Information and Communication Technology - TNU 
ABSTRACT 
The posterior inference problem for individual text plays an important role in the topic models. 
However, in solving this problem, it is usually given as a nonconvex optimization problem with 
the large datasets, so it is often NP-hard. There are many methods proposed to approximate the 
posterior inference problem such as Variational Bayes (VB), collapsed variational Bayes (CVB) or 
collapsed Gibbs sampling (CGS) methods, but these methods do not guarantee the quality or 
convergence rate. Using the idea of Online Frank-Wolfe algorithm (OFW) and Online Maximum a 
Posteriori Estimation (OPE) algorithm, we propose two efficient algorithms for solving the 
posterior inference problem in the topic models which are IOPE1 and IOPE2. Using stochastic 
bounds, stochastic approximation and probability distributions such as uniform distribution, 
Bernoulli distribution, our improvements are used to develop new effective method for learning 
LDA from large text collections. Experimental results show that our approaches are often more 
effective than OPE. 
Keywords: OPE, Online Frank-Wolfe, topic models, online learning, stochastic approximation, 
nonconvex optimization. 
Received: 11/3/2019; Revised: 03/4/2019; Approved: 07/5/2019 
* Corresponding author: Tel: 0902 001581; Email: bttxuan@ictu.edu.vn
Dương Thị Nhung và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ ĐHTN 200(07): 69 - 74 
70  Email: jst@tnu.edu.vn 
1. Mô hình chủ đề và bài toán suy diễn 
hậu nghiệm 
Trong mô hình chủ đề Latent Dirichlet 
Allocation (LDA) [1], mỗi văn bản được biểu 
diễn theo dạng “bag of word”, tức là mỗi văn 
bản coi như một túi từ, thứ tự các từ trong văn 
bản không quan trọng. 
Hình 1. Mô hình Latent Dirichlet Allocation 
Tác giả Blei và các cộng sự [1] đưa ra giả 
thuyết về cấu trúc ẩn chứa trong tập các văn 
bản. Mỗi văn bản là sự trộn lẫn của các chủ 
đề ẩn (latent topics), trong đó mỗi chủ đề là 
một phân phối của tất cả các từ trong tập từ 
điển. Mỗi văn bản trong tập corpus được xem 
như một túi các từ, các từ sinh ra là tổ hợp 
của các chủ đề mà tác giả muốn viết. Mỗi chủ 
đề là phân phối của các từ trong tập từ điển. 
Mô hình sinh được mô tả như sau: 
- Với mỗi topic trong tập {1,2  𝐾} 
- Lấy mẫu 𝜷𝑘~𝐷𝑖𝑟(𝜂) 
Sinh văn bản 𝑤 có độ dài 𝑁: 
- Lấy mẫu 𝜽~𝐷𝑖𝑟(𝛼) 
- Với mỗi từ 𝑤𝑛 trong 𝑁 từ: 
 + Chọn một topic 𝑧𝑛~𝑀𝑢𝑙𝑡𝑖𝑛𝑜𝑚𝑖𝑎𝑙(𝜽) 
 + Chọn một từ 𝑤𝑛 với xác suất 𝑝(𝑤𝑛|𝜷𝑧𝑛) 
Trong các bước học tham số trong mô hình 
LDA, có hai bước chính là: 
- Bước E: suy diễn vector tỉ lệ chủ đề 𝜽𝑑 cho 
từng văn bản 𝒅, hay còn gọi là cập nhật các 
tham số cục bộ. 
- Bước M: cập nhật lại tham số toàn cục 𝜷. 
Bước E và bước M được lặp đi lặp lại cho đến 
khi các tham số hội tụ. 
Trong [1], thay vì cập nhật trực tiếp ra các 
tham số cục bộ và toàn cục, tác giả cập nhật 
các tham số biến phân cho nó. Trong [6], tác 
giả Khoát Thân và Tùng Đoàn đề xuất thuật 
toán ML-OPE (cập nhật trực tiếp tham số 
toàn cục 𝜷) và thuật toán Online-OPE (cập 
nhật tham số biến phân 𝝀 cho 𝜷). 
Trong [6], khi làm việc với mô hình LDA, các 
tác giả đưa ra bài toán suy diễn cho văn bản d là: 
𝜽∗ = 𝑎𝑟𝑔𝑚𝑎𝑥𝜽∈Δ𝐾 ∑ 𝑑𝑗 log ∑ 𝜃𝑘𝛽𝑘𝑗 +
𝐾
𝑘=1𝑗
+ (𝛼 − 1) ∑ log 𝜃𝑘
𝐾
𝑘=1
Khi đó 𝑓(𝜃) = ∑ 𝑑𝑗 log ∑ 𝜃𝑘𝛽𝑘𝑗
𝐾
𝑘=1𝑗 + (𝛼 −
1) ∑ log 𝜃𝑘
𝐾
𝑘=1 . 
Đặt 𝑔1(𝜃) = ∑ 𝑑𝑗 log ∑ 𝜃𝑘𝛽𝑘𝑗
𝐾
𝑘=1 ; 𝑗 
𝑔2(𝜃) = (𝛼 − 1) ∑ log 𝜃𝑘
𝐾
𝑘=1
Như vậy ta có 𝑓(𝜃) = 𝑔1(𝜃) + 𝑔2(𝜃). 
Với mô hình LDA, trong thực tế thường gặp 
tham số 𝛼 < 1 nên khi đó thành phần 𝑔1 là 
hàm lõm và 𝑔2 là hàm lồi, nên hàm mục tiêu 
𝑓(𝜃) có dạng hàm DC. Do đó bài toán tìm 
cực đại của hàm 𝑓(𝜃) là bài toán NP-khó, 
không có các thuật toán lặp xác định giải 
quyết hiệu quả bài toán tối ưu cho 𝑓(𝜃). Do 
đó ý tưởng của phương pháp giải xấp xỉ ngẫu 
nhiên [3] được đưa vào sử dụng để giải bài 
toán suy diễn hậu nghiệm. 
Lấy ý tưởng từ thuật toán Online Frank-
Wolfe [4], tác giả Khoát Thân và các cộng sự 
đề xuất thuật toán tối ưu ngẫu nhiên Online 
Maximum a Posterior Estimation (OPE) để 
giải quyết bài toán này [5,6]. 
Thuật toán 1: OPE (Online Maximum a 
Posterior Estimation) 
Input: document 𝑑 and model {𝜷, 𝛼} 
Output: 𝜽∗ 𝑡ℎ𝑎𝑡 𝑚𝑎𝑥𝑖𝑚𝑖𝑧𝑒 𝑓(𝜽) = 𝑔1(𝜃) +
𝑔2(𝜃) 
Initialize 𝜽1 𝑎𝑟𝑏𝑖𝑡𝑟𝑎𝑟𝑖𝑙𝑦 𝑖𝑛 ΔK̅̅̅̅ = {𝑥 ∈
ℝ𝐾 : ∑ 𝑥𝑘 = 1, 𝑥 ≥ 𝜖 > 0
𝐾
𝑘=1 } 
for 𝑡 = 1, 2,  , ∞ do 
 Pick 𝑓𝑡 uniformly from {𝑔1(𝜃); 𝑔2(𝜃)} 
 𝐹𝑡: =
2
𝑡
∑ 𝑓ℎ
𝑡
ℎ=1 
 𝒆𝑡: = 𝑎𝑟𝑔𝑚𝑎𝑥𝒙∈Δ̅𝐾 < 𝐹𝑡
′(𝜽𝑡), 𝒙 > 
 𝜽𝑡+1 ≔ 𝜽𝑡 +
𝑒𝑡−𝜽𝑡
𝑡
end for 
Dương Thị Nhung và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ ĐHTN 200(07): 69 - 74 
 Email: jst@tnu.edu.vn 71 
Thuật toán OPE được sử dụng để giải quyết 
bài toán suy diễn véc tơ tỉ lệ chủ đề 𝜽𝑑 cho 
từng văn bản 𝒅, sau đó thuật toán OPE được 
sử dụng vào trong thuật toán học ML-OPE áp 
dụng cho quá trình học với LDA [6]. OPE là 
thuật toán lặp ngẫu nhiên. Tại mỗi bước lặp 𝑡, 
thuật toán OPE chọn ngẫu nghiên một trong 
hai đại lượng 𝑔1(𝜃) hoặc 𝑔2(𝜃) với xác suất 
bằng nhau, sau đó tính trung bình các đại 
lượng đã chọn được từ các bước trước để tạo 
thành chuỗi hàm xấp xỉ 𝐹𝑡(𝜃). Ta có 𝐹𝑡(𝜃) →
𝑓(𝜃) khi 𝑡 → ∞. Tại mỗi bước lặp 𝑡, OPE cập 
nhật 𝜃𝑡+1 theo 𝜃𝑡 . Khi 𝑡 → ∞ thì 𝜃𝑡 →
𝜃∗trong đó 𝜃∗ là một điểm dừng của 𝑓(𝜃). 
Như vậy, thuật toán OPE sử dụng ý tưởng của 
thuật toán Online Frank-Wolfe: xây dựng dãy 
các hàm số 𝐹𝑡(𝜃) để xấp xỉ một hàm mục tiêu 
𝑓(𝜃). Cách xây dựng dãy hàm số này là: tại 
mỗi bước lặp, chọn ngẫu nhiên một trong hai 
thành phần {𝑔1, 𝑔2}, hàm xấp xỉ bằng trung 
bình của tất cả các thành phần đã chọn tại các 
bước lặp trước. 
2. Một số ý tưởng cải tiến thuật toán OPE 
Chúng tôi nhận thấy một đặc điểm của hàm 
𝑓(𝜃) trong thuật toán OPE là 𝑔1(𝜃) < 0 , 
𝑔2(𝜃) > 0 với mọi giá trị của tham số 𝜃. Với 
cách xây dựng hàm 𝐹𝑡(𝜃) như trên, nếu tại 
bước đầu tiên chọn được 𝑔1(𝜃) thì 𝐹1 < 𝑓, nếu 
bước đầu tiên chọn được 𝑔2(𝜃) thì 𝐹1 > 𝑓 . 
Hai dãy hàm có cùng cách xây dựng nhưng 
xuất phát khác nhau, cùng tiến đến hàm mục 
tiêu, một dãy bắt đầu từ 𝑔1(𝜃) (xuất phát từ 
phía dưới 𝑓(𝜃) nên gọi là dãy 𝐿𝑡(𝜃) ), một 
dãy bắt đầu từ 𝑔2(𝜃) (xuất phát từ phía trên 
𝑓(𝜃), gọi là 𝑈𝑡(𝜃)). Hai dãy hàm số 𝑈𝑡(𝜃) và 
𝐿𝑡(𝜃) sẽ có tương ứng hai dãy số {𝜃𝑡
𝑢} và 
{𝜃𝑡
𝑙} tiến dần đến điểm tối ưu 𝜃∗ cần tìm. 
Chúng tôi tìm cách kết hợp hai dãy số này để 
được một dãy số tiến dần đến cực trị của hàm 
mục tiêu 𝑓(𝜃). Xây dựng hai dãy hàm ngẫu 
nhiên nhiên 𝑈𝑡(𝜃), 𝐿𝑡(𝜃) xuất phát từ bên 
trên và bên dưới hàm 𝑓 , bao lấy hàm 𝑓 và 
cùng tiến dần về 𝑓. Có nhiều sự lựa chọn 
trong quá trình xây dựng các biên ngẫu nhiên 
𝑈𝑡(𝜃), 𝐿𝑡(𝜃) xấp xỉ cho hàm mục tiêu 𝑓(𝜃) 
như sử dụng phân phối uniform, phân phối 
Bernoulli. Với việc xây dựng hai chuỗi hàm 
ngẫu nhiên 𝑈𝑡(𝜃), 𝐿𝑡(𝜃) bằng phân phối 
Bernoulli với tham số p ∈ (0,1) thích hợp 
tổng quát hơn phân phối đều, khi đó 𝑈𝑡(𝜃) và 
𝐿𝑡(𝜃) là các xấp xỉ của 𝑓(𝜃) khi 𝑡 → ∞ . 
Cùng với việc xây dựng hai biên ngẫu nhiên, 
chúng tôi thu được hai dãy số {𝜃𝑡
𝑢} và {𝜃𝑡
𝑙} 
xấp xỉ cho dãy nghiệm {𝜃𝑡}. Tại mỗi bước lặp 
chúng tôi lựa chọn 𝜃𝑡 bằng cách sử dụng phân 
phối đều từ 𝜃𝑡
𝑢 và 𝜃𝑡
𝑙 
𝜽𝑡 ≔ 𝑝𝑖𝑐𝑘 𝑢𝑛𝑖𝑓𝑜𝑟𝑚𝑙𝑦 𝑓𝑟𝑜𝑚 {𝜽𝑡
𝑢; 𝜽𝑡
𝑙 } 
Chi tiết của ý tưởng này được trình bày trong 
Thuật toán 2, với tên là IOPE1. 
Thuật toán 2: IOPE1 
Input: document 𝒅 and model {𝜷, 𝛼} 
Output:𝜽∗ 𝑡ℎ𝑎𝑡 𝑚𝑎𝑥𝑖𝑚𝑖𝑧𝑒 𝑓(𝜽) = 𝑔1(𝜃) + 𝑔2(𝜃) 
Initialize 𝜽1 𝑎𝑟𝑏𝑖𝑡𝑟𝑎𝑟𝑖𝑙𝑦 𝑖𝑛 ΔK̅̅̅̅ = {𝑥 ∈
ℝ𝐾 : ∑ 𝑥𝑘 = 1, 𝑥 ≥ 𝜖 > 0
𝐾
𝑘=1 } 
𝑓1
𝑢: = 𝑔1; 𝑓1
𝑙: = 𝑔2 
for 𝑡 = 2, 3,  ∞ do 
 Pick 𝑓𝑡
𝑢 Bernoulli with probability p from 
{𝑔1(𝜃) ; 𝑔2(𝜃)} 
 𝑈𝑡: =
1
𝑡
∑ 𝑓ℎ
𝑢𝑡
ℎ=1 
 𝒆𝑡
𝑢: = 𝑎𝑟𝑔𝑚𝑎𝑥𝒙∈Δ̅𝐾 < 𝑈𝑡
′(𝜽𝑡), 𝒙 > 
 𝜽𝑡+1 
𝑢 ≔ 𝜽𝑡 +
𝒆𝑡
𝑢−𝜽𝑡
𝑡
 Pick 𝑓𝑡
𝑙 Bernoulli with probability p from 
{𝑔1(𝜃); 𝑔2(𝜃)} 
 𝐿𝑡: =
1
𝑡
∑ 𝑓ℎ
𝑙𝑡
ℎ=1 
 𝒆𝑡
𝑙 : = 𝑎𝑟𝑔𝑚𝑎𝑥𝒙∈Δ̅𝐾 < 𝐿𝑡
′ (𝜽𝑡), 𝒙 > 
 𝜽𝑡+1 
𝑙 ≔ 𝜽𝑡 +
𝒆𝑡
𝑙 −𝜽𝑡
𝑡
𝜽𝑡+1 ≔ 𝑝𝑖𝑐𝑘 𝑢𝑛𝑖𝑓𝑜𝑟𝑚𝑙𝑦 𝑓𝑟𝑜𝑚 {𝜽𝑡+1
𝑢 ; 𝜽𝑡+1
𝑙 } 
end for 
Tiếp tục cải tiến thuật toán OPE theo hướng 
ngẫu nhiên hóa, chúng tôi nhận thấy sử dụng 
phân phối đều (uniform distribution) trong lựa 
chọn dãy nghiệm {𝜃𝑡} thông qua {𝜃𝑡
𝑢}, {𝜃𝑡
𝑙} là 
đơn giản, chưa khai thác được giá trị của 
{𝜃𝑡
𝑢}, {𝜃𝑡
𝑙}. Vì vậy, chúng tôi sử dụng: 
𝑞 ≔
exp (𝑓(𝜽𝑡
𝑢))
exp(𝑓(𝜽𝑡
𝑢)) + exp (𝑓(𝜽𝑡
𝑙 ))
Dương Thị Nhung và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ ĐHTN 200(07): 69 - 74 
72  Email: jst@tnu.edu.vn 
𝜽𝑡 ≔ 𝜽𝑡
𝑢 𝑤𝑖𝑡ℎ 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡𝑦 𝑞 
𝜽𝑡 ≔ 𝜽𝑡
𝑙 𝑤𝑖𝑡ℎ 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡𝑦 1 − 𝑞 
Chi tiết được trình bày trong Thuật toán 3, với 
tên là IOPE2. 
Thuật toán 3: IOPE2 
Input: document 𝒅 and model {𝜷, 𝛼} 
Output:𝜽∗ 𝑡ℎ𝑎𝑡 𝑚𝑎𝑥𝑖𝑚𝑖𝑧𝑒 𝑓(𝜽) = 𝑔1(𝜃) + 𝑔2(𝜃) 
Initialize 𝜽1 𝑎𝑟𝑏𝑖𝑡𝑟𝑎𝑟𝑖𝑙𝑦 𝑖𝑛 ΔK̅̅̅̅ = {𝑥 ∈
ℝ𝐾 : ∑ 𝑥𝑘 = 1, 𝑥 ≥ 𝜖 > 0
𝐾
𝑘=1 } 
𝑓1
𝑢: = 𝑔1; 𝑓1
𝑙: = 𝑔2 
for 𝑡 = 2, 3,  ∞ do 
 Pick 𝑓𝑡
𝑢 Bernoulli with probability p 
{𝑔1(𝜃) ; 𝑔2(𝜃)} 
 𝑈𝑡: =
1
𝑡
∑ 𝑓ℎ
𝑢𝑡
ℎ=1 
 𝒆𝑡
𝑢: = 𝑎𝑟𝑔𝑚𝑎𝑥𝒙∈Δ̅𝐾 < 𝑈𝑡
′(𝜽𝑡), 𝒙 > 
 𝜽𝑡+1 
𝑢 ≔ 𝜽𝑡 +
𝒆𝑡
𝑢−𝜽𝑡
𝑡
 Pick 𝑓𝑡
𝑙 Bernoulli with probability p 
{𝑔1(𝜃) ; 𝑔2(𝜃)} 
 𝐿𝑡: =
1
𝑡
∑ 𝑓ℎ
𝑙𝑡
ℎ=1 
 𝒆𝑡
𝑙 : = 𝑎𝑟𝑔𝑚𝑎𝑥𝒙∈Δ̅𝐾 < 𝐿𝑡
′ (𝜽𝑡), 𝒙 > 
 𝜽𝑡+1 
𝑙 ≔ 𝜽𝑡 +
𝒆𝑡
𝑙 −𝜽𝑡
𝑡
𝑞 ≔
exp (𝑓(𝜽𝑡+1
𝑢 ))
exp(𝑓(𝜽𝑡+1
𝑢 )) + exp (𝑓(𝜽𝑡+1
𝑙 ))
𝜽𝑡+1 ≔ 𝜽𝑡+1
𝑢 𝑤𝑖𝑡ℎ 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡𝑦 𝑞 
𝜽𝑡+1 ≔ 𝜽𝑡+1
𝑙 𝑤𝑖𝑡ℎ 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡𝑦 1 − 𝑞 
end for 
Với việc đưa ra hai cải tiến thuật toán IOPE1 
và IOPE2 cho bài toán suy diễn hậu nghiệm 
với LDA, chúng tôi áp dụng vào thuật toán 
học với LDA và đưa ra thuật toán học ML-
IOPE1 và ML-IOPE2 trong thuật toán 4. 
Thuật toán 4: ML-IOPE1 (2) 
Input: data sequence, 𝐾, 𝛼, 𝜏 > 0, 𝜅 ∈ (0.5,1] 
Ouput: 𝛽 
Initialize 𝛽0 randomly in 𝛥𝑉 
for 𝑡 = 1,2,  ∞ do 
 Pick a set 𝐶𝑡 of documents 
 Do inference by IOPE1(2) for each 𝑑 ∈ 𝐶𝑡 
to get 𝜃𝑑, given 𝛽
𝑡−1 
 Compute intermediate topics 𝛽𝑡as: 
𝛽𝑘𝑗
𝑡 ∝ ∑ 𝑑𝑗𝜃𝑑𝑘
𝑑∈𝐶𝑡
 Set step-size: 𝜌𝑡: = (𝑡 + 𝜏)
−𝜅 
 Update topics: 𝛽𝑡: = (1 − 𝜌𝑡)𝛽
𝑡−1 + 𝜌𝑡𝛽
𝑡 
end for 
3. Thử nghiệm 
3.1 Các độ đo 
3.1.1 Độ đo khả năng tổng quát hóa của mô 
hình Log Predictive Probability: Xác suất dự 
đoán (Predictive Probability) chỉ ra khả năng 
tổng quát hóa của mô hình ℳ trên một dữ 
liệu mới. Dữ liệu mới ở đây là một văn bản 𝑤. 
Với một văn bản mới, ta chia văn bản thành 2 
phần 𝑤𝑜𝑏𝑠 và 𝑤ℎ𝑜 với tỉ lệ 𝑤𝑜𝑏𝑠: 𝑤ℎ𝑜 =
80: 20. Tiếp theo ta suy diễn cho phần 𝑤𝑜𝑏𝑠 
để ước lượng 𝐸(𝜃𝑜𝑏𝑠) . Sau đó ước lượng 
Predictive Probability: 
Pr(𝑤ℎ𝑜| 𝑤𝑜𝑏𝑠, ℳ)
≈ ∏ ∑ 𝐸(𝜃𝑘
𝑜𝑏𝑠)𝐸(βkw)
𝐾
𝑘=1𝑤∈𝑤ℎ𝑜
𝐿𝑜𝑔 𝑃𝑟𝑒𝑑𝑖𝑐𝑡𝑖𝑣𝑒 𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡𝑦
=
log Pr (𝑤ℎ𝑜|𝑤𝑜𝑏𝑠, ℳ)
|𝑤ℎ𝑜|
Với ℳlà mô hình được tính độ đo perplexity. 
3.1.2 Độ đo chất lượng chủ đề NPMI: Độ đo 
NPMI [2] nói về chất lượng của từng chủ đề 
học được. Với các mô hình chủ đề, độ đo 
NPMI đánh giá tương đối tốt với suy diễn của 
con người trong một chủ đề. Với mỗi chủ đề t, 
ta chọn ra 𝑛 từ có xác suất cao nhất 
{𝑤1, 𝑤2  𝑤𝑛} và tính độ đo NPMI của chủ đề 
đó: 
𝑁𝑃𝑀𝐼(𝑡) =
2
𝑛(𝑛 − 1)
∑ ∑
log
𝑃(𝑤𝑖, 𝑤𝑗)
𝑃(𝑤𝑖)𝑃(𝑤𝑗)
−𝑙𝑜𝑔𝑃(𝑤𝑖 , 𝑤𝑗)
𝑗−1
𝑖=1
𝑛
𝑗=2
Trong đó 𝑃(𝑤𝑖, 𝑤𝑗) là xác suất để từ 𝑤𝑖 và 𝑤𝑗 
cùng xuất hiện trong một văn bản. 
Với mô hình ℳ có 𝐾 chủ đề, độ đo NPMI 
trên mô hình này được tính như sau: 
𝑁𝑃𝑀𝐼 =
1
𝐾
∑ 𝑁𝑃𝑀𝐼(𝑡)
𝐾
𝑡=1
3.2 Mô tả thử nghiệm 
Trình bày về các kết quả thử nghiệm trên các 
bộ dữ liệu thực tế của các cải tiến và so sánh 
với thuật toán OPE. 
Dương Thị Nhung và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ ĐHTN 200(07): 69 - 74 
 Email: jst@tnu.edu.vn 73 
Bảng 1. Dữ liệu thử nghiệm 
Bộ dữ liệu Số lượng văn bản Tập từ điển 
New York Times 300.000 102661 
Pubmed 310.000 141044 
a. Với bộ dữ liệu New York Times b. Với bộ dữ liệu PubMed 
Hình 2. Kết quả của phương pháp học ML-IOPE1 với các giá trị Bernoulli p khác nhau 
Thuật toán IOPE1, IOPE2 được sử dụng để 
áp dụng vào thuật toán ML-OPE học LDA. 
Ta đi so sánh các cải tiến khi được thay thế 
cho OPE trong thuật toán trên. OPE và các cải 
tiến là các thuật toán ngẫu nhiên, do đó ta sẽ 
chạy các thuật toán 5 lần, lấy trung bình kết 
quả các lần chạy và so sánh với nhau. 
Tham số của mô hình: 
𝐾 = 100, 𝛼 =
1
𝐾
, 𝜂 =
1
𝐾
 , số lần lặp 𝑇 = 50 , 
𝜅 = 0,9, 𝜏 = 1 . 
Thông qua kết quả thử nghiệm, ta thấy với 
tham số p của phân phối Bernoulli được lựa 
chọn thích hợp ta thấy thuật toán IOPE1, 
IOPE2 hiệu quả hơn cả thuật toán OPE (mặc 
dù OPE đã được đánh giá tốt hơn các thuật 
toán hiện có như VB, CVB hay CGS [5,6]). 
Đặc biệt khi lựa chọn tham số Becnoulli p < 
0.5 như trong thực nghiệm p = 0.3, 0.35, 0.4 
thì kết quả tốt hơn OPE rất nhiều trên cả hai 
độ đo Log Predictive Probability và NPMI 
với hai bộ dữ liệu New York Times và 
Pubmed.
Dương Thị Nhung và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ ĐHTN 200(07): 69 - 74 
74  Email: jst@tnu.edu.vn 
a. Trên bộ dữ liệu New York Times b. Trên bộ dữ liệu PubMed 
Hình 3. Kết quả của phương pháp học ML-IOPE2 với các giá trị Bernoulli p khác nhau 
4. Kết luận 
Sử dụng cách tiếp cận ngẫu nhiên, bài báo 
đưa ra các thuật toán tối ưu hiệu quả giải bài 
toán suy diễn hậu nghiệm dưới dạng một tối 
ưu không lồi khó giải. Bài báo đưa ra hai 
thuật toán cải tiến là IOPE1 và IOPE2 bằng 
việc sử dụng phân phối Bernoulli cải tiến cho 
thuật toán OPE với tham số Becnoulli p thích 
hợp. Kết quả thử nghiệm trên hai bộ dữ liệu 
lớn là New York Times và Pubmed cho thấy 
cho thấy các thuật toán đề xuất là hiệu quả 
so với các kết quả đã có, đặc biệt khi chúng 
ta lựa chọn tham số Bernoulli p phù hợp. 
Tham số p giúp thuật toán thể hiện tính linh 
hoạt và đóng vai trò là tham số hiệu chỉnh 
của thuật toán. 
TÀI LIỆU THAM KHẢO 
[1]. David M. Blei, Andrew Y. Ng, and Michael I. 
Jordan, “Latent Dirichlet allocation”, Journal of 
Machine Learning Research, 3(3), pp. 993–1022, 
2003. 
[2]. Nikolaos Aletras and Mark Stevenson, 
“Evaluating topic coherence using distributional 
semantics”, In Proceedings of the 10th 
International Conference on Computational 
Semantics (IWCS 2013), pp. 13-22, 2013. 
[3]. Léon Bottou, “Online learning and stochastic 
approximations”, Online learning in neural 
networks, 17(9), pp.142, 1998 
[4]. Elad Hazan, Satyen Kale, Projection-free 
Online Learning, ICML 2012. 
[5]. Khoat Than, Tung Doan, “Dual online 
inference for latent Dirichlet allocation”, In ACML. 
Journal of Machine Learning Research: W&CP, 
2014. 
[6]. Khoat Than, Tung Doan, Fast algorithms for 
inference in topic models, Technical report, 2016.

File đính kèm:

  • pdfcai_tien_thuat_toan_toi_uu_giai_bai_toan_suy_dien_hau_nghiem.pdf