Một phương pháp định vị đối tượng dựa trên phân lớp có giám sát

Để định vị một đối tượng nào đó (người, động vật hoặc bất cứ vật thể nào) chúng ta
trước hết cần biết được các đặc điểm hay gọi là đặc trưng (characteristic) của đối tượng đó
như: Họ và tên, quê quán, ngày tháng năm sinh, tên thường gọi, nghề nghiệp, thường sử
dụng thiết bị liên lạc gì ? v.v. Nhưng để xác định được một đối tượng, trước hết ta phải
phân lớp đối tượng dựa trên đặc trưng của chúng. Bài toán phân lớp được mô tả như sau:
Cho trước một tập hợp hữu hạn  các đối tượng, mỗi đối tượng gồm n đặc trưng. Như
vậy ta có thể coi  là một tập con trong không gian Euclide n-chiều R n .
Giả sử trên cơ sở nào đó ta có y R n . Hãy xác định xem có tồn tại một x  mà y =
x hay không ? Ở đây, ta hiểu khái niệm "y = x" theo nghĩa xác suất.
Đây là một bài toán rất lý thú và đã có kết quả được áp dụng trong thực tiễn, đặc biệt là
trong lĩnh vực An ninh Quốc gia.
9 trang kimcuc 19020 Free
Download
Bạn đang xem tài liệu "Một phương pháp định vị đối tượng dựa trên phân lớp có giám sát", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
Tóm tắt nội dung tài liệu: Một phương pháp định vị đối tượng dựa trên phân lớp có giám sát

Nghiên cứu khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san FEE, 08 - 2018 155
MỘT PHƯƠNG PHÁP ĐỊNH VỊ ĐỐI TƯỢNG DỰA TRÊN 
PHÂN LỚP CÓ GIÁM SÁT 
Nguyễn Hồng Thủy, Hồ Văn Canh1*, Lê Nhật Thăng2 
Tóm tắt: Mục đích của bài báo là nghiên cứu và đề xuất một phương pháp dò 
tìm một đối tượng nào đó trên cơ sở phân lớp có giám sát. Để giải quyết bài toán 
đặt ra, bài báo đề xuất hai bổ đề được phát triển từ bổ đề của Lý thuyết Thông tin 
và Thống kê toán và đề xuất một số gợi ý được ứng dụng trong thực hành. 
Từ khóa: Phân lớp; Nhận dạng ngôn ngữ; Đặc trưng. 
1. MỞ ĐẦU 
Để định vị một đối tượng nào đó (người, động vật hoặc bất cứ vật thể nào) chúng ta 
trước hết cần biết được các đặc điểm hay gọi là đặc trưng (characteristic) của đối tượng đó 
như: Họ và tên, quê quán, ngày tháng năm sinh, tên thường gọi, nghề nghiệp, thường sử 
dụng thiết bị liên lạc gì ? v.v. Nhưng để xác định được một đối tượng, trước hết ta phải 
phân lớp đối tượng dựa trên đặc trưng của chúng. Bài toán phân lớp được mô tả như sau: 
Cho trước một tập hợp hữu hạn  các đối tượng, mỗi đối tượng gồm n đặc trưng. Như 
vậy ta có thể coi  là một tập con trong không gian Euclide n-chiều R n . 
Giả sử trên cơ sở nào đó ta có y R n . Hãy xác định xem có tồn tại một x  mà y = 
x hay không ? Ở đây, ta hiểu khái niệm "y = x" theo nghĩa xác suất. 
Đây là một bài toán rất lý thú và đã có kết quả được áp dụng trong thực tiễn, đặc biệt là 
trong lĩnh vực An ninh Quốc gia. 
2. MỘT SỐ KẾT QUẢ ĐÃ ĐƯỢC CÔNG BỐ 
Bài toán phân lớp các đối tượng được ứng dụng nhiều trong nhiều lĩnh vực, đặc biệt là 
nhận dạng ngôn ngữ tự nhiên (xem [1], [2], [3], [4], [8], [14],v.v.). Các phương pháp nêu 
trên được các tác giả dựa trên các kỹ thuật sau đây: 
- Phân lớp trên cơ sở mô hình xích Markov ẩn (HMM), 
- Phân lớp dựa trên mạng Neural nhân tạo (ANN - Artificial Neural Network), 
- Phân lớp dựa trên máy học vector hỗ trợ (SVMs), 
- Phân lớp dựa trên mô hình Gaussian hỗn hợp (GMMs), 
- Phân lớp dựa trên cơ sở lượng tử hóa vector (VQ). 
Các phương pháp phân lớp nêu trên khi ứng dụng vào nhận dạng các ngôn ngữ tự nhiên 
đều cho kết quả đúng khoảng 65 - 85%. Hạn chế của các phương pháp phân lớp nêu trên là 
độ dài đầu vào để kiểm tra phải đủ lớn (độ dài đầu vào thường là trên 1000 bít). Ngay cả 
việc phân lớp ở [9] được cho là tối ưu nhưng mẫu đầu vào để kiểm tra cũng cần có kích cỡ 
là 800 bít trở lên (tương ứng 100 ký tự la tinh). Trong thực tế, nhiều trường hợp, đầu vào 
của thuật toán là dãy chỉ khoảng 64 bít hoặc ít hơn. Năm 2017, các tác giả Phạm Anh 
Phương và Quách Hải Thọ đã đề xuất một phương pháp phân lớp trên cơ sở ứng dụng lý 
thuyết tập mờ (Fuzzy set theory) đã cho kết quả khá (xem [15]). Trong các kết quả đã 
được trình bày ở trên, đáng chú ý là phân lớp theo khoảng cách và phân lớp dựa trên lượng 
tử hóa vector (VQ). Tuy nhiên, các phương pháp đó vẫn không xét đến sai số trong phân 
lớp. Phần nội dung tiếp sau của bài báo này, các tác giả đề xuất một phương pháp phân lớp 
có giám sát nhằm khắc phục được hai nhược điểm vừa trình bày ở trên. Đó là: 
- Độ dài mẫu đầu vào ngắn (cỡ 8 ký tự la tinh trở lên), và 
- Sai số của phân lớp về trung bình là cực tiểu. 
Kỹ thuật Điện tử – Thông tin 
 N. H. Thủy, H. V. Canh, L. N. Thăng, “Một phương pháp định vị  phân lớp có giám sát.” 156 
3. NỘI DUNG CẦN GIẢI QUYẾT 
Để rõ hơn vấn đề này, ta xét bài toán phân lớp tổng quát nhất như sau: 
Cho một tập hợp  hữu hạn tùy ý. Mỗi x  được gọi là một đối tượng (object) hay 
về mặt toán học, x được gọi là một phần tử (element) trong tập hợp  . Mỗi phần tử được 
thể hiện bởi các đặc trưng (characteristic) của nó. Như vậy, các phần tử khác nhau sẽ có 
các đặc trưng tương ứng không giống nhau. Để dễ dàng cho việc xây dựng phương pháp 
phân lớp (classification) các đối tượng của  , ta giả sử mỗi đối tượng được mô tả bởi n 
đặc trưng. Như vậy, ta có thể xem  như là một tập hợp con trong không gian Euclide n 
chiều (được ký hiệu là R n ) tức là   R n . Bài toán đặt ra là hãy phân hoạch  thành k 
lớp: A1 , A 2 ,, A k với A i  , i = 1, 2,, k sao cho: 
1/ A i  A j =  , i j, i, j = 1, 2,, k 
2/ 
1
k
i 
 A i = 
Rõ ràng là có nhiều cách phân hoạch (partition)  thỏa mãn các điều kiện đã nêu. 
Song, dù phân hoạch bằng cách nào cũng đều xảy ra hai trường hợp: 
Trường hợp 1: Đối tượng x  , thực tế là x A i nhưng lại gán cho x A j , j i. 
Trường hợp 2: x A j nhưng ta lại gán cho x A i , i j. 
Trường hợp 1 xảy ra thì ta nói đã mắc sai lầm loại 1, trường hợp 2 xảy ra thì ta đã mắc 
sai lầm loại 2. Xác suất mắc sai lầm loại 1 ta ký hiệu là (0 1) và xác suất mắc 
phải sai lầm loại 2 được ký hiệu là  (0  1). là xác suất bác bỏ giả thiết đúng 
còn  là xác suất chấp nhận giả thiết sai. Dù với thuật toán phân lớp nào cũng không thể 
triệt tiêu được cả hai loại sai lầm nêu trên. Trong thực tế người ta muốn cố định xác suất 
sai lầm loại 1, và xây dựng thuật toán làm cực tiểu hóa sai lầm loại 2,  . Như vậy một 
thuật toán được cho là tối ưu là thuật toán làm cho tổn thất trung bình của cả hai sai lầm là 
bé nhất có thể. 
Bổ đề sau đây nhằm giải quyết bài toán đặt ra: 
Trước hết ta ký hiệu z ij là tổn thất khi đối tượng x thực tế là x A i nhưng ta lại quyết 
định x A j , j i. Rõ ràng rằng z ii = 0  i = 1, 2,, k (k là số lớp). Trái lại, z ij >0 với i j. 
Nếu đối tượng x A i thì tổn thất trung bình có điều kiện với x A i là: 
 L i = ij
1
( ) ( )
j
k
i
j A
z f x d x
 (1) 
Trong đó  1,( )i i kf x là k hàm mật độ xác suất của họ phân bố chuẩn N( i , i ) với i 
= 1, 2,, k. (ở đây μ là độ đo σ- hữu hạn trên không gian các tập con của  ). 
Tiếp theo, ta ký hiệu i là xác suất để đối tượng x A i , tức là i = P{x A i } và giả 
thiết i >0, i = 1, 2,, k. 
Do đó giá trị trung bình không điều kiện của tổn thất khi phân lớp  =
1
k
i 
 A i là: 
Nghiên cứu khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san FEE, 08 - 2018 157
 L =
1
k
i i
i
L 
 (2) 
Đặt q j (x) = ij
1
( )
k
i i
i
z f x 
 , j = 1, 2, , k. (3) 
Từ (1), (2) và (3) suy ra rằng: 
L = 
1
( ) ( )
j
k
j
j A
q x d x
  L(A1 , A 2 ,, A k ) (4) 
Từ đó, bài toán đặt ra là: Hãy xây dựng một phân hoạch A *1 , A
*
2 ,, A
*
k sao cho cực 
tiểu hóa giá trị L: 
L *= L(A *1 , A
*
2 ,, A
*
k ), tức là L
* L. 
Ta có bổ đề sau đây: 
Bổ đề 1: Giả sử A *1 , A
*
2 ,, A
*
k là một phân hoạch trên tập  thỏa mãn điều kiện: 
[x A *i ] [q i (x) q j (x), j = 1, 2,, k]. Khi đó, L
*= L(A *1 , A
*
2 ,, A
*
k ) L=L(A1 , 
A 2 ,, A k ) đối với mọi phân hoạch A1 , A 2 ,, A k tùy ý trên  . 
Chứng minh 
Thật vậy, từ giả thiết trên ta có: 
L=L(A1 , A 2 ,, A k ) = 
1
( ) ( )
j
k
j
j A
q x d x
 = 
1 1 *
( ) ( )
j i
k k
j
j i
A A
q x d x
  

=
1 1 *
( ) ( )
i j
k k
j
i j
A A
q x d x
  

1 1 *
( ) ( )
i j
k k
i
i j
A A
q x d x
  

=
*1
( ) ( )
i
k
i
i
A
q x d x
 
= L(A *1 , A
*
2 ,, A
*
k ) = L
* . Đây là điều phải chứng minh. 
Chú ý: Để đơn giản trong thực hành ta giả thiết: 
 z ij =
0
1
nếu i=j 
 (5) 
nếu i j 
Và đặt: 
c(x) = 
1
( )
k
i i
i
f x 
 , (6) 
Từ (3), (5) và (6) ta suy ra: 
q j (x) = c(x) - ( )j jf x (7) 
Từ đó, q t (x) q j (x)  j = 1, 2,, k nếu và chỉ nếu: 
( ) ( )t t j jf x f x  j = 1, 2,, k (8) 
Như vậy nếu tồn tại một t j mà 
( ) ( )t t j jf x f x  j = 1, 2,, k (8’) 
Kỹ thuật Điện tử – Thông tin 
 N. H. Thủy, H. V. Canh, L. N. Thăng, “Một phương pháp định vị  phân lớp có giám sát.” 158 
thì quyết định của ta về việc x A t là tối ưu. 
Trường hợp tồn tại 1t 2t , 1t j, 2t j, j = 1, 2,, k mà 
11
( ) ( )t t j jf x f x và đồng thời 22
( ) ( )t t j jf x f x  j 1t , 2t . 
Khi đó ta sử dụng quy tắc: x A
1
t nếu 1t > 2t và x A
2
t nếu 2t > 1t . 
Bây giờ, giả sử cho một tập hữu hạn  đã được phân hoạch tối ưu (theo nghĩa nêu 
trên). Để đơn giản phân hoạch đó được ký hiệu là A1 , A 2 ,, A k , k 2 và cho trước. Giả 
sử f1 , f 2 ,, f k là các hàm mật độ xác suất lần lượt trên A1 , A 2 ,, A k . 
Ta ký hiệu tập hợp G = {f1 , f 2 , , f k } và h là một hàm mật độ xác suất nào đó của 
đại lượng ngẫu nhiên Y. Vấn đề đặt ra là hãy trả lời câu hỏi: có tồn tại một i, i = 1, 2,, k 
mà y A i hay không ? 
Sau đây là câu trả lời cho câu hỏi trên: 
Bổ đề 2: Cho f1 , f 2 ,, f k là k hàm mật độ xác suất lần lượt trên A1 , A 2 , , A k . 
Trong đó {A1 , A 2 ,, A k } là phân hoạch như trong Bổ đề 1. Giả sử X là một đại lượng 
ngẫu nhiên trên  với h là một hàm mật độ xác suất của X trên không gian  . Khi đó: 
1/ Nếu tích phân 
( )
( ) log ( ) 0
( )
i
j
f x
h x d x
f x


 với mọi j i. Khi đó, h = f i  - hầu 
khắp nơi trên  , đặc biệt là trên A i . 
2/ Nếu tồn tại một j i mà 
( )
( ) log ( ) 0
( )
i
j
f x
h x d x
f x


 . Khi đó, h f i . 
3/ Nếu 
( )
( ) log ( ) 0
( )
i
j
f x
h x d x
f x


 . Khi đó, không có câu trả lời. 
4/ Trường hợp 
( )
( ) log ( ) 0
( )
i
j
f x
h x d x
f x


 với mọi j i. Khi đó, h G = {f1 , 
f 2 ,, f k }. 
Chứng minh 
Để chứng minh Bổ đề 2, ta sử dụng Bổ đề 3 với nội dung như sau: 
Bổ đề 3: Giả sử f và g là hai làm số thực, không âm và khả tích đối với độ đo  nào đó 
trên miền  và sao cho thỏa mãn điều kiện: 
Tích phân ( ) ( ) 0f g d x

 (9) 
Khi đó tích phân log ( ) 0
f
f d x
g


 (10) 
và nó bằng 0 khi và chỉ khi f = g  - hầu khắp nơi trên  . 
Chứng minh 
Nghiên cứu khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san FEE, 08 - 2018 159
Ta chứng minh Bổ đề 3 cho trường hợp f và g là những hàm rời rạc. 
Mệnh đề 1: Cho hai chuỗi số thực không âm và hội tụ: ia , ib với ia , ib 0 sao 
cho ( ia - ib ) 0. Khi đó log 0
i
i
i
a
a
b
  . (11) 
Bất đẳng thức (11) chỉ bằng 0 khi và chỉ khi ia = ib với mọi i = 1, 2, 3, 
Chứng minh 
Bất đẳng thức (11) tương đương với bất đẳng thức (12) sau đây: 
 log 0ii
ii
b
a
a
  (12) 
Ta sẽ chứng minh (12) như sau: 
Trước hết, ta xét hàm số f(x) = lnx (logarit nêpe) ( log log lna ex x x ). Bây giờ ta 
khai triển hàm f(x) trong lân cận V(1) = (1- , 1+ ). 
Ta có: lnx = ln(x-1+1)=ln[(x-1)+1] = (x-1)-(x-1) 2 (2 2 ) 1 , trong đó  (1, x). 
Vì vậy, log ii
ii
b
a
a
= 2 2[( 1) ( 1) (2 )]i ii i
i ii
b b
a
a a
  = ( ib - ia ) -
2 2( 1) (2 )] 0ii i
ii
b
a
a
  vì ib ia . Đây là điều phải chứng minh. 
Bây giờ ta chứng minh Bổ đề 2. Ta ký hiệu tập hợp G = {f1 , f 2 ,, f k } và h(x) là hàm 
mật độ xác suất của đại lượng ngẫu nhiên X trên  . Ta giả thiết h G. 
1/ Giả sử tích phân 
( )
( ) log ( ) 0
( )
i
j
f x
h x d x
f x


 , ta cần chứng minh rằng h = f i  - 
hầu khắp nơi trên  , đặc biệt là A i . Thật vậy, giả sử trái lại rằng h f i , tức là có tồn tại 
một l để h = f l . Từ đó và từ giả thiết: 
( )
( ) ln ( ) 0
( )
i
j
f x
h x d x
f x


 với mọi j i, j = 1, 2, , k. Ta suy ra: 
( )
(x) ln ( ) 0
( )
i
l
j
f x
f d x
f x


 , vì bất đẳng thức đó đúng cho mọi j nên nó cũng đúng cho j = 
l, tức là 
( )
( ) ln ( ) 0
( )
i
l
l
f x
f x d x
f x


 , hay
( )
( ) ln ( ) 0
(( )
l
l
i
f x
f x d x
f x


 . Điều này trái với 
kết quả của Bổ đề 3, vậy h = f i và Bổ đề được chứng minh. 
2/ Hiển nhiên (suy ra từ 1). 
3/ Trường hợp 
( )
( ) log ( ) 0
( )
i
j
f x
h x d x
f x


 thì theo Bổ đề 3 f i = f j  - hầu khắp nơi 
trên  , nên chúng ta không có cơ sở để kết luận h = f i hay h = f j . 
Kỹ thuật Điện tử – Thông tin 
 N. H. Thủy, H. V. Canh, L. N. Thăng, “Một phương pháp định vị  phân lớp có giám sát.” 160 
4/ Trường hợp 
( )
( ) log ( ) 0
( )
i
j
f x
h x d x
f x


 với mọi j i. 
Nếu có tồn tại l mà h = f l , thế thì
( )
( ) ln ( ) 0
( )
i
l
l
f x
f x d x
f x


 . Điều này trái với Bổ đề 
3, vậy h f j với mọi j = 1, 2, , k. Tức là h G. Đó là điều cần chứng minh. 
4. ỨNG DỤNG 
Ví dụ 1: Xác định khóa mã DES (Data Encryption Standard) 
Giả sử ta nhận được một bản mã X = (x1 , x 2 ,, x n ) được mã bởi DES. Vấn đề đặt ra 
là hãy giải bản mã đó, tức là hãy xác định đúng K = (k1 , k 2 , , k 56 ) với k i {0, 1} với 
i = 1, 2,, 56. Trong trường hợp này, khóa đúng K sẽ thuộc vào không gian khóa 
 ={K (1) , K (2) , , K
56(2 )
}, tức là lực lượng của  là 562 . Đây là một lực lượng 
quá lớn mà hệ thống máy tính của ta hiện nay không đủ khả năng tìm được khóa đúng 
trong  bằng phương pháp “vét cạn” trong thời gian đa thức. Đã có một số phương pháp 
tấn công được công bố [.]. Tuy nhiên các phương pháp đó chỉ mang tính lý thuyết và còn 
mang tính thành công theo nghĩa xác suất. Trong ví dụ này, chúng ta đòi hỏi: 
i) Đã có một hệ thống tính toán hiệu năng cao. 
ii) Có một hoặc nhiều bản mã bởi mã hóa DES. 
Bước đầu tiên của thuật toán là chia không gian  thành 2 tập con rời nhau: A1 , A 2 . 
Trong đó một trong hai tập hợp đó chứa khóa đúng K với xác suất 1, chẳng hạn đó là tập 
A1 . Vấn đề là phân hoạch như thế nào ? 
Ta biết rằng mối quan hệ giữa bản mã, khóa và bản rõ có sự tương ứng 1-1. Đó là mỗi 
khối mã 64 bít tương ứng với một khối bản rõ 64 bít (8 bytes) và tương ứng 1-1 với khóa 
K. Số tất cả các khối rõ 64 bít (8 bytes) có thể là 8 1126 1,6.2 . Như vậy khóa đúng chỉ 
có thể thuộc vào tập hợp A1 với lực lượng 
11 12
1 1,6.2 2A . 
Đây là một con số mà với công nghệ hiệu năng cao (hoặc công nghệ cluster) hoàn toàn 
có thể vét cạn để xác định khóa đúng nếu chúng ta có một tiêu chuẩn bản rõ tốt. 
Như vậy, không gian khóa của DES là  có thể phân hoạch thành 2 tập con (2 lớp): 
 =A1  A 2 với A1  A 2 = . Trong đó 
12
1 2A và 
56 12 44
2 2 / 2 2A . 
Tiêu chuẩn bản rõ được trình bày ở Bổ đề 2 với k=2 (lớp). 
Sau đây là một ví dụ đơn giản bằng số: 
Cho bản mã y = AJJIT BRJHF XHXRJ JUBAR SMITR UHXVU GGQBI HE. Biết 
rằng đây là bản mã dùng mật mã thay thế đơn với ngôn ngữ tiếng Việt. Hãy giải bản mã đó 
(tức tìm khóa mã thay thế đơn). 
Đây là bài toán khá đơn giản nên ta làm như sau: 
1/ Phân lớp: Trong tiếng Việt (viết theo lối Telex) có 6 ký tự cao tần nhất là “T, H, A, 
N, O, I” ta gán cho lớp A1 . Số ký tự thấp tần nhất là “P, Q, K, J, X, Z” được gán cho lớp 
A 2 . Các ký tự còn lại được gán cho lớp A 3 . 
Nghiên cứu khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san FEE, 08 - 2018 161
2/ Tính tần số các ký tự của bản mã y, ta nhận được kết quả như sau: 
A B C D E F G H I J K L M N O P Q R S T U 
2 3 0 0 1 1 2 4 3 5 0 0 1 0 0 0 1 4 1 2 3 
V W X Y Z 
1 0 3 0 0 
Nhận xét: Có 7 ký tự của bản mã y có tần số cao nhất là {B, H, I, J, R, U, X}. 
Ta chú ý lớp thứ nhất A1 . 
3/ Thực hiện tìm khóa K: Về lý thuyết ta có tất cả 7! = 1.2.3.4.5.6.7 = 840 phép thay 
thế để tìm khóa đúng. Nhưng thực tế với 12 vòng thay thế chúng ta đã xác định được khóa 
giải mã K là: 
A B C D E F G H I J K L M N O P Q R S T U 
c j . . m f e a n o . . . . . . t h u g i 
V W X Y Z 
v . x . . 
Các dấu “.” ở dưới các ký tự mã là chưa xác định được vì bản mã y quá ngắn. 
3/ Bản thông báo được giải mã ra là: 
x = “coongj hoaf xax hooij chur nghiax Vieetj nam”./. 
Ví dụ 2: 
Để làm ví dụ, trước hết ta có nhận xét sau đây: Xét hàm số f(x) =lnx với ln là logarit 
nêpe và x>0. Rõ ràng f(x) là hàm đồng biến nếu x>1. Trong trường hợp 3 của bổ đề 2, nếu 
giá trị x ≈ 1 thì ln1≈ 0 và do đó khi lấy phần nguyên ta đều nhận được giá trị phần nguyên 
của nó là 0. Để giảm thiểu trường hợp này, ta cần nhân giá trị của f(x) bởi một hằng số k 
đủ lớn trước khi lấy phần nguyên, chẳng hạn ta lấy k = 10. 
Cho 2 dãy bít: X1= 10011 10100 00110; X2= 11000 11010 01001. Bây giờ giả sử ta 
nhận được dãy đặc trưng Y = 10100 01110 00001. Hãy trả lời câu hỏi Y = X1 hay Y = X2 
? Áp dụng bổ đề trên, ta tính 
f1= A1= 
4 3 
4 3 
, f2 = A2= 
4 4 
4 2 
[10lnf1 ∕ f2] = A3= 
0 -3 
0 4 
và h=B= 
6 3 
3 2 
Do đó, S = tr( A3.B
T) = -1 < 0. 
Vậy, Y = X2. Kết quả này phù hợp với thực tế là khoảng cách hamming d(B,X2) = 5 < 
d(B,X1) = 9. Chú ý rằng các ma trận A1, A2, và B là các tần số bộ đôi móc xích tương ứng 
với các vectơ X1, X2 và Y ở trên. Còn tr(A) là vết (trace) của ma trận A và X
T là ma trận 
chuyển vị của ma trận X. 
5. KẾT LUẬN 
Bài báo trình bày kết quả của việc giải bài toán phân lớp có giám sát (supervised 
classification) và với số k lớp đã cho trước. Trường hợp này đơn giản hơn bài toán phân 
lớp không có giám sát (non-supervised classification) với số lớp k chưa biết. Nhưng nó 
Kỹ thuật Điện tử – Thông tin 
 N. H. Thủy, H. V. Canh, L. N. Thăng, “Một phương pháp định vị  phân lớp có giám sát.” 162 
phục vụ yêu cầu của bài toán định vị đối tượng đã đặt ra. Ngoài ra, bài báo mới chỉ giải 
quyết được đối tượng y có thuộc A i hay không, chứ chưa tìm được x A i mà y = x theo 
một nghĩa nào đó. Để giải quyết tiếp vấn đề này, chúng tôi sẽ đưa ra hai tiếp cận: 
- Một là xây dựng khoảng cách d(x,y), x A i , từ đó x = y khi và chỉ khi 
'
( , ) min( ( ', ))
ix A
d x y d x y
 . 
- Hai là, nhờ sự hỗ trợ và phối hợp với cơ quan chuyên môn. 
TÀI LIỆU THAM KHẢO 
[1]. R. Leonard, G. Doddington, “Automatic Languge Identification”, Technical Report 
RADC-TR-74-200 (Rome Air Development Center) August 1975. 
[2]. R. Leonard, “Language Recognition Test and Evaluation”, Technical Report RADC-
TR-80-83, March 1980. 
[3]. A.S. House, E.P. Neuberg, “Toward Automatic Identification of the Languages of an 
utterance. J. Acoust. Soc. Am. 62(3)”, 708-717 (1977). 
[4]. J. Gauvain, A. Messaoudi, H. Schwenk, “Language recognition using phone lattices”, 
In International Speech Communication Association (INTERSPEECH), pp. 25-28 
(2004). 
[5]. W. Shen, W. Campbell, T. Gleason, D. Reynolds, E. Singer, “Experiments with 
lattice-based PPRLM Language Identification”. In Speaker and Language 
Recognition Workshop, pp. 1-6 (2006). 
[6]. H. Li, B. Ma, C. H. Lee, “Avector space modelling approach to spoken Language 
Identification”, IEEE. Trans. Audio Speech Lang. Process. 15(1), pp.271-284 (2007). 
[7]. G. R. Botha, E. Barmard, “Fators that affect the accuracy of text-based language 
Identification”, Comput, Speech Lang. 26(5), 307-20 (2012). 
[8]. S. M. Siniscalchi, J. Reed, T. Svendsen, C. H. Lee, “Universal attribute 
characterization of spoken Languages for automatic spoken Language recognition”, 
Comput. Speech Lang – 27(1), pp. 209-227 (2013). 
[9]. V. R. Reddy, S. Maity, K. S. Rao, “Identification of Indian Languages using multi-
level spectral and prpsodic Features”, Int. J. Speech Technol (Springer) 16(4), 
pp.489-511 (2013). 
[10]. G. L. Stuber, “Propagation Modeling”, Principles of Mobile Communication; 
(2012). 
[11]. Z. Sanaci et.al, “Heterogengeneity in Mobile Cloud Computing: Taxonomy and Open 
Challenges”, IEEE Commun. Survey & Tutorial, vol. 16, no.1, pp.369-392, 2014. 
[12]. Arch W.Nafflor – George R.Sell 1985: The “Linear Operation Theory”, in National 
and Technical Science, 1985. 
[13]. Hồ Văn Canh, Nguyễn Viết Thế, “Phần 1 Nhập môn: Phân tích thông tin có bảo 
mật’’, Nhà xuất bản Hà Nội T&T – 2010. 
[14]. K.S. Rao and D. Nandi, “Languge Identification using Excitation”, Springer Briefs in 
Speech Technology, DOI 10. 1007/978_3_31q_17725_0_2, 2015. 
[15]. Phạm Anh Phương, Quách Hải Thọ, " Một phương pháp quản lý dữ liệu tham gia 
phân lớp trong mô hình học bán giám sát", Kỷ yếu Hội nghị FAIR tại Đà Nẵng, 
8/2017, DOI: 10. 15625/vap, 2017, 00059. 
Nghiên cứu khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san FEE, 08 - 2018 163
ABSTRACT 
A METHOD DETECTING AN OBJECT BASED ON 
SUPERVISED CLASSIFICATION 
 The aim of the paper is to study and propose a method detecting an object based 
on supervised classification. To resolve the problem, the paper proposes two 
lemmas (lemma 1 and lemma 2) developed from the lemma of Information and 
Statistical Theory, and makes some suggestions applied in pratise. 
Keywords: Classify; Language Identification; Characteristics. 
Nhận bài ngày 01 tháng 7 năm 2018 
Hoàn thiện ngày 24 tháng 8 năm 2018 
Chấp nhận đăng ngày 20 tháng 9 năm 2018 
Địa chỉ: 1 Bộ Công an; 
 2 Học viện Công nghệ Bưu chính Viễn thông. 
 * Email: [email protected].
File đính kèm:
mot_phuong_phap_dinh_vi_doi_tuong_dua_tren_phan_lop_co_giam.pdf