Cải tiến thuật toán K-Means và ứng dụng phân cụm dữ liệu tự động

Phân cụm dữ liệu tự động là một bài toán phức tạp và được nhiều nhà khoa học nghiên cứu, bước

đầu họ đã đưa ra được một số thuật toán như: K-means, K-medoids,. và đã đạt được những kết

quả nhất định trong tìm kiếm, phân loại dữ liệu. Tuy nhiên, hầu hết những thuật toán này, khi phân

cụm đều yêu cầu xác định số cụm cần thực thi đặc biệt là với thuật toán K-means hoặc yêu cầu

mức độ khác biệt trong việc xác định các thành phần có tính chất giống nhau. Ngoài ra, các kỹ

thuật này còn đòi hỏi phải chọn trước số điểm làm trọng tâm, với số điểm chọn ngẫu nhiên làm

trọng tâm này sẽ cho các kết quả khác nhau. Do vậy, các kết quả có thể là không chính xác, với

mức độ sai số có thể rất lớn.

Bài báo đưa ra cải tiến thuật toán K-means trong phân cụm tài liệu web, thay vì chọn số điểm làm

trọng tâm thì không chọn số điểm làm trọng tâm cho số cụm mà sẽ tăng số cụm từ 1 lên k cụm bằng

cách đưa trung tâm cụm mới vào cụm có mức độ biến dạng Max và tính lại trọng tâm các cụm.

pdf 5 trang kimcuc 16661
Bạn đang xem tài liệu "Cải tiến thuật toán K-Means và ứng dụng phân cụm dữ liệu tự động", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Cải tiến thuật toán K-Means và ứng dụng phân cụm dữ liệu tự động

Cải tiến thuật toán K-Means và ứng dụng phân cụm dữ liệu tự động
Nguyễn Văn Huân và cs Tạp chí KHOA HỌC & CÔNG NGHỆ 61(12/2): 102 - 106 
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
102 
CẢI TIẾN THUẬT TOÁN K-MEANS VÀ ỨNG DỤNG 
PHÂN CỤM DỮ LIỆU TỰ ĐỘNG 
Nguyễn Văn Huân 1, Phạm Việt Bình1, Trương Mạnh Hà1, Vũ Xuân Nam1, Đoàn Mạnh Hồng2 
1 Khoa Công nghệ thông tin – Đại học Thái Nguyên, 
2 Trường Đại học Kinh tế và Quản trị Kinh doanh – Đại học Thái Nguyên 
TÓM TẮT 
Phân cụm dữ liệu tự động là một bài toán phức tạp và được nhiều nhà khoa học nghiên cứu, bước 
đầu họ đã đưa ra được một số thuật toán như: K-means, K-medoids,.. và đã đạt được những kết 
quả nhất định trong tìm kiếm, phân loại dữ liệu. Tuy nhiên, hầu hết những thuật toán này, khi phân 
cụm đều yêu cầu xác định số cụm cần thực thi đặc biệt là với thuật toán K-means hoặc yêu cầu 
mức độ khác biệt trong việc xác định các thành phần có tính chất giống nhau. Ngoài ra, các kỹ 
thuật này còn đòi hỏi phải chọn trước số điểm làm trọng tâm, với số điểm chọn ngẫu nhiên làm 
trọng tâm này sẽ cho các kết quả khác nhau. Do vậy, các kết quả có thể là không chính xác, với 
mức độ sai số có thể rất lớn. 
Bài báo đưa ra cải tiến thuật toán K-means trong phân cụm tài liệu web, thay vì chọn số điểm làm 
trọng tâm thì không chọn số điểm làm trọng tâm cho số cụm mà sẽ tăng số cụm từ 1 lên k cụm bằng 
cách đưa trung tâm cụm mới vào cụm có mức độ biến dạng Max và tính lại trọng tâm các cụm. 
Từ khoá: K-Means, phân cụm, Data mining, Web mining, K-Medoids. 
 GIỚI THIỆU 
Sự phát triển nhanh chóng của mạng Internet 
đã sinh ra một khối lượng khổng lồ các dữ 
liệu dạng siêu văn bản (dữ liệu Web). Các tài 
liệu siêu văn bản chứa đựng văn bản và 
thường nhúng các liên kết đến các tài nguyên 
khác phân bố trên Web. Ngày nay, Web bao 
gồm hàng tỷ tài liệu của hàng triệu tác giả 
được tạo ra và được phân tán qua hàng triệu 
máy tính được kết nối qua đường dây điện 
thoại, cáp quang, sóng radio v.v.. Web đã và 
đang được sử dụng phổ biến trong nhiều lĩnh 
vực như báo chí, phát thanh, truyền hình, hệ 
thống bưu điện, trường học, các tổ chức 
thương mại, chính phủ v.v.. Chính vì vậy lĩnh 
vực Web mining hay tìm kiếm tự động các 
thông tin phù hợp và có giá trị trên Web là 
một chủ đề quan trọng trong Data Mining và 
là vấn đề quan trọng của mỗi đơn vị, tổ chức 
có nhu cầu thu thập và tìm kiếm thông tin trên 
Internet. 
Hiện nay, các hệ thống tìm kiếm thông tin hay 
nói ngắn gọn là các máy tìm kiếm Web thông 
thường trả lại một danh sách các tài liệu được 
phân hạng mà người dùng sẽ phải tốn công 
 Tel: 0987 118 623, Email: nvhuan@ictu.edu.vn 
chọn lọc trong một danh sách rất dài để có 
được những tài liệu phù hợp. Ngoài ra các 
thông tin đó thường rất phong phú, đa dạng 
và liên quan đến nhiều đối tượng khác nhau. 
Điều này tạo nên sự nhập nhằng gây khó khăn 
cho người sự dụng trong việc lấy được các 
thông tin cần thiết. 
Có nhiều hướng tiếp cận khác nhau để giải 
quyết vấn đề này. Các hướng này thường chú 
ý giảm sự nhập nhằng bằng các phương pháp 
lọc hay thêm các tùy chọn để cắt bớt thông tin 
và hướng biểu diễn các thông tin trả về bởi 
các máy tìm kiếm thành từng cụm để cho 
người dùng có thể dễ dàng tìm được thông tin 
mà họ cần. Đã có nhiều thuật toán phân cụm 
tài liệu dựa trên phân cụm ngoại tuyến toàn 
bộ tập tài liệu. Tuy nhiên việc tập hợp tài liệu 
của các máy tìm kiếm là quá lớn và luôn thay 
đổi thì khó có thể phân cụm ngoại tuyến. Do 
đó, việc phân cụm phải được ứng dụng trên 
tập các tài liệu nhỏ hơn được trả về từ các 
truy vấn và thay vì trả về một danh sách rất 
dài các thông tin gây nhập nhằng cho người 
sử dụng cần có một phương pháp tổ chức lại 
các kết quả tìm kiếm một cách hợp lý. 
Hiện nay, đã có nhiều kỹ thuật, thuật toán về 
thu thập, phân cụm dữ liệu tự động [2, 5, 6, 
Nguyễn Văn Huân và cs Tạp chí KHOA HỌC & CÔNG NGHỆ 61(12/2): 102 - 106 
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
103 
11, 12], tuy nhiên hầu hết các kỹ thuật này khi 
phân cụm đều yêu cầu xác định số cụm cần 
thực thi đặc biệt là với thuật toán K-means 
hoặc yêu cầu mức độ khác biệt trong việc xác 
định các thành phần có tính chất giống nhau. 
Ngoài ra, các kỹ thuật này còn đòi hỏi phải 
chọn trước số điểm làm trọng tâm, với số 
điểm chọn ngẫu nhiên làm trọng tâm này sẽ 
cho các kết quả khác nhau. Do vậy, các kết 
quả trên có thể là không chính xác, với mức 
độ sai số có thể rất lớn. Để khắc phục nhược 
điểm trên, nhóm tác giả cải tiến thuật toán K-
means trong thu thập, phân cụm tài liệu Web 
và thay vì chọn số điểm làm trọng tâm, chúng 
ta không chọn số điểm làm trọng tâm cho số 
cụm mà sẽ tăng số cụm từ 1 lên k cụm bằng 
cách đưa trung tâm cụm mới vào cụm có mức 
độ biến dạng lớn nhất và tính lại trọng tâm 
các cụm. 
MỘT SỐ THUẬT TOÁN PHÂN CỤM 
DỮ LIỆU 
Thuật toán K-means 
Tư tưởng: Đầu tiên chọn ngẫu nhiên K mẫu, 
mỗi mẫu này coi như biểu diễn 1 cluster, lúc 
này trong mỗi cluster thì đối với mỗi mẫu đó 
cũng là tâm của cluster. Các mẫu còn lại được 
gán vào một nhóm nào đó trong K nhóm đã 
có sao cho tổng khoảng cách từ nhóm mẫu đó 
đến tâm của nhóm là min. Rồi, tính lại tâm 
cho các nhóm và lặp lại quá trình đó cho đến 
khi hàm tiêu chuẩn hội tụ. Hàm tiêu chuẩn 
hay được dùng nhất là hàm tiêu chuẩn sai-số 
vuông. Thuật toán này, có thể áp dụng được 
đối với cơ sở dữ liệu (CSDL) đa chiều, nhưng 
để dễ minh họa chúng tôi mô tả thuật toán 
trên dữ liệu hai chiều. 
Thuật toán k-means được mô tả như sau: 
Input: K, và dữ liệu về n mẫu của 1 CSDL. 
Output: Một tập gồm K cluster sao cho cực tiểu 
về tổng sai-số vuông. 
Các bước thuật toán: 
Bước 1: Chọn ngẫu nhiên K mẫu vào K cluster. 
Coi tâm của cluster chính là mẫu có trong cluster. 
Bước 2: Tìm tâm mới của cluster. 
Bước 3: Gán các mẫu vào từng cluster sao cho 
khoảng cách từ mẫu đó đến tâm của cluster đó là 
nhỏ nhất. 
Bước 4: Nếu các cluster không có sự thay đổi nào 
sau khi thực hiện bước 3 thì chuyển sang bước 5, 
ngược lại sang bước 2. 
Bước 5: Dừng thuật toán. 
Ví dụ: Trong không gian hai chiều, cho 12 
điểm (n = 12) cần phân 12 điểm này thành 
hai cluster (k=2). 
Đầu tiên, chọn hai điểm ngẫu nhiên vào hai 
cluster (chọn 2 điểm màu đỏ: (1,3); (9,4)) 
Coi điểm (1,3) là tâm của cluster 1 và điểm 
(9,4) là tâm của cluster 2. Tính toán khoảng 
cách từ các điểm khác đến hai điểm này và 
gán được các điểm còn lại này vào một trong 
hai cluster, những điểm có màu trắng vào 
cluster 1, những điểm có màu đen vào cluster 
2. Hiệu chỉnh lại tâm của hai cluster, điểm 
màu xám là tâm mới của hai cluster. Tính lại 
các khoảng cách các điểm đến tâm mới và 
gán lại các điểm này. Tiếp tục hiệu chỉnh lại 
tâm của hai cluster. Rồi, lặp lại cho đến khi 
không còn sự thay đổi nữa thì dừng. 
Hình 1. Minh họa thuật toán K-means 
Độ phức tạp của thuật toán này là O(tKn). 
Trong đó n là số mẫu trong CSDL, K là số 
cluster, t là số lần lặp. Thông thường t,k << n. 
Nên thuật toán này có hiệu quả tương đối với 
các CSDL lớn [Han 2001]. 
Nhận xét: Thuật toán K-means có ưu điểm là 
dễ dàng cài đặt, nhưng lại có nhược điểm là 
phải chỉ ra số lượng cluster và yêu cầu CSDL 
cần phân nhóm phải xác định được tâm. 
Thuật toán này không phù hợp với việc khai 
phá các dữ liệu gồm các cluster có hình dạng 
không lồi. Có thể đưa thêm nhiều cải tiến vào 
K-means để được thuật toán hiệu quả hơn, 
như thay đổi cách chọn các mẫu khởi đầu, 
cách tính tiêu chuẩn,... 
Thuật toán K-Medoid 
Nguyễn Văn Huân và cs Tạp chí KHOA HỌC & CÔNG NGHỆ 61(12/2): 102 - 106 
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
104 
Tư tưởng: Để tìm ra k cụm với n đối tượng 
thì k-medoids chọn ngẫu nhiên k đối tượng 
vào k cụm, coi mỗi đối tượng này là tâm của 
cụm. Phân bổ các đối tượng còn lại vào cụm 
mà sự khác nhau của nó với đối tượng tâm 
của cụm là gần nhất. Sau đó lặp lại quá trình: 
Thay đổi đối tượng tâm của mỗi cụm sao cho 
chất lượng của cụm được cải thiện. Chất 
lượng của cụm được lượng giá bởi một hàm 
đo sự khác nhau giữa một đối tượng và đối 
tượng tâm của cụm chứa nó. Quá trình lặp 
cho đến khi không còn sự thay đổi nào về lực 
lượng cũng như hình dạng của các cụm. 
Để chọn một đối tượng không là đối tượng 
tâm Orandom thay thế tốt cho một đối tượng tâm 
Oj thì mỗi đối tượng p xét theo 4 trường hợp 
sau đây: 
Trường hợp 1: p đang thuộc vào cụm có tâm 
là Oj (từ nay gọi là cụm Oj). Nếu Oj được thay 
thế bởi Orandom và p gần nhất với Oi (i j) thì p 
được gán lại vào Oi 
Trường hợp 2: p đang thuộc vào Oj. Nếu Oj 
được thay thế bởi Orandom và p gần nhất với 
Orandom thì p được gán lại vào Orandom. 
Trường hợp 3: p đang thuộc vào Oi (i j). Nếu 
Oj được thay thế bởi Orandom và p vẫn gần nhất 
với Oi thì không thay đổi gì cả. Tức là p vẫn 
thuộc Oi. 
Trường hợp 4: p đang thuộc vào Oi (i j). Nếu 
Oj được thay thế bởi Orandom và p gần nhất với 
Orandom thì p được gán lại vào Orandom. 
Hình 2. Các trường hợp đối với điểm p 
Thuật toán K-medoid được mô tả như sau: 
Input: Số nguyên k và CSDL gồm n đối tượng 
cần phân cụm. 
Output: Một tập gồm k cụm mà tổng giá trị của 
sự khác nhau của tất cả các đối tượng đến đối 
tượng tâm của nhóm chứa nó là nhỏ nhất. 
Thuật toán: 
Bước 1: Chọn k đối tượng bất kì vào k cụm. Coi 
mỗi đối tượng này là tâm của nhóm. 
Bước 2: Lặp 
Bước 3: Gán mỗi đối tượng còn lại vào một cụm 
mà nó gần với đối tượng tâm của cụm nhất. 
Bước 4: Chọn ngẫu nhiên một đối tượng không là 
đối tượng tâm, Orandom. 
Bước 5: Tính lại giá trị, S, đối với việc đổi Oj với 
Orandom. 
Bước 6: Nếu S<0 thì đổi Oj với Orandom để tạo ra 
một tập với đối tượngtâm mới. 
Bước 7: Đến khi không có sự thay đổi nào nữa thì 
dừng. 
Ví dụ: Trong không gian hai chiều cho n = 10 
điểm, cần chia thành k =2 cụm. Các bước 
thực hiện của thuật toán K-medoids được chỉ 
ra trong hình 3: 
Đầu tiên, chọn hai điểm bất kì vào hai cụm 
(điểm màu đen), rồi xét các điểm còn lại và 
đưa chúng vào một trong hai cụm với điểm 
tâm lần lượt là hai điểm đã chọn ban đầu. 
Tiếp theo, chọn một điểm bất kì khác điểm 
tâm (điểm màu xám). Tính giá của phép 
chuyển đổi điểm tâm từ điểm màu trắng -> 
điểm màu xám. Nếu giá này chất lượng hơn 
thì coi điểm xám là tâm của cụm mới và thực 
lặp lại quá trình đó cho đến khi không còn sự 
thay đổi nào. 
Nhận xét: Thuật toán K-medoids mạnh hơn 
thuật toán K-means trong các trường hợp dữ 
liệu có nhiễu vì K-medoids chịu ảnh hưởng ít 
hơn của nhiễu và các giá trị chênh lệnh so với 
giá trị trung bình. Tuy nhiên cả hai thuật toán 
này đều yêu cầu đưa vào số lượng cụm k. 
CẢI TIẾN THUẬT TOÁN K-MEANS 
TRONG PHÂN CỤM DỮ LIỆU TỰ ĐỘNG 
Bài toán thu thập, phân cụm dữ liệu tự động 
là một bài toán mang tính thời sự, vì trong 
thời đại công nghệ thông tin, với sự trợ giúp 
của máy tính thì việc áp dụng công nghệ 
thông tin vào thu thập dữ liệu tự động trên 
Internet, phân tích phục vụ cho việc phân cụm 
và từ đó hình thành các chủ đề thông tin với 
các dữ liệu thu thập tự động từ Internet. Trên 
cơ sở đó, chúng ta tiến hành phân tích dữ liệu 
Nguyễn Văn Huân và cs Tạp chí KHOA HỌC & CÔNG NGHỆ 61(12/2): 102 - 106 
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
105 
và đưa ra những dự báo trong tương lai với 
từng chủ đề khác nhau như: dự báo tốc độ 
tăng trưởng kinh tế, GDP, chỉ số chứng 
khoán, giá cả hàng hoá,...Điều này làm cơ sở 
cho chúng ta có thể đưa ra một chính sách 
phát triển kinh tế trong cả nước. Tuy nhiên, 
để có được những dữ liệu và phân cụm được 
những dữ liệu đó theo các chủ đề khác nhau 
thì chúng ta phải có các kỹ thuật. Như mục 2, 
nhóm tác giả đã giới thiệu thuật toán K-
Means, tuy nhiên thuật toán có những hạn chế 
nhất định. Do đó, nhóm tác giả cải tiến thuật 
toán này nhằm khắc phục những hạn chế của 
thuật toán K-means. 
Cải tiến thuật toán K-means: thay vì chọn số 
điểm (k) làm trọng tâm, chúng ta không chọn 
số điểm (k) làm trọng tâm cho số cụm mà sẽ 
tăng số cụm từ 1 lên k cụm bằng cách đưa 
trung tâm cụm mới vào cụm có mức độ biến 
dạng lớn nhất và tính lại trọng tâm các cụm. 
Với thuật toán K- means bắt đầu bằng cách 
chọn k cụm và chọn ngẫu nhiên k điểm làm 
trung tâm cụm, hoặc chọn phân hoạch ngẫu 
nhiên k cụm và tính trọng tâm của từng cụm 
này. Việc chọn ngẫu nhiên k điểm làm trung 
tâm cụm như đã nói ở trên có thể cho ra các 
kết quả khác nhau tùy vào chọn k điểm này. 
Thuật toán K-means cải tiến: 
Bước 1: Khởi tạo giá trị ban đầu cho K: K=1 
Bước 2: 
Bước 2.1: Kiểm tra điều kiện K 
Nếu K=1: chọn bất kỳ một điểm làm trung tâm 
của cụm. 
Nếu K>1: thêm trung tâm của cụm mới vào cụm 
có biến dạng max. 
Bước 2.2: Gán từng điểm vào cụm có trung tâm 
gần nhất với điểm đang xét và cập nhật lại trung 
tâm cụm 
Bươc 2.3: Nếu trung tâm cụm không thay đổi, 
chuyển sang bước 3. 
Ngược lại, quay trở lại bước 2.2 (bước 2). 
Bước 3: (Tăng số cụm) 
Nếu K≤ giá trị ấn định số cụm thì K:=K+1, quay trở 
lại bước 2.1 (bước 2). 
Ngược lại, thuật toán dừng. 
Với thuật toán K-means cải tiến: đưa ra sự 
khác biệt, đó là mức độ biến dạng của các 
cụm (dựa trên biến dạng để phân cụm).Mức 
độ biến dạng của các cụm được tính như sau: 
 I=S-N(d(w,x )) 
Trong đó: w: trung tâm của cụm, N: Số các thành 
phần trong cụm; S: Tổng bình phương khoảng 
cách giữa các thành phần trong cụm và trung tâm 
của không gian Euclidean; I: Mức độ biến dạng 
của cụm; d(w,x): là khoảng cách giữa trung tâm w 
của cụm và trung tâm của không gian Euclidean x. 
Nhận xét: 
+ Một cụm có mức độ biến dạng lớn thì trung 
tâm cụm đó có vị trí không thích hợp. 
+ Việc xác định các cụm cũng như xác định 
trung tâm của cụm, như vậy thuật toán chủ 
yếu tìm trung tâm cụm chính xác và xác định 
lại các thành phần trong cụm. 
Với thuật toán K-means cải tiến: 
+ Bước 2: như K-means nhưng khác là: 
không xác định trước k điểm mà tăng k lên 
dần từ 1. Và chọn cụm có mức độ biến dạng 
lớn để phân ra 2 cụm (khi đó 2 cụm này có 
mức độ biến dạng giảm, nhỏ hơn). 
+ Thuật toán cải tiến K-means có độ phức tạp 
là O(k
2 nt), như vậy so với thuật toán K-means 
có độ phức tạp O(tkn) thì: O(k
2 nt)>O(tkn), 
nhưng không bằng K-mendoids, do k<<n. 
Tuy nhiên ưu điểm của thuật toán là giảm sự 
phụ thuộc vào việc khởi tạo các cụm ban đầu 
nên ta sẽ không phải lặp lại thuật toán với 
việc chọn các cụm ban đầu khác nhau để tìm 
ra kết quả tối ưu như ở K-Means. 
THỬ NGHIỆM 
Để đánh giá thuật toán cải tiến K-means, 
nhóm tác giả sử dụng các dữ liệu lấy từ các 
trang Web với các nguồn chính sau: 
+ Các trang được lấy tự động từ các website 
trên internet, việc tìm kiếm được thực hiện 
bằng cách dùng Google, chương trình sẽ dựa 
vào URL để lấy tài liệu và lưu trữ lại phục vụ 
cho quá trình tìm kiếm sau này. 
+ Tìm kiếm có chọn lọc với các chủ đề tin về 
"Chứng khoán", khoảng 250 bài; Chủ đề tin 
về "Tỷ giá hối đoái", khoảng 100 bài; Chủ đề 
tin về "Giá vàng", khoảng 150 bài; Chủ đề tin 
về "Thời tiết", khoảng 50 bài. Các chủ đề đều 
có tần số xuất hiện nhiều.Trên cơ sở thuật toán 
K-means, thuật toán K-medoids, nhóm tác giả 
so sánh kết quả thực hiện phân cụm với các chủ 
đề tin trên. Kết quả bảng dưới. Với độ phức tạp 
của các thuật toán trên, nhóm tác giả thấy thời 
Nguyễn Văn Huân và cs Tạp chí KHOA HỌC & CÔNG NGHỆ 61(12/2): 102 - 106 
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
106 
gian thực hiện thuật toán phụ thuộc vào độ lớn 
cơ sở dữ liệu và số cụm cần phân cụm. 
Số tài 
liệu 
(CSDL) 
Số 
cụm 
Thời gian phân cụm 
trung bình (giây) 
K-
means 
K-medoids 
K-means 
cải tiến 
250 10 9,756 9,106 8,56 
250 15 12,375 11,525 10,972 
100 10 2,518 2,218 2,118 
100 15 3,719 3,119 3,219 
150 10 4,115 4,015 3,005 
150 15 5,723 5,110 5,123 
50 10 0,957 0,907 0,857 
50 15 1,13 1,11 1,00 
KẾT LUẬN 
Tìm kiếm và phân cụm tự động các thông tin 
phù hợp và có giá trị trên Web là một chủ đề 
quan trọng và là vấn đề quan trọng của mỗi 
đơn vị, tổ chức có nhu cầu thu thập và tìm 
kiếm thông tin trên Internet. Bài báo đã đưa ra 
cải tiến thuật toán K-means trong phân cụm 
tài liệu Web. Thay vì chọn số điểm làm trọng 
tâm thì không chọn số điểm làm trọng tâm 
cho số cụm mà sẽ tăng số cụm từ 1 lên k cụm 
bằng cách đưa trung tâm cụm mới vào cụm có 
mức độ biến dạng lớn nhất và tính lại trọng 
tâm các cụm. Nhóm tác giả đã cài đặt thử 
nghiệm trên các bộ cơ sở dữ liệu, cho kết quả 
bước đầu khá khả quan. 
TÀI LIỆU THAM KHẢO 
[1]. Athena Vakali, Web data clustering Current 
research status & trends, Aristotle 
University,Greece, 2004. 
[2]. Raghu Krishnapuram, Anupam Joshi, and Liyu 
Yi, A Fuzzy Relative of the K - Medoids Algorithm 
with Application toWeb Document and Snippet 
Clustering, 2001. 
[3]. Filippo Geraci, Marco Pellegrini, Paolo Pisati, and 
Fabrizio Sebastiani, A scalable algorithm for high-
quality clustering of Web Snippets, Italy, ACM, 2006. 
[4]. Hiroyuki Kawano, Applications of Web mining- 
from Web search engine to P2P filtering, IEEE, 2004. 
[5]. Raymond and Hendrik, Web Mining Research: A 
Survey, ACM, 2000 
[6]. Hua-Jun Zeng, Qi-Cai He, Zheng Chen, Wei-Ying 
Ma, Jinwen Ma, Learning to Cluster Web Search 
Results, ACM, 2004. 
[7]. Lizhen Liu, Junjie Chen, Hantao Song, The 
research of Web Mining, IEEE, 2002 
[8]. Maria Rigou, Spiros Sirmakessis, and Giannis 
Tzimas, A Method for Personalized Clustering in Data 
Intensive Web Applications, 2006. 
[9]. Oren Zamir and Oren Etzioni, Web document 
Clustering: A Feasibility Demonstration, University of 
Washington, USA, ACM, 1998. 
[10]. Periklis Andritsos, Data Clusting Techniques, 
University Toronto,2002. 
[11]. Yitong Wang, Masaru Kitsuregawa, Evaluating 
Contents-Link Coupled Web Page Clustering for Web 
Search Results, ACM, 2002. 
[12]. Zifeng Cui, Xu , Weifeng Zhang, Junling Xu, Web 
Documents Clustering with Interest Links, IEEE, 2005.
SUMMARY 
IMPROVE THE K-MEANS AGORITHM AND APPLY TO DATA AUTOMATIC 
CLUSTERING 
Nguyen Van Huan 
1 
, Pham Viet Binh
1
, Truong Manh Ha
1
, 
Vu Xuan Nam
1
, Doan Manh Hong
2 
1 Faculty of Information Technology - Thai Nguyen University, 
2 Economics and Business Administration - Thai Nguyen Univesity 
Data automatic clustering is a complicated problem and to many research scientists, first step they expose 
some of algorithms: K-means, K-medoids,.. and achieve the result in data search and data clustering. 
However, almost there algorithms, when clustering are required to determine the number of cluster 
performance, especially with K-means algorithm or required different levels in determining the nature and 
composition are similar. In addition, this technique also requires a pre-selected as focal points, with points 
chosen randomly as focus will be to different results. Therefore, the results can be inaccurate, with the level 
of error can be very large. This article offers improved K-means algorithm in web documents clustering, 
instead choose to focal points are not selected as focal points for the number of clusters that will increase the 
number of clusters from 1 to k clusters by introducing new cluster centers with the level of Max deformation 
and recalculating focal clusters. 
Keywords: K-Means, clustering, Data mining, Web mining, K-Medoids. 
 Tel: 0987 118 623, Email: nvhuan@ictu.edu.vn 

File đính kèm:

  • pdfcai_tien_thuat_toan_k_means_va_ung_dung_phan_cum_du_lieu_tu.pdf