Cải tiến thuật toán K-Means và ứng dụng phân cụm dữ liệu tự động

Phân cụm dữ liệu tự động là một bài toán phức tạp và được nhiều nhà khoa học nghiên cứu, bước

đầu họ đã đưa ra được một số thuật toán như: K-means, K-medoids,. và đã đạt được những kết

quả nhất định trong tìm kiếm, phân loại dữ liệu. Tuy nhiên, hầu hết những thuật toán này, khi phân

cụm đều yêu cầu xác định số cụm cần thực thi đặc biệt là với thuật toán K-means hoặc yêu cầu

mức độ khác biệt trong việc xác định các thành phần có tính chất giống nhau. Ngoài ra, các kỹ

thuật này còn đòi hỏi phải chọn trước số điểm làm trọng tâm, với số điểm chọn ngẫu nhiên làm

trọng tâm này sẽ cho các kết quả khác nhau. Do vậy, các kết quả có thể là không chính xác, với

mức độ sai số có thể rất lớn.

Bài báo đưa ra cải tiến thuật toán K-means trong phân cụm tài liệu web, thay vì chọn số điểm làm

trọng tâm thì không chọn số điểm làm trọng tâm cho số cụm mà sẽ tăng số cụm từ 1 lên k cụm bằng

cách đưa trung tâm cụm mới vào cụm có mức độ biến dạng Max và tính lại trọng tâm các cụm.

5 trang kimcuc 26081

Download

Bạn đang xem tài liệu "Cải tiến thuật toán K-Means và ứng dụng phân cụm dữ liệu tự động", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Cải tiến thuật toán K-Means và ứng dụng phân cụm dữ liệu tự động

Nguyễn Văn Huân và cs Tạp chí KHOA HỌC & CÔNG NGHỆ 61(12/2): 102 - 106
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
102
CẢI TIẾN THUẬT TOÁN K-MEANS VÀ ỨNG DỤNG
PHÂN CỤM DỮ LIỆU TỰ ĐỘNG
Nguyễn Văn Huân 1, Phạm Việt Bình1, Trương Mạnh Hà1, Vũ Xuân Nam1, Đoàn Mạnh Hồng2
1 Khoa Công nghệ thông tin – Đại học Thái Nguyên,
2 Trường Đại học Kinh tế và Quản trị Kinh doanh – Đại học Thái Nguyên
TÓM TẮT
Phân cụm dữ liệu tự động là một bài toán phức tạp và được nhiều nhà khoa học nghiên cứu, bước
đầu họ đã đưa ra được một số thuật toán như: K-means, K-medoids,.. và đã đạt được những kết
quả nhất định trong tìm kiếm, phân loại dữ liệu. Tuy nhiên, hầu hết những thuật toán này, khi phân
cụm đều yêu cầu xác định số cụm cần thực thi đặc biệt là với thuật toán K-means hoặc yêu cầu
mức độ khác biệt trong việc xác định các thành phần có tính chất giống nhau. Ngoài ra, các kỹ
thuật này còn đòi hỏi phải chọn trước số điểm làm trọng tâm, với số điểm chọn ngẫu nhiên làm
trọng tâm này sẽ cho các kết quả khác nhau. Do vậy, các kết quả có thể là không chính xác, với
mức độ sai số có thể rất lớn.
Bài báo đưa ra cải tiến thuật toán K-means trong phân cụm tài liệu web, thay vì chọn số điểm làm
trọng tâm thì không chọn số điểm làm trọng tâm cho số cụm mà sẽ tăng số cụm từ 1 lên k cụm bằng
cách đưa trung tâm cụm mới vào cụm có mức độ biến dạng Max và tính lại trọng tâm các cụm.
Từ khoá: K-Means, phân cụm, Data mining, Web mining, K-Medoids.
GIỚI THIỆU
Sự phát triển nhanh chóng của mạng Internet
đã sinh ra một khối lượng khổng lồ các dữ
liệu dạng siêu văn bản (dữ liệu Web). Các tài
liệu siêu văn bản chứa đựng văn bản và
thường nhúng các liên kết đến các tài nguyên
khác phân bố trên Web. Ngày nay, Web bao
gồm hàng tỷ tài liệu của hàng triệu tác giả
được tạo ra và được phân tán qua hàng triệu
máy tính được kết nối qua đường dây điện
thoại, cáp quang, sóng radio v.v.. Web đã và
đang được sử dụng phổ biến trong nhiều lĩnh
vực như báo chí, phát thanh, truyền hình, hệ
thống bưu điện, trường học, các tổ chức
thương mại, chính phủ v.v.. Chính vì vậy lĩnh
vực Web mining hay tìm kiếm tự động các
thông tin phù hợp và có giá trị trên Web là
một chủ đề quan trọng trong Data Mining và
là vấn đề quan trọng của mỗi đơn vị, tổ chức
có nhu cầu thu thập và tìm kiếm thông tin trên
Internet.
Hiện nay, các hệ thống tìm kiếm thông tin hay
nói ngắn gọn là các máy tìm kiếm Web thông
thường trả lại một danh sách các tài liệu được
phân hạng mà người dùng sẽ phải tốn công
Tel: 0987 118 623, Email: [email protected]
chọn lọc trong một danh sách rất dài để có
được những tài liệu phù hợp. Ngoài ra các
thông tin đó thường rất phong phú, đa dạng
và liên quan đến nhiều đối tượng khác nhau.
Điều này tạo nên sự nhập nhằng gây khó khăn
cho người sự dụng trong việc lấy được các
thông tin cần thiết.
Có nhiều hướng tiếp cận khác nhau để giải
quyết vấn đề này. Các hướng này thường chú
ý giảm sự nhập nhằng bằng các phương pháp
lọc hay thêm các tùy chọn để cắt bớt thông tin
và hướng biểu diễn các thông tin trả về bởi
các máy tìm kiếm thành từng cụm để cho
người dùng có thể dễ dàng tìm được thông tin
mà họ cần. Đã có nhiều thuật toán phân cụm
tài liệu dựa trên phân cụm ngoại tuyến toàn
bộ tập tài liệu. Tuy nhiên việc tập hợp tài liệu
của các máy tìm kiếm là quá lớn và luôn thay
đổi thì khó có thể phân cụm ngoại tuyến. Do
đó, việc phân cụm phải được ứng dụng trên
tập các tài liệu nhỏ hơn được trả về từ các
truy vấn và thay vì trả về một danh sách rất
dài các thông tin gây nhập nhằng cho người
sử dụng cần có một phương pháp tổ chức lại
các kết quả tìm kiếm một cách hợp lý.
Hiện nay, đã có nhiều kỹ thuật, thuật toán về
thu thập, phân cụm dữ liệu tự động [2, 5, 6,
Nguyễn Văn Huân và cs Tạp chí KHOA HỌC & CÔNG NGHỆ 61(12/2): 102 - 106
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
103
11, 12], tuy nhiên hầu hết các kỹ thuật này khi
phân cụm đều yêu cầu xác định số cụm cần
thực thi đặc biệt là với thuật toán K-means
hoặc yêu cầu mức độ khác biệt trong việc xác
định các thành phần có tính chất giống nhau.
Ngoài ra, các kỹ thuật này còn đòi hỏi phải
chọn trước số điểm làm trọng tâm, với số
điểm chọn ngẫu nhiên làm trọng tâm này sẽ
cho các kết quả khác nhau. Do vậy, các kết
quả trên có thể là không chính xác, với mức
độ sai số có thể rất lớn. Để khắc phục nhược
điểm trên, nhóm tác giả cải tiến thuật toán K-
means trong thu thập, phân cụm tài liệu Web
và thay vì chọn số điểm làm trọng tâm, chúng
ta không chọn số điểm làm trọng tâm cho số
cụm mà sẽ tăng số cụm từ 1 lên k cụm bằng
cách đưa trung tâm cụm mới vào cụm có mức
độ biến dạng lớn nhất và tính lại trọng tâm
các cụm.
MỘT SỐ THUẬT TOÁN PHÂN CỤM
DỮ LIỆU
Thuật toán K-means
Tư tưởng: Đầu tiên chọn ngẫu nhiên K mẫu,
mỗi mẫu này coi như biểu diễn 1 cluster, lúc
này trong mỗi cluster thì đối với mỗi mẫu đó
cũng là tâm của cluster. Các mẫu còn lại được
gán vào một nhóm nào đó trong K nhóm đã
có sao cho tổng khoảng cách từ nhóm mẫu đó
đến tâm của nhóm là min. Rồi, tính lại tâm
cho các nhóm và lặp lại quá trình đó cho đến
khi hàm tiêu chuẩn hội tụ. Hàm tiêu chuẩn
hay được dùng nhất là hàm tiêu chuẩn sai-số
vuông. Thuật toán này, có thể áp dụng được
đối với cơ sở dữ liệu (CSDL) đa chiều, nhưng
để dễ minh họa chúng tôi mô tả thuật toán
trên dữ liệu hai chiều.
Thuật toán k-means được mô tả như sau:
Input: K, và dữ liệu về n mẫu của 1 CSDL.
Output: Một tập gồm K cluster sao cho cực tiểu
về tổng sai-số vuông.
Các bước thuật toán:
Bước 1: Chọn ngẫu nhiên K mẫu vào K cluster.
Coi tâm của cluster chính là mẫu có trong cluster.
Bước 2: Tìm tâm mới của cluster.
Bước 3: Gán các mẫu vào từng cluster sao cho
khoảng cách từ mẫu đó đến tâm của cluster đó là
nhỏ nhất.
Bước 4: Nếu các cluster không có sự thay đổi nào
sau khi thực hiện bước 3 thì chuyển sang bước 5,
ngược lại sang bước 2.
Bước 5: Dừng thuật toán.
Ví dụ: Trong không gian hai chiều, cho 12
điểm (n = 12) cần phân 12 điểm này thành
hai cluster (k=2).
Đầu tiên, chọn hai điểm ngẫu nhiên vào hai
cluster (chọn 2 điểm màu đỏ: (1,3); (9,4))
Coi điểm (1,3) là tâm của cluster 1 và điểm
(9,4) là tâm của cluster 2. Tính toán khoảng
cách từ các điểm khác đến hai điểm này và
gán được các điểm còn lại này vào một trong
hai cluster, những điểm có màu trắng vào
cluster 1, những điểm có màu đen vào cluster
2. Hiệu chỉnh lại tâm của hai cluster, điểm
màu xám là tâm mới của hai cluster. Tính lại
các khoảng cách các điểm đến tâm mới và
gán lại các điểm này. Tiếp tục hiệu chỉnh lại
tâm của hai cluster. Rồi, lặp lại cho đến khi
không còn sự thay đổi nữa thì dừng.
Hình 1. Minh họa thuật toán K-means
Độ phức tạp của thuật toán này là O(tKn).
Trong đó n là số mẫu trong CSDL, K là số
cluster, t là số lần lặp. Thông thường t,k << n.
Nên thuật toán này có hiệu quả tương đối với
các CSDL lớn [Han 2001].
Nhận xét: Thuật toán K-means có ưu điểm là
dễ dàng cài đặt, nhưng lại có nhược điểm là
phải chỉ ra số lượng cluster và yêu cầu CSDL
cần phân nhóm phải xác định được tâm.
Thuật toán này không phù hợp với việc khai
phá các dữ liệu gồm các cluster có hình dạng
không lồi. Có thể đưa thêm nhiều cải tiến vào
K-means để được thuật toán hiệu quả hơn,
như thay đổi cách chọn các mẫu khởi đầu,
cách tính tiêu chuẩn,...
Thuật toán K-Medoid
Nguyễn Văn Huân và cs Tạp chí KHOA HỌC & CÔNG NGHỆ 61(12/2): 102 - 106
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
104
Tư tưởng: Để tìm ra k cụm với n đối tượng
thì k-medoids chọn ngẫu nhiên k đối tượng
vào k cụm, coi mỗi đối tượng này là tâm của
cụm. Phân bổ các đối tượng còn lại vào cụm
mà sự khác nhau của nó với đối tượng tâm
của cụm là gần nhất. Sau đó lặp lại quá trình:
Thay đổi đối tượng tâm của mỗi cụm sao cho
chất lượng của cụm được cải thiện. Chất
lượng của cụm được lượng giá bởi một hàm
đo sự khác nhau giữa một đối tượng và đối
tượng tâm của cụm chứa nó. Quá trình lặp
cho đến khi không còn sự thay đổi nào về lực
lượng cũng như hình dạng của các cụm.
Để chọn một đối tượng không là đối tượng
tâm Orandom thay thế tốt cho một đối tượng tâm
Oj thì mỗi đối tượng p xét theo 4 trường hợp
sau đây:
Trường hợp 1: p đang thuộc vào cụm có tâm
là Oj (từ nay gọi là cụm Oj). Nếu Oj được thay
thế bởi Orandom và p gần nhất với Oi (i j) thì p
được gán lại vào Oi
Trường hợp 2: p đang thuộc vào Oj. Nếu Oj
được thay thế bởi Orandom và p gần nhất với
Orandom thì p được gán lại vào Orandom.
Trường hợp 3: p đang thuộc vào Oi (i j). Nếu
Oj được thay thế bởi Orandom và p vẫn gần nhất
với Oi thì không thay đổi gì cả. Tức là p vẫn
thuộc Oi.
Trường hợp 4: p đang thuộc vào Oi (i j). Nếu
Oj được thay thế bởi Orandom và p gần nhất với
Orandom thì p được gán lại vào Orandom.
Hình 2. Các trường hợp đối với điểm p
Thuật toán K-medoid được mô tả như sau:
Input: Số nguyên k và CSDL gồm n đối tượng
cần phân cụm.
Output: Một tập gồm k cụm mà tổng giá trị của
sự khác nhau của tất cả các đối tượng đến đối
tượng tâm của nhóm chứa nó là nhỏ nhất.
Thuật toán:
Bước 1: Chọn k đối tượng bất kì vào k cụm. Coi
mỗi đối tượng này là tâm của nhóm.
Bước 2: Lặp
Bước 3: Gán mỗi đối tượng còn lại vào một cụm
mà nó gần với đối tượng tâm của cụm nhất.
Bước 4: Chọn ngẫu nhiên một đối tượng không là
đối tượng tâm, Orandom.
Bước 5: Tính lại giá trị, S, đối với việc đổi Oj với
Orandom.
Bước 6: Nếu S<0 thì đổi Oj với Orandom để tạo ra
một tập với đối tượngtâm mới.
Bước 7: Đến khi không có sự thay đổi nào nữa thì
dừng.
Ví dụ: Trong không gian hai chiều cho n = 10
điểm, cần chia thành k =2 cụm. Các bước
thực hiện của thuật toán K-medoids được chỉ
ra trong hình 3:
Đầu tiên, chọn hai điểm bất kì vào hai cụm
(điểm màu đen), rồi xét các điểm còn lại và
đưa chúng vào một trong hai cụm với điểm
tâm lần lượt là hai điểm đã chọn ban đầu.
Tiếp theo, chọn một điểm bất kì khác điểm
tâm (điểm màu xám). Tính giá của phép
chuyển đổi điểm tâm từ điểm màu trắng ->
điểm màu xám. Nếu giá này chất lượng hơn
thì coi điểm xám là tâm của cụm mới và thực
lặp lại quá trình đó cho đến khi không còn sự
thay đổi nào.
Nhận xét: Thuật toán K-medoids mạnh hơn
thuật toán K-means trong các trường hợp dữ
liệu có nhiễu vì K-medoids chịu ảnh hưởng ít
hơn của nhiễu và các giá trị chênh lệnh so với
giá trị trung bình. Tuy nhiên cả hai thuật toán
này đều yêu cầu đưa vào số lượng cụm k.
CẢI TIẾN THUẬT TOÁN K-MEANS
TRONG PHÂN CỤM DỮ LIỆU TỰ ĐỘNG
Bài toán thu thập, phân cụm dữ liệu tự động
là một bài toán mang tính thời sự, vì trong
thời đại công nghệ thông tin, với sự trợ giúp
của máy tính thì việc áp dụng công nghệ
thông tin vào thu thập dữ liệu tự động trên
Internet, phân tích phục vụ cho việc phân cụm
và từ đó hình thành các chủ đề thông tin với
các dữ liệu thu thập tự động từ Internet. Trên
cơ sở đó, chúng ta tiến hành phân tích dữ liệu
Nguyễn Văn Huân và cs Tạp chí KHOA HỌC & CÔNG NGHỆ 61(12/2): 102 - 106
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
105
và đưa ra những dự báo trong tương lai với
từng chủ đề khác nhau như: dự báo tốc độ
tăng trưởng kinh tế, GDP, chỉ số chứng
khoán, giá cả hàng hoá,...Điều này làm cơ sở
cho chúng ta có thể đưa ra một chính sách
phát triển kinh tế trong cả nước. Tuy nhiên,
để có được những dữ liệu và phân cụm được
những dữ liệu đó theo các chủ đề khác nhau
thì chúng ta phải có các kỹ thuật. Như mục 2,
nhóm tác giả đã giới thiệu thuật toán K-
Means, tuy nhiên thuật toán có những hạn chế
nhất định. Do đó, nhóm tác giả cải tiến thuật
toán này nhằm khắc phục những hạn chế của
thuật toán K-means.
Cải tiến thuật toán K-means: thay vì chọn số
điểm (k) làm trọng tâm, chúng ta không chọn
số điểm (k) làm trọng tâm cho số cụm mà sẽ
tăng số cụm từ 1 lên k cụm bằng cách đưa
trung tâm cụm mới vào cụm có mức độ biến
dạng lớn nhất và tính lại trọng tâm các cụm.
Với thuật toán K- means bắt đầu bằng cách
chọn k cụm và chọn ngẫu nhiên k điểm làm
trung tâm cụm, hoặc chọn phân hoạch ngẫu
nhiên k cụm và tính trọng tâm của từng cụm
này. Việc chọn ngẫu nhiên k điểm làm trung
tâm cụm như đã nói ở trên có thể cho ra các
kết quả khác nhau tùy vào chọn k điểm này.
Thuật toán K-means cải tiến:
Bước 1: Khởi tạo giá trị ban đầu cho K: K=1
Bước 2:
Bước 2.1: Kiểm tra điều kiện K
Nếu K=1: chọn bất kỳ một điểm làm trung tâm
của cụm.
Nếu K>1: thêm trung tâm của cụm mới vào cụm
có biến dạng max.
Bước 2.2: Gán từng điểm vào cụm có trung tâm
gần nhất với điểm đang xét và cập nhật lại trung
tâm cụm
Bươc 2.3: Nếu trung tâm cụm không thay đổi,
chuyển sang bước 3.
Ngược lại, quay trở lại bước 2.2 (bước 2).
Bước 3: (Tăng số cụm)
Nếu K≤ giá trị ấn định số cụm thì K:=K+1, quay trở
lại bước 2.1 (bước 2).
Ngược lại, thuật toán dừng.
Với thuật toán K-means cải tiến: đưa ra sự
khác biệt, đó là mức độ biến dạng của các
cụm (dựa trên biến dạng để phân cụm).Mức
độ biến dạng của các cụm được tính như sau:
I=S-N(d(w,x ))
Trong đó: w: trung tâm của cụm, N: Số các thành
phần trong cụm; S: Tổng bình phương khoảng
cách giữa các thành phần trong cụm và trung tâm
của không gian Euclidean; I: Mức độ biến dạng
của cụm; d(w,x): là khoảng cách giữa trung tâm w
của cụm và trung tâm của không gian Euclidean x.
Nhận xét:
+ Một cụm có mức độ biến dạng lớn thì trung
tâm cụm đó có vị trí không thích hợp.
+ Việc xác định các cụm cũng như xác định
trung tâm của cụm, như vậy thuật toán chủ
yếu tìm trung tâm cụm chính xác và xác định
lại các thành phần trong cụm.
Với thuật toán K-means cải tiến:
+ Bước 2: như K-means nhưng khác là:
không xác định trước k điểm mà tăng k lên
dần từ 1. Và chọn cụm có mức độ biến dạng
lớn để phân ra 2 cụm (khi đó 2 cụm này có
mức độ biến dạng giảm, nhỏ hơn).
+ Thuật toán cải tiến K-means có độ phức tạp
là O(k
2 nt), như vậy so với thuật toán K-means
có độ phức tạp O(tkn) thì: O(k
2 nt)>O(tkn),
nhưng không bằng K-mendoids, do k<<n.
Tuy nhiên ưu điểm của thuật toán là giảm sự
phụ thuộc vào việc khởi tạo các cụm ban đầu
nên ta sẽ không phải lặp lại thuật toán với
việc chọn các cụm ban đầu khác nhau để tìm
ra kết quả tối ưu như ở K-Means.
THỬ NGHIỆM
Để đánh giá thuật toán cải tiến K-means,
nhóm tác giả sử dụng các dữ liệu lấy từ các
trang Web với các nguồn chính sau:
+ Các trang được lấy tự động từ các website
trên internet, việc tìm kiếm được thực hiện
bằng cách dùng Google, chương trình sẽ dựa
vào URL để lấy tài liệu và lưu trữ lại phục vụ
cho quá trình tìm kiếm sau này.
+ Tìm kiếm có chọn lọc với các chủ đề tin về
"Chứng khoán", khoảng 250 bài; Chủ đề tin
về "Tỷ giá hối đoái", khoảng 100 bài; Chủ đề
tin về "Giá vàng", khoảng 150 bài; Chủ đề tin
về "Thời tiết", khoảng 50 bài. Các chủ đề đều
có tần số xuất hiện nhiều.Trên cơ sở thuật toán
K-means, thuật toán K-medoids, nhóm tác giả
so sánh kết quả thực hiện phân cụm với các chủ
đề tin trên. Kết quả bảng dưới. Với độ phức tạp
của các thuật toán trên, nhóm tác giả thấy thời
Nguyễn Văn Huân và cs Tạp chí KHOA HỌC & CÔNG NGHỆ 61(12/2): 102 - 106
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
106
gian thực hiện thuật toán phụ thuộc vào độ lớn
cơ sở dữ liệu và số cụm cần phân cụm.
Số tài
liệu
(CSDL)
Số
cụm
Thời gian phân cụm
trung bình (giây)
K-
means
K-medoids
K-means
cải tiến
250 10 9,756 9,106 8,56
250 15 12,375 11,525 10,972
100 10 2,518 2,218 2,118
100 15 3,719 3,119 3,219
150 10 4,115 4,015 3,005
150 15 5,723 5,110 5,123
50 10 0,957 0,907 0,857
50 15 1,13 1,11 1,00
KẾT LUẬN
Tìm kiếm và phân cụm tự động các thông tin
phù hợp và có giá trị trên Web là một chủ đề
quan trọng và là vấn đề quan trọng của mỗi
đơn vị, tổ chức có nhu cầu thu thập và tìm
kiếm thông tin trên Internet. Bài báo đã đưa ra
cải tiến thuật toán K-means trong phân cụm
tài liệu Web. Thay vì chọn số điểm làm trọng
tâm thì không chọn số điểm làm trọng tâm
cho số cụm mà sẽ tăng số cụm từ 1 lên k cụm
bằng cách đưa trung tâm cụm mới vào cụm có
mức độ biến dạng lớn nhất và tính lại trọng
tâm các cụm. Nhóm tác giả đã cài đặt thử
nghiệm trên các bộ cơ sở dữ liệu, cho kết quả
bước đầu khá khả quan.
TÀI LIỆU THAM KHẢO
[1]. Athena Vakali, Web data clustering Current
research status & trends, Aristotle
University,Greece, 2004.
[2]. Raghu Krishnapuram, Anupam Joshi, and Liyu
Yi, A Fuzzy Relative of the K - Medoids Algorithm
with Application toWeb Document and Snippet
Clustering, 2001.
[3]. Filippo Geraci, Marco Pellegrini, Paolo Pisati, and
Fabrizio Sebastiani, A scalable algorithm for high-
quality clustering of Web Snippets, Italy, ACM, 2006.
[4]. Hiroyuki Kawano, Applications of Web mining-
from Web search engine to P2P filtering, IEEE, 2004.
[5]. Raymond and Hendrik, Web Mining Research: A
Survey, ACM, 2000
[6]. Hua-Jun Zeng, Qi-Cai He, Zheng Chen, Wei-Ying
Ma, Jinwen Ma, Learning to Cluster Web Search
Results, ACM, 2004.
[7]. Lizhen Liu, Junjie Chen, Hantao Song, The
research of Web Mining, IEEE, 2002
[8]. Maria Rigou, Spiros Sirmakessis, and Giannis
Tzimas, A Method for Personalized Clustering in Data
Intensive Web Applications, 2006.
[9]. Oren Zamir and Oren Etzioni, Web document
Clustering: A Feasibility Demonstration, University of
Washington, USA, ACM, 1998.
[10]. Periklis Andritsos, Data Clusting Techniques,
University Toronto,2002.
[11]. Yitong Wang, Masaru Kitsuregawa, Evaluating
Contents-Link Coupled Web Page Clustering for Web
Search Results, ACM, 2002.
[12]. Zifeng Cui, Xu , Weifeng Zhang, Junling Xu, Web
Documents Clustering with Interest Links, IEEE, 2005.
SUMMARY
IMPROVE THE K-MEANS AGORITHM AND APPLY TO DATA AUTOMATIC
CLUSTERING
Nguyen Van Huan
1
, Pham Viet Binh
1
, Truong Manh Ha
1
,
Vu Xuan Nam
1
, Doan Manh Hong
2
1 Faculty of Information Technology - Thai Nguyen University,
2 Economics and Business Administration - Thai Nguyen Univesity
Data automatic clustering is a complicated problem and to many research scientists, first step they expose
some of algorithms: K-means, K-medoids,.. and achieve the result in data search and data clustering.
However, almost there algorithms, when clustering are required to determine the number of cluster
performance, especially with K-means algorithm or required different levels in determining the nature and
composition are similar. In addition, this technique also requires a pre-selected as focal points, with points
chosen randomly as focus will be to different results. Therefore, the results can be inaccurate, with the level
of error can be very large. This article offers improved K-means algorithm in web documents clustering,
instead choose to focal points are not selected as focal points for the number of clusters that will increase the
number of clusters from 1 to k clusters by introducing new cluster centers with the level of Max deformation
and recalculating focal clusters.
Keywords: K-Means, clustering, Data mining, Web mining, K-Medoids.
Tel: 0987 118 623, Email: [email protected]

File đính kèm:

cai_tien_thuat_toan_k_means_va_ung_dung_phan_cum_du_lieu_tu.pdf