Cải tiến thuật toán K-Means và ứng dụng phân cụm dữ liệu tự động

Phân cụm dữ liệu tự động là một bài toán phức tạp và được nhiều nhà khoa học nghiên cứu, bước

đầu họ đã đưa ra được một số thuật toán như: K-means, K-medoids,. và đã đạt được những kết

quả nhất định trong tìm kiếm, phân loại dữ liệu. Tuy nhiên, hầu hết những thuật toán này, khi phân

cụm đều yêu cầu xác định số cụm cần thực thi đặc biệt là với thuật toán K-means hoặc yêu cầu

mức độ khác biệt trong việc xác định các thành phần có tính chất giống nhau. Ngoài ra, các kỹ

thuật này còn đòi hỏi phải chọn trước số điểm làm trọng tâm, với số điểm chọn ngẫu nhiên làm

trọng tâm này sẽ cho các kết quả khác nhau. Do vậy, các kết quả có thể là không chính xác, với

mức độ sai số có thể rất lớn.

Bài báo đưa ra cải tiến thuật toán K-means trong phân cụm tài liệu web, thay vì chọn số điểm làm

trọng tâm thì không chọn số điểm làm trọng tâm cho số cụm mà sẽ tăng số cụm từ 1 lên k cụm bằng

cách đưa trung tâm cụm mới vào cụm có mức độ biến dạng Max và tính lại trọng tâm các cụm.

Cải tiến thuật toán K-Means và ứng dụng phân cụm dữ liệu tự động trang 1

Cải tiến thuật toán K-Means và ứng dụng phân cụm dữ liệu tự động trang 2

Cải tiến thuật toán K-Means và ứng dụng phân cụm dữ liệu tự động trang 3

Cải tiến thuật toán K-Means và ứng dụng phân cụm dữ liệu tự động trang 4

Cải tiến thuật toán K-Means và ứng dụng phân cụm dữ liệu tự động trang 5

Tải về để xem đầy đủ hơn

5 trang | Chia sẻ: cucnt | Lượt xem: 1063 | Lượt tải: 1Free

File đính kèm: