Cải tiến thuật toán K-Means và ứng dụng phân cụm dữ liệu tự động
Phân cụm dữ liệu tự động là một bài toán phức tạp và được nhiều nhà khoa học nghiên cứu, bước
đầu họ đã đưa ra được một số thuật toán như: K-means, K-medoids,. và đã đạt được những kết
quả nhất định trong tìm kiếm, phân loại dữ liệu. Tuy nhiên, hầu hết những thuật toán này, khi phân
cụm đều yêu cầu xác định số cụm cần thực thi đặc biệt là với thuật toán K-means hoặc yêu cầu
mức độ khác biệt trong việc xác định các thành phần có tính chất giống nhau. Ngoài ra, các kỹ
thuật này còn đòi hỏi phải chọn trước số điểm làm trọng tâm, với số điểm chọn ngẫu nhiên làm
trọng tâm này sẽ cho các kết quả khác nhau. Do vậy, các kết quả có thể là không chính xác, với
mức độ sai số có thể rất lớn.
Bài báo đưa ra cải tiến thuật toán K-means trong phân cụm tài liệu web, thay vì chọn số điểm làm
trọng tâm thì không chọn số điểm làm trọng tâm cho số cụm mà sẽ tăng số cụm từ 1 lên k cụm bằng
cách đưa trung tâm cụm mới vào cụm có mức độ biến dạng Max và tính lại trọng tâm các cụm.
Cải tiến thuật toán K-Means và ứng dụng phân cụm dữ liệu tự động trang 1
Cải tiến thuật toán K-Means và ứng dụng phân cụm dữ liệu tự động trang 2
Cải tiến thuật toán K-Means và ứng dụng phân cụm dữ liệu tự động trang 3
Cải tiến thuật toán K-Means và ứng dụng phân cụm dữ liệu tự động trang 4
Cải tiến thuật toán K-Means và ứng dụng phân cụm dữ liệu tự động trang 5
Tải về để xem đầy đủ hơn
File đính kèm:
- cai_tien_thuat_toan_k_means_va_ung_dung_phan_cum_du_lieu_tu.pdf