Bài giảng Khai phá dữ liệu - Chương 4: Phân cụm dữ liệu - Nguyễn Vương Thịnh

Phân cụm dữ liệu (clustering) là gì?

Phân cụm dữ liệu là quá trình phân chia các đối tượng dữ liệu (bản ghi) vào các nhóm (cụm) sao cho các đối tượng thuộc về cùng một cụm thì có các đặc điểm “tương tự” nhau (“gần” nhau) và các đối tượng thuộc về các cụm khác nhau thì có các đặc điểm “khác” nhau (“xa” nhau).

Đại lượng nào xác định sự “tương tự” và “khác” nhau giữa các đối tượng?

Khác với phân lớp, phân cụm được xem quá trình học không có giám sát (unsupervised learning). Dữ liệu được phân vào các cụm mà không cần có tập mẫu học (training sample).

Bài giảng Khai phá dữ liệu - Chương 4: Phân cụm dữ liệu - Nguyễn Vương Thịnh trang 1

Bài giảng Khai phá dữ liệu - Chương 4: Phân cụm dữ liệu - Nguyễn Vương Thịnh trang 2

Bài giảng Khai phá dữ liệu - Chương 4: Phân cụm dữ liệu - Nguyễn Vương Thịnh trang 3

Bài giảng Khai phá dữ liệu - Chương 4: Phân cụm dữ liệu - Nguyễn Vương Thịnh trang 4

Bài giảng Khai phá dữ liệu - Chương 4: Phân cụm dữ liệu - Nguyễn Vương Thịnh trang 5

Tải về để xem đầy đủ hơn

47 trang | Chia sẻ: cucnt | Lượt xem: 839 | Lượt tải: 1

File đính kèm:

bai_giang_khai_pha_du_lieu_chuong_4_phan_cum_du_lieu_nguyen.pptx