Bài giảng Khai phá dữ liệu - Chương 2: Tiền xử lý dữ liệu - Nguyễn Vương Thịnh

Tại sao phải tiền xử lý dữ liệu?

Dữ liệu trong thế giới thực (mà chúng ta muốn phân tích bằng cách áp dụng các kỹ thuật khai phá dữ liệu) thường:

Không hoàn chỉnh (incomplete): thiếu vắng các giá trị hoặc các thuộc tính đáng quan tâm, hoặc chỉ chứa các dữ liệu gộp nhóm.

Chứa đựng các giá trị nhiễu (noisy): bao gồm các lỗi hoặc các giá trị lệch quá xa ra ngoài phạm vi mong đợi.

Không nhất quán (inconsistent).

 

Bài giảng Khai phá dữ liệu - Chương 2: Tiền xử lý dữ liệu - Nguyễn Vương Thịnh trang 1

Bài giảng Khai phá dữ liệu - Chương 2: Tiền xử lý dữ liệu - Nguyễn Vương Thịnh trang 1

Bài giảng Khai phá dữ liệu - Chương 2: Tiền xử lý dữ liệu - Nguyễn Vương Thịnh trang 2

Bài giảng Khai phá dữ liệu - Chương 2: Tiền xử lý dữ liệu - Nguyễn Vương Thịnh trang 2

Bài giảng Khai phá dữ liệu - Chương 2: Tiền xử lý dữ liệu - Nguyễn Vương Thịnh trang 3

Bài giảng Khai phá dữ liệu - Chương 2: Tiền xử lý dữ liệu - Nguyễn Vương Thịnh trang 3

Bài giảng Khai phá dữ liệu - Chương 2: Tiền xử lý dữ liệu - Nguyễn Vương Thịnh trang 4

Bài giảng Khai phá dữ liệu - Chương 2: Tiền xử lý dữ liệu - Nguyễn Vương Thịnh trang 4

Bài giảng Khai phá dữ liệu - Chương 2: Tiền xử lý dữ liệu - Nguyễn Vương Thịnh trang 5

Bài giảng Khai phá dữ liệu - Chương 2: Tiền xử lý dữ liệu - Nguyễn Vương Thịnh trang 5

Tải về để xem đầy đủ hơn

pptx44 trang | Chia sẻ: cucnt | Lượt xem: 361 | Lượt tải: 0download

File đính kèm:

  • pptxbai_giang_khai_pha_du_lieu_chuong_2_tien_xu_ly_du_lieu_nguye.pptx