Luận văn Tóm tắt Nghiên cứu các phương pháp trích rút văn bản từ trang Web và ứng dụng

Sự phát triển nhanh chóng của mạng Web toàn cầu đã sinh ra một khối lượng

khổng lồ các dữ liệu dưới dạng siêu văn bản là các trang web. Trong khi dữ liệu trong

các cơ sở dữ liệu (CSDL) truyền thống thường là loại dữ liệu đồng nhất (về ngôn ngữ,

định dạng, ), còn dữ liệu Web thường không đồng nhất. Ví dụ về ngôn ngữ, dữ liệu

Web bao gồm nhiều loại ngôn ngữ khác nhau (cả ngôn ngữ diễn tả nội dung lẫn ngôn

ngữ lập trình), nhiều loại định dạng khác nhau (văn bản, HTML, PDF, hình ảnh, âm

thanh, ), nhiều loại từ vựng khác nhau (địa chỉ email, các liên kết (links), các mã

vùng (zipcode), số điện thoại). Nói cách khác, trang Web thiếu một cấu trúc thống

nhất.

Luận văn Tóm tắt Nghiên cứu các phương pháp trích rút văn bản từ trang Web và ứng dụng trang 1

Luận văn Tóm tắt Nghiên cứu các phương pháp trích rút văn bản từ trang Web và ứng dụng trang 1

Luận văn Tóm tắt Nghiên cứu các phương pháp trích rút văn bản từ trang Web và ứng dụng trang 2

Luận văn Tóm tắt Nghiên cứu các phương pháp trích rút văn bản từ trang Web và ứng dụng trang 2

Luận văn Tóm tắt Nghiên cứu các phương pháp trích rút văn bản từ trang Web và ứng dụng trang 3

Luận văn Tóm tắt Nghiên cứu các phương pháp trích rút văn bản từ trang Web và ứng dụng trang 3

Luận văn Tóm tắt Nghiên cứu các phương pháp trích rút văn bản từ trang Web và ứng dụng trang 4

Luận văn Tóm tắt Nghiên cứu các phương pháp trích rút văn bản từ trang Web và ứng dụng trang 4

Luận văn Tóm tắt Nghiên cứu các phương pháp trích rút văn bản từ trang Web và ứng dụng trang 5

Luận văn Tóm tắt Nghiên cứu các phương pháp trích rút văn bản từ trang Web và ứng dụng trang 5

Tải về để xem đầy đủ hơn

pdf26 trang | Chia sẻ: theens7quenHDls | Lượt xem: 1238 | Lượt tải: 1download

File đính kèm:

  • pdfluan_van_tom_tat_nghien_cuu_cac_phuong_phap_trich_rut_van_ba.pdf