Luận văn Tóm tắt Nghiên cứu các phương pháp trích rút văn bản từ trang Web và ứng dụng
Sự phát triển nhanh chóng của mạng Web toàn cầu đã sinh ra một khối lượng
khổng lồ các dữ liệu dưới dạng siêu văn bản là các trang web. Trong khi dữ liệu trong
các cơ sở dữ liệu (CSDL) truyền thống thường là loại dữ liệu đồng nhất (về ngôn ngữ,
định dạng, ), còn dữ liệu Web thường không đồng nhất. Ví dụ về ngôn ngữ, dữ liệu
Web bao gồm nhiều loại ngôn ngữ khác nhau (cả ngôn ngữ diễn tả nội dung lẫn ngôn
ngữ lập trình), nhiều loại định dạng khác nhau (văn bản, HTML, PDF, hình ảnh, âm
thanh, ), nhiều loại từ vựng khác nhau (địa chỉ email, các liên kết (links), các mã
vùng (zipcode), số điện thoại). Nói cách khác, trang Web thiếu một cấu trúc thống
nhất.
Luận văn Tóm tắt Nghiên cứu các phương pháp trích rút văn bản từ trang Web và ứng dụng trang 1
Luận văn Tóm tắt Nghiên cứu các phương pháp trích rút văn bản từ trang Web và ứng dụng trang 2
Luận văn Tóm tắt Nghiên cứu các phương pháp trích rút văn bản từ trang Web và ứng dụng trang 3
Luận văn Tóm tắt Nghiên cứu các phương pháp trích rút văn bản từ trang Web và ứng dụng trang 4
Luận văn Tóm tắt Nghiên cứu các phương pháp trích rút văn bản từ trang Web và ứng dụng trang 5
Tải về để xem đầy đủ hơn
File đính kèm:
- luan_van_tom_tat_nghien_cuu_cac_phuong_phap_trich_rut_van_ba.pdf