SEO Magazine - TaiLieuHay.vn

Crawling the Web

Search Engines sẽ chạy những chương trình tự động đặc biệt được gọi là “bots” hoặc “spiders”,những chương

trình này sử dụng cấu trúc hyperlink của website để “crawl” các page và document. Theo ước lượng thì hiện

tại trên thế giới có khoảng 20 tỉ trang web nhưng không phải Search Engines crawl toàn bộ mà chỉ từ 8 đến

10 tỉ trang.

Indexing Documents

Một trang web sau khi được crawl thì nội dung của nó được “indexed” và được lưu trữ trong một database

khổng lồ của search engines. “Index” ở đây ta có thể tạm dịch là chỉ mục (dạng như danh mục).

Các index này được quản lý rất chặc chẽ để mỗi khi có 1 request đến thì trong hàng tỉ document, nó biết chọn

lọc ra cái nào cần thiết và hiển thị còn hiển thị như thế nào sẽ trình bày ở phần sau

SEO Magazine trang 1

SEO Magazine trang 2

SEO Magazine trang 3

SEO Magazine trang 4

SEO Magazine trang 5

Tải về để xem đầy đủ hơn

44 trang | Chia sẻ: theens7quenHDls | Lượt xem: 1537 | Lượt tải: 1

File đính kèm: