SEO Magazine
Crawling the Web
Search Engines sẽ chạy những chương trình tự động đặc biệt được gọi là “bots” hoặc “spiders”,những chương
trình này sử dụng cấu trúc hyperlink của website để “crawl” các page và document. Theo ước lượng thì hiện
tại trên thế giới có khoảng 20 tỉ trang web nhưng không phải Search Engines crawl toàn bộ mà chỉ từ 8 đến
10 tỉ trang.
Indexing Documents
Một trang web sau khi được crawl thì nội dung của nó được “indexed” và được lưu trữ trong một database
khổng lồ của search engines. “Index” ở đây ta có thể tạm dịch là chỉ mục (dạng như danh mục).
Các index này được quản lý rất chặc chẽ để mỗi khi có 1 request đến thì trong hàng tỉ document, nó biết chọn
lọc ra cái nào cần thiết và hiển thị còn hiển thị như thế nào sẽ trình bày ở phần sau
SEO Magazine trang 1
SEO Magazine trang 2
SEO Magazine trang 3
SEO Magazine trang 4
SEO Magazine trang 5
Tải về để xem đầy đủ hơn
File đính kèm:
- seo_magazine.pdf