北京网络推广,北京濠庄娱乐hz6888建设,网络营销方案,北京网络营销,濠庄娱乐hz6888优化推广,seo优化公司,-小将濠庄娱乐hz6888建设网络推广公司

站点地图
小将电话
010-51140108
158 1131 6696

百度蜘蛛是如何爬行和抓取的?

作者:小将网络浏览次数:155次发布时间:2015-11-20
内容提要:

 百度蜘蛛是如何爬行和抓取的?

爬行和抓取是搜索引擎工作的第一步,完成数据收集的任务。

1.百度蜘蛛

搜索引擎访问濠庄娱乐hz6888页面时类似于普通用户使用的浏览器。蜘蛛程序发出的页面访问请求时,服务器返回html代码,蜘蛛程序把收到的代码存入原始页面数据库。搜索引擎为了提高爬行和抓取速度,都使用多个蜘蛛并发分布爬行。

蜘蛛访问任何一个濠庄娱乐hz6888时,都会先访问目录下的robots.txt文件。如果robots.txt禁止搜索引擎抓取某些文件和目录,蜘蛛会遵守协议,不抓取被禁止的网址。

和浏览器一样,搜索引擎也有村明自己身份的代理名称,站长可以在日志文件中看到搜索引擎的特定代理名称,从而辨识搜索引擎蜘蛛。

常见的搜索引擎蜘蛛:

1、百度蜘蛛:Baiduspider
网上的资料百度蜘蛛名称有BaiduSpider、baiduspider等,都洗洗睡吧,那是旧黄历了。 百度蜘蛛最新名称为Baiduspider。日志中还发现了Baiduspider-image这个百度旗下蜘蛛,查了下资料(其实直接看名字就可以 了……),是抓取图片的蜘蛛。
常见百度旗下同类型蜘蛛还有下面这些:Baiduspider-mobile(抓取wap)、Baiduspider-image(抓取图片)、Baiduspider-video(抓取视频)、Baiduspider-news(抓取新闻)。
注:以上百度蜘蛛目前常见的是Baiduspider和Baiduspider-image两种。
2、谷歌蜘蛛:Googlebot
这个争议较少,但也有说是GoogleBot的。谷歌蜘蛛最新名称为“compatible; Googlebot/2.1;”。还发现了Googlebot-Mobile,看名字是抓取wap内容的。
3、360蜘蛛:360Spider,它是一个很“勤奋抓爬”的蜘蛛。
4、SOSO蜘蛛:Sosospider,也可为它颁一个“勤奋抓爬”奖的蜘蛛。
5、雅虎蜘蛛:“Yahoo! Slurp China”或者Yahoo! 
名称中带“Slurp”和空格,名称有空格robots里名称可以使用“Slurp”或者“Yahoo”单词描述,不知道有效无效。
6、有道蜘蛛:YoudaoBot,YodaoBot(两个名字都有,中文拼音少了个U字母读音差别很大嘎,这都会少?)
7、搜狗蜘蛛:Sogou News Spider


2.跟踪链接

为了抓取网上尽量多的页面,搜索引擎蜘蛛会跟踪页面上的链接,从一个页面爬到下一个页面,就好像蜘蛛在蜘蛛网上爬行那样,这也就是搜索引擎蜘蛛这个名称的由来。

整个互联网是由相互链接的濠庄娱乐hz6888及页面组成的。从理论上说,蜘蛛从任何一个页面出发,顺着链接都可以爬行到网上的所有页面。当然,由于濠庄娱乐hz6888及页面的链接结构异常复杂,蜘蛛需要采用一定的爬行策略才能遍历网上的所有页面。

最简单的爬行遍历分类两种,一种是深度优先,另一种广度优行。

所谓深度优先,指的蜘蛛沿着发的链接一直向前爬行,直到前面的再也有没其它链接,然后返回到第一个页面,没着另一个链接再一直爬行。

广度优先是指蜘蛛在一个页在发现多个链接时,不是顺着一个链接一直向前,而是把页面所以第一层链接都爬一遍,然后再沿着第二层链接发现链接爬向第三层页面。

从理论上说,无论是广度优先还是深度优先,只要给蜘蛛足够的时间,都能爬完整个互联网。在实际工作中,蜘蛛带宽资源,时间都不是无限的,也不可能爬完整个互联网。实际上最大搜索引擎也是只爬行和收录互联网中的一小部分。

3.吸引蜘蛛

吸引蜘蛛的方法有很多,我们来总结一下:

濠庄娱乐hz6888和页面的权重。质量高、资格老的濠庄娱乐hz6888被 认为权生比较高,这种濠庄娱乐hz6888上的页面被爬行的深度也会比较高,所以会有更内页会收录。

页面更新度。蜘蛛每次爬行都会把页面数据存储起来。如果第二次爬行发现页面与第一次收录的完全一样,说明页面没有更新,蜘蛛也就没有必要经常抓取。反之闭口结舌页面经常更新,蜘蛛就会更加频繁的访问这种页面,页面上出现的新链接,也自然会被蜘蛛更快地跟踪,抓取新页面。

4.地址库

为了避免重复爬行和抓取网址,搜索引擎会建立一个地址库,记录已经被发现还没有抓取的页面,以及已经被抓取的页面。

地址库中的url有几个来源:

1.人工录入的种子濠庄娱乐hz6888。

2蜘蛛抓取页页后,从html中解析出新的链接url,与地址库中的数据进行对比,如果是地址库中没有网址,就存入待访问地址库。

3.站长通过搜索引擎网页提交进来的网址。

蜘蛛按重要性从待访问地址库提取url,访问并抓取页面。然后把这个url从待访问库中删除,放进已访问地址库中。

5.文件存储

6.爬行时的复制内容检测

检测并删除复制内容通常在下面介绍的预处理过种中进行的,但现在的蜘蛛在爬行和抓取文件时也会进行一定程度的复制内容检测。遇到权重很低的濠庄娱乐hz6888上大量转载或抄袭内容时,很可能不再继续爬行。这也是很多站长发现蜘蛛,但页面从来没有被真正收录过网页。


本文由小将网络营销整理发布,转载注明出处!
中国 · 北京
北京市丰台区刘家窑桥东
嘉业大厦2期7层
100022
(c)2004-2015 www.xiaojiangseo.com
All Rights Reserved.
京ICP备13012081号-4
Tel:010-51140108 158-1131-6696
Do You Best,Mutually Promote Symbiosis
Emial:0902lin@163.com
<友情连结> 龙腾盛世网络公司/ 深圳市壹起航科技有限公司/ 【乐云践新】深圳网络推广公司/ Eelco van den Berg/ 1169 And Counting.....: 10/28/2012 - 11/04/2012/