SEO教程 > SEO技术 / 正文
对搜索引擎蜘蛛友好的链接结构
蜘蛛:网络爬虫,又被称为网页蜘蛛,网络机器人,是按照一定规则,自动抓取互联网网页的程序和脚本。不同搜索引擎有不同的蜘蛛:
百度的:BaiduSipder
谷歌的:谷歌机器人 Googlebot
360的:360蜘蛛 360 Spider
搜狗的: sougospider
搜索引擎引擎的工作分为三个阶段:
1.网页收集:搜索引擎蜘蛛通过链接进行爬行和住区,将抓取到的页面存储到原始数据库中
2.预处理:搜索引擎蜘蛛抓到的页面不能直接进行用户查询混排名,需要进行预处理
3.检索服务:用户输入查询词后,排名程序调用索引数据中的数据,用户用户搜索词相关的页面按照排序顺序彰显给用户
搜索引擎是通过蜘蛛程序对互联网中的网页进行抓取和收集的,网页收集是搜索引擎工作的第一步,了解手所引起网页的抓取机制,便于蜘蛛抓取更多的页面,使得网站有更好的排名
蜘蛛的工作方式:对于互联网中的网站来说,如果没有对其中的链接进行屏蔽设置,蜘蛛就可以通过链接在网址或者网站之间进行爬行和抓取,由于互联网中的网页页面链接结构异常,蜘蛛需要采取一定爬行策略才能进行抓取多的页面
简单爬行策略有两种:一种是深度优先,一种是广度优先。
深度优先:是指蜘蛛会从起始网页开始,一个链接接着一个链接跟踪吸取去,出来完这条线路之后再进入下一个起始页继续跟踪链接。
深度优先模式,蜘蛛从f页面爬行到A1、A2、A3页面,到A3页面后,已经没有其他链接可爬行了,就会返回到f页面,顺着页面上的另一个链接爬行到B1、B2、B3页面。在深度优先策略中,蜘蛛一直爬到无法再向前,才会返回爬行另一条线路
广度优先:是指蜘蛛会抓取起始网页链接中所有的链接,然后再选其中的一个链接页面,继续抓取在此页面中的所有页面,这是常用的方式,因为这个方法可以让网络蜘蛛并行处理,提升其抓取速度
搜索引擎主动抓取网页,并进行内容处理
按照一定策略把网页抓回到搜索引擎服务器;
对抓回的网页进行链接抽离、内容处理,削除噪声、提取该页主题文本内容等;
对网页的文本内容进行中文分词、去除停止词等;
对网页内容进行分词后判断该页面内容与已索引网页是否有重复,去除重复页,对剩余网页进行排序索引,然后等待用户的检索。
更多对搜索引擎蜘蛛友好的链接结构(整站优化方法)相关文章
- 搜索
-
- 03-04搜索引擎蜘蛛适配标注是怎么样的?(整站优化方法)
- 03-04蜘蛛抓取份额由什么决定?如何查看抓取记录?(整站优化方法)
- 03-04搜索引擎蜘蛛也有考核标准?(整站优化方法)
- 03-04如何通过搜索引擎蜘蛛的爬行日志进行网站分析?(整站优化方法)
- 03-04百度搜索引擎蜘蛛的工作原理(整站优化方法)
- 02-26利用robots协议如何屏蔽百度蜘蛛抓取 ?(整站优化方法)
- 02-26导致搜索引擎蜘蛛抓取异常的原因的哪些?(整站优化方法)
- 02-26大量的搜索引擎爬虫对网站的影响(整站优化方法)
- 02-26如何吸引搜索引擎蜘蛛抓取网站(整站优化方法)
- 02-26对搜索引擎蜘蛛友好的链接结构(整站优化方法)
- 64994℃【百度seo关键词优化】一个月把几十个关键词做到百度首页
- 59087℃【百度负面消息】百度口碑负面信息删除
- 54757℃【成都百度快速排名】解密快速上排名原理
- 53232℃【网站推广方法】120种实用网站推广方法站长必看
- 47469℃seo优化教程:如何加快百度对新站点的收录
- 46157℃【提高百度关键词排名】方法你知道多少
- 42949℃【网站seo优化培训】网站优化过程必须注意的几个点
- 42260℃【淘宝搜索优化】淘宝SEO优化教程七步提升宝贝排名
- 39916℃【西安网站优化】新手站长交流论坛有这些
- 39316℃seo怎么优化:一些多年的经历大拿告诉你
- 标签列表