SEO优化服务_SEO网站优化-【云客SEO技术贴】
  • 提交SEO教程
  • SEO教程 > SEO技术 / 正文

    百度搜索引擎蜘蛛的工作原理(整站优化方法)

    2020-03-04 SEO技术 评论

    u=35.jpg

      百度搜索引擎蜘蛛的工作原理


          百度搜索引擎蜘蛛抓取网站页面的过程和用户使用浏览器访问网站基本相同。

      蛛程序发出页面访问请求后,服务器返回HTML代码,蜘蛛程序把收到的代码存入原始页面数据库,搜索引擎为了提高爬行和抓取的速度,都使用多个蜘蛛分布爬行。3)百度蜘蛛保存代码:百度搜索引擎蜘蛛将收到的代码保存至原始页面数据库中。后期其他程序会进行复杂操作,大部分优质内容会被放入索引数据库,一部分低质将会被忽略。

      百度搜索引擎蜘蛛为了提高爬行和抓取的效率,采用多个蜘蛛并发分布爬行。

      最佳优先

      最佳优先搜索策略按照一定的网页分析算法,预测候选URL与目标网页的相似度,或与主题的相关性,并选取评价最好的一个或几个URL进行抓取,它只访问经过网页分析算法预测为“有用”的网页。

      存在的一个问题是,在爬虫抓取路径上的很多相关网页可能被忽略,因为最佳优先策略是一种局部最优搜索算法,因此需要将最佳优先结合具体的应用进行改进,以跳出局部最优点,据古月建站博客的研究发现,这样的闭环调整可以将无关网页数量降低30%~90%。

      1)深度优先:深度优先是顺着链接一直向前爬行,直到前面再也没有其他链接,然后返回第一个页面,沿着另外一个链接继续一直往前爬行。

      2)广度优先:广度优先是指先爬行当前页面上的所有导出链接,然后再去爬行某一导出链接页面上的所有链接。

      1)百度蜘蛛也会对网站内容进行检测:对于某些权重较低的网站复制内容过多,搜索引擎蜘蛛可能就不会再继续爬行。

      2)不爬行与抓取地址库中的URL:百度搜索引擎建立一个地址库,如果url已经在地址库中,百度搜索引擎蜘蛛就不会重复去爬行与抓取,所以,百度蜘蛛在发现链接后,并不是马上去访问,而是先将URL存入地址库中,然后统一安排抓取。


    Tags:搜索引擎蜘蛛   整站优化  

    更多百度搜索引擎蜘蛛的工作原理(整站优化方法)相关文章

    搜索
    网站分类
    标签列表