SEO优化服务_SEO网站优化-【云客SEO技术贴】
  • 提交SEO教程
  • SEO教程 > SEO技术 / 正文

    大量的搜索引擎爬虫对网站的影响(整站优化方法)

    2020-02-26 SEO技术 评论

    u=1970538420,1271128356&fm=26&gp=0.jpg

    大量的搜索引擎爬虫对网站的影响

    1、浪费带宽资源

    如果你的网站带宽资源有限,而爬虫的量过多,导致正常用户访问缓慢,原本虚拟主机主机的连接数受限,带宽资源也是有限,这种情况搜索引擎爬虫受影响呈现更明显。

    2、过于频繁的抓取会导致服务器报错

    如果搜索引擎爬虫过于频繁,会抓取扫描很多无效页面,甚至抓页面抓到服务器报502500 504等服务器内部错误了,蜘蛛爬虫还在不停使劲抓取。

    3、与网站主题不相关的搜索引擎爬虫消耗资源

    比如一淘网的抓取工具是一淘网蜘蛛(EtaoSpider),目前是被各大电子商务购物网站屏蔽的,拒绝一淘网抓取其商品信息及用户产生的点评内容。

    被禁止的原因首先应该是它们之间没有合作互利的关系,还有就是EtaoSpider爬虫是一个抓取最疯狂的蜘蛛。

    重点是EtaoSpider被抓取只会消耗你的网站资源,它不会给你带来访问量,或者其它对你有利用的。

    4、无效的测试抓取

    一些搜索引擎开发程序员,它们写的爬虫程序在测试爬行。

    5robots.txt文件也并非是万能

    肯定有很多人认为,在robots.txt设置屏蔽搜索引擎爬虫即可,或者允许某些特定的搜索引擎爬虫,能达到你预想效果。

    正规搜索引擎会遵守规则,不过不会及时生效,但是据我对马海祥博客的测试发现:实际上某些蜘蛛往往不是这样的,先扫描抓取你的页面,无视你的robots.txt,也可能它抓取后不一定留用,或者它只是统计信息,收集互联网行业趋势分析统计。

    6、不是搜索引擎蜘蛛,但具有蜘蛛的特性

    例如采集软件,采集程序,网络扫描e-mail地址的工具,各式各样的SEO分析统计工具,千奇百怪的网站漏洞扫描工具等等,这些抓取对网站没有任何好处!

    如何解决无效搜索引擎蜘蛛取的问题

    各种搜索引擎的蜘蛛爬虫会不断地访问抓取我们站点的内容,也会消耗站点的一定流量,有时候就需要屏蔽某些蜘蛛访问我们的站点。那么接下来,马海祥就根据自己的经验跟大家分享4种解决无效搜索引擎蜘蛛抓取的方法:

    1、只运行常用的搜索引擎蜘蛛抓取

    依据空间流量实际情况,就保留几个常用的,屏蔽掉其它蜘蛛以节省流量。

    2、通过服务器防火墙来屏蔽ip

    从服务器防火墙iptable直接屏蔽蜘蛛IP段、详细的IP,这是最直接、有效的屏蔽方法。

    3WWW服务器层面做限制

    例如NginxSquidLighttpd,直接通过“http_user_agent”屏蔽搜索引擎爬虫。

    4、最后robots.txt文件做限制

    搜索引擎国际规则还是要遵循规则的。


    Tags:搜索引擎蜘蛛   整站优化  

    更多大量的搜索引擎爬虫对网站的影响(整站优化方法)相关文章

    搜索
    网站分类
    标签列表

    需要搜索引擎优化服务,联系客服:

    微信二维码

    添加QQ,提升网站排名:加好友