SEO教程 > SEO技术 / 正文
大量的搜索引擎爬虫对网站的影响
1、浪费带宽资源
如果你的网站带宽资源有限,而爬虫的量过多,导致正常用户访问缓慢,原本虚拟主机主机的连接数受限,带宽资源也是有限,这种情况搜索引擎爬虫受影响呈现更明显。
2、过于频繁的抓取会导致服务器报错
如果搜索引擎爬虫过于频繁,会抓取扫描很多无效页面,甚至抓页面抓到服务器报502、500 、504等服务器内部错误了,蜘蛛爬虫还在不停使劲抓取。
3、与网站主题不相关的搜索引擎爬虫消耗资源
比如一淘网的抓取工具是一淘网蜘蛛(EtaoSpider),目前是被各大电子商务购物网站屏蔽的,拒绝一淘网抓取其商品信息及用户产生的点评内容。
被禁止的原因首先应该是它们之间没有合作互利的关系,还有就是EtaoSpider爬虫是一个抓取最疯狂的蜘蛛。
重点是EtaoSpider被抓取只会消耗你的网站资源,它不会给你带来访问量,或者其它对你有利用的。
4、无效的测试抓取
一些搜索引擎开发程序员,它们写的爬虫程序在测试爬行。
5、robots.txt文件也并非是万能
肯定有很多人认为,在robots.txt设置屏蔽搜索引擎爬虫即可,或者允许某些特定的搜索引擎爬虫,能达到你预想效果。
正规搜索引擎会遵守规则,不过不会及时生效,但是据我对马海祥博客的测试发现:实际上某些蜘蛛往往不是这样的,先扫描抓取你的页面,无视你的robots.txt,也可能它抓取后不一定留用,或者它只是统计信息,收集互联网行业趋势分析统计。
6、不是搜索引擎蜘蛛,但具有蜘蛛的特性
例如采集软件,采集程序,网络扫描e-mail地址的工具,各式各样的SEO分析统计工具,千奇百怪的网站漏洞扫描工具等等,这些抓取对网站没有任何好处!
如何解决无效搜索引擎蜘蛛取的问题
各种搜索引擎的蜘蛛爬虫会不断地访问抓取我们站点的内容,也会消耗站点的一定流量,有时候就需要屏蔽某些蜘蛛访问我们的站点。那么接下来,马海祥就根据自己的经验跟大家分享4种解决无效搜索引擎蜘蛛抓取的方法:
1、只运行常用的搜索引擎蜘蛛抓取
依据空间流量实际情况,就保留几个常用的,屏蔽掉其它蜘蛛以节省流量。
2、通过服务器防火墙来屏蔽ip
从服务器防火墙iptable直接屏蔽蜘蛛IP段、详细的IP,这是最直接、有效的屏蔽方法。
3、WWW服务器层面做限制
例如Nginx,Squid,Lighttpd,直接通过“http_user_agent”屏蔽搜索引擎爬虫。
4、最后robots.txt文件做限制
搜索引擎国际规则还是要遵循规则的。
更多大量的搜索引擎爬虫对网站的影响(整站优化方法)相关文章
- 搜索
-
- 03-04搜索引擎蜘蛛适配标注是怎么样的?(整站优化方法)
- 03-04蜘蛛抓取份额由什么决定?如何查看抓取记录?(整站优化方法)
- 03-04搜索引擎蜘蛛也有考核标准?(整站优化方法)
- 03-04如何通过搜索引擎蜘蛛的爬行日志进行网站分析?(整站优化方法)
- 03-04百度搜索引擎蜘蛛的工作原理(整站优化方法)
- 02-26利用robots协议如何屏蔽百度蜘蛛抓取 ?(整站优化方法)
- 02-26导致搜索引擎蜘蛛抓取异常的原因的哪些?(整站优化方法)
- 02-26大量的搜索引擎爬虫对网站的影响(整站优化方法)
- 02-26如何吸引搜索引擎蜘蛛抓取网站(整站优化方法)
- 02-26对搜索引擎蜘蛛友好的链接结构(整站优化方法)
- 64994℃【百度seo关键词优化】一个月把几十个关键词做到百度首页
- 59087℃【百度负面消息】百度口碑负面信息删除
- 54757℃【成都百度快速排名】解密快速上排名原理
- 53232℃【网站推广方法】120种实用网站推广方法站长必看
- 47469℃seo优化教程:如何加快百度对新站点的收录
- 46157℃【提高百度关键词排名】方法你知道多少
- 42949℃【网站seo优化培训】网站优化过程必须注意的几个点
- 42260℃【淘宝搜索优化】淘宝SEO优化教程七步提升宝贝排名
- 39916℃【西安网站优化】新手站长交流论坛有这些
- 39316℃seo怎么优化:一些多年的经历大拿告诉你
- 标签列表