找回密码
 注册
搜索
热搜: 回贴
  • 前程无忧官网首页 有什么好的平台可以
  • 最新的销售平台 互联网营销的平台有哪
  • 制作网页的基本流程 网页制作和网页设
  • 【帝国CMS】输出带序号的列表(数字排
  • 网站建设公司 三一,中联,极东泵车的
  • 织梦 建站 织梦网站模版后台怎么更改
  • 云服务官网 哪些网站有免费的简历模板
  • 如何建网站要什么条件 建网站要用什么
  • 吉林市移动公司电话 吉林省退休人员网
  • 设计类毕业论文 网站设计与实现毕业论
查看: 573|回复: 8

Google爬虫的威力有多大?

[复制链接]
发表于 2008-1-25 16:12:02 | 显示全部楼层 |阅读模式 IP:江苏南通
Google爬虫的威力有多大?
大家都知道现在的搜索引擎都是通过爬虫来收录网页内容的,当然,你也可以主动提交自己的网站,但接下来,还是会有各种各样的爬虫来光临你的网站。这无疑是一件好事,因为爬虫只想帮你的网站提高流量。Google的爬虫叫做googlebot,相信如果你的网站统计能统计爬虫的流量,一定会见过不少googlebot。当然,你的站得被google关注才行。Google的目标是要将全世界的信息都收录起来,可见作为Google的先锋部队,Googlebot一定会不断地加强,或者有一天,它们真的会像Philipp写的科幻短文那样,会上门偷听你所说的话,或者把你家的垃圾桶全搬走调查呢。不过不用怕,就算真有那么一天,也要快则等个十年八年,慢则几十年后。
  但是,如果有一天,你发现自己的网站里的所有内容都被googlebot删除掉了,你会有怎样的反应?我并不是说从Google索引里删掉,而真的从你的服务器里!下面就是这样一个离奇的例子。
  在Digg上面找到的这个故事里,Googlebot被怀疑是删除掉整个网站的元凶!Josh Breackman在一间负责一个大型政府网站的CMS系统开发工作的公间工作。这个CMS开发项目主要是为了让政府员工能创建或维护他们自己的网站上的不断变化的内容。但由于之前他们已经有一个网站,并且网站上面有丰富的内容,所以客户要求在新的网站正式上线之前,将旧网站的内容重组并上传到新网站里。这是一个需时较长的过程,在几个月后,他们终于把所有的旧网站上的内容都转移到新的CMS系统里,并且把新网站正式放上线,公开浏览。
情缘XIUGOO站长之家 网赚联盟 Google专题
  但就在网站正式上线的第六天,他们突然发现新网站上的所有内容都自己消失了!并且所有网页都指向了默认的“请输入内容”编辑页!
  很自然地,Josh被要求对这个事件进行彻查。在调查中,他发现了一个外部的IP曾经进入系统,并且删除了所有系统里的内容!这个IP并不是属于某些海外的黑客,或者目的是想破坏政府网站的信息,而是属于googlebot.com的!也就是说,这个是一个googlebot爬虫!
  那么Googlebot为什么会这么做呢?它怎么会偷偷地将一个网站的内容全部删掉了呢?难道Google与这个政府网站有过节?都不是。经过多番调查,Josh找到了原因。原来在转移内容的过程中,有一个用户将内容从一个网页复制然后粘贴到另一个网页上,其中包括了“编辑”链接,而这个链接是可以编辑内容的。在正常情况下,这个链接是没有问题的,因为外部的用户即使点了这个链接,他还需要输入有效的用户名和密码才能通过身份验证,因此他不可能进行编辑。但是,这个CMS却有一个致命的漏洞,那就是它的认证系统并没有包括像Googlebot这类爬虫在内!也就是说,Googlebot可以轻松通过它的认证系统!
  因为Googlebot没有使用cookies,所以它可以轻松地绕过cookies验证。它也不理会JS代码,所以也不会像普通用户那样点击了“编辑”链接后被自动转向到正常的未登录提示页上。因此,它大摇大摆地顺着网页上的链接把整个网站逛遍了,其中当然包括了标题为“删除网页”的网页!
发表于 2010-2-16 07:05:07 | 显示全部楼层 IP:天津
美丽让男人停下,智慧让男人留下。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

QQ|小黑屋|最新主题|手机版|微赢网络技术论坛 ( 苏ICP备08020429号 )

GMT+8, 2024-9-29 13:18 , Processed in 0.228652 second(s), 15 queries , Gzip On, MemCache On.

Powered by Discuz! X3.5

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表