网络蜘蛛:深度优先还是广度优先

2009-12-13 04:01| 发布者: admin| 查看: 40| 评论: 0|原作者: 青鸾峰

　　"网络蜘蛛" 学名Spider,又叫"网络爬虫"! 关于网络蜘蛛的概述这里就不多讲了今天我主要想说的是关于蜘蛛的爬行设计的方式与方法
　　我们可以分为2种:
　　那么什么是深度优先? 什么是广度优先?有什么用? 上海SEO (SWJ) 下面为大家讲解 !
　　本人学知浅薄只会用通俗的话与道理与大家分析如有错误请及时联系我所以还请大家多多见谅包含!
　　一种是深度优先策略一种是广度优先策略! 以下我们就围绕这2点进行分析 SWJ 非常欢迎大家一起交流学习与探讨!
　　深度优先顾名思义就是让网络蜘蛛尽量的在抓取网页时往网页更深层次的挖掘进去讲究的是深度!
　　也泛指: 网络蜘蛛将会从起始页开始，一个链接一个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续跟踪链接!
　　以下我发张图大家看下: (下面这张是简单化的网页连接模型图其中A为起点也就是蜘蛛索引的起点!)
　　总共分了5条路径供蜘蛛爬行! 讲究的是深度!

　　(下面这张是经过优化的网页连接模型图! 也就是改进过的蜘蛛深度爬行策略图!)

　　根据以上2个表格我们可以得出以下结论:
　　图1:
　　路径1 ==> A --> B --> E --> H
　　路径2 ==> A --> B --> E --> i
　　路径3 ==> A --> C
　　路径4 ==> A --> D --> F --> K --> L
　　路径5 ==> A --> D --> G --> K --> L
　　经过优化后
　　图2: (图片已经帮大家标上方向了!)
　　路径1 ==> A --> B --> E --> H
　　路径2 ==> i
　　路径3 ==> C
　　路径4 ==> D --> F --> K --> L
　　路径5 ==> G
　　深度爬行的优点是:
　　网络蜘蛛程序在设计的时候相对比较容易些把其他我也没发觉有什么优点... 还有就是蜘蛛的这种 "勇往直前"的精神值得学习下! ^_^
　　深度爬行的缺点是:
　　缺点么多了一点点呵呵! 每次爬行一层总要向"蜘蛛老家" 数据库访问一下问问老总有必要还要爬下一层吗! 爬一层问一次.... 引用一句高人的话如果一个蜘蛛不管3721不断往下爬很可能迷路更有可能爬到国外的网站去.. 本来目标是中文网站因为IP的问题国外IP做了中文站的话.... 就容易去别人"老家"了..这样不仅增加了系统数据的复杂度更是增加的服务器的负担我想没有一家搜索公司会愿意则样的把,...除非脑子"秀"了 .. ^_^
　　接下来我们介绍下普遍使用的广度优先策略大家休息下喝杯咖啡看的也累把我写的也累.... ^^
　　广度优先在这里的定义就是层爬行
　　什么叫蜘蛛层爬行?
　　就是一层一层的爬行按照层的分布与布局去索引处理与抓取网页! 当然SE不会派一个蜘蛛去的每层会派一个或多个蜘蛛Spider去抓取内容!
　　(下面这张就是广度优先策略图(层爬行图))

　　大家一看就明白了把聪明的人下面的文章也不需要看了答案已经告诉你了 ^ ^
　　根据以上表格我们可以得出以下结论路径图:
　　路径1 ==> A
　　路径2 ==> B --> C --> D
　　路径3 ==> E --> F --> G
　　路径4 ==> H --> i --> K
　　路径5 ==> L
　　广度爬行的优点是:
　　广度相对深度对数据抓取更容易控制些! 对服务器的负栽相应也明显减轻了许多! 爬虫的分布式处理使的速度明显提高! 其他的想也可以想到拉!
　　广度爬行的缺点是:
　　暂时还没观察到有什么缺点呵呵就好比 DIV+CSS样式表(层布局)一样道理你觉得有什么缺点吗?
　　难道是新人不会这个问题? ^ ^
　　不会不要紧下载这本电子书去看看 <> 下载地址: http://www.seo-sh.cn/zl/seoqita/122.html
　　其他还有什么建议意见请多多指教与批评上海SEO负责人SWJ 非常欢迎各位SEO爱好者一起交流学习与探讨SEO优化技术,网站策划也可以 ^_^ 联系方式见首页底部!
　　转自上海SEO http://www.seo-sh.cn
作者 seo-sh 本文仅代表作者观点,与情缘站长教程网立场无关.

收藏分享邀请

		自动登录	找回密码
密码			注册

网络蜘蛛:深度优先还是广度优先

最新评论

相关分类