找回密码
 注册
搜索
热搜: 回贴

Google 搜索引擎spam 的种类

2009-12-13 01:43| 发布者: admin| 查看: 17| 评论: 0|原作者: 回梦游仙


a. 内容型(内容欺骗型与非欺骗型) b. 链接型 c. 复合型
Google 搜索引擎判断spam的一般方法
- 链接分析:网站(域名,IP)之间的链接,网页之间的链接的数目,应该限制在一定的数目内,并且要考虑分布的状况。
- 面单一词汇的分析:(有时叫关键词密度分析)页面单一词汇与页面全部词汇的比例和分布,当页面单一词汇集中在少数关键词上,有spam的嫌疑。
- 连接页面的相似性分析:相互连接的页面几乎完全相似则有spam的嫌疑。
- 内容的贝叶斯分析:关键词之间的相关性可以从训练spam样本和非spam样本得到。例如页面里出现:免费,或者铃声下载都不能判断为spam,但是同时出现“免费”,“铃声下载”就极有可能是spam。
- 相关分析:白名单,黑名单。
- 留言陷阱:例如建立多个blog系统,开放一些文章的留言,内容上说明是专门针对spam留言。这样当一些自动留言程序进行留言后链接就被记录下来,成为一个“陷阱”。
- 正文里非链接的文字的比例。现在采用两种page rank,一种是链接型网页,一种是内容型网页,链接型网页比较容易被判断当做spam,例如 hao123.com 。


最新评论

QQ|小黑屋|最新主题|手机版|微赢网络技术论坛 ( 苏ICP备08020429号 )

GMT+8, 2024-9-30 21:33 , Processed in 0.229393 second(s), 12 queries , Gzip On, MemCache On.

Powered by Discuz! X3.5

© 2001-2023 Discuz! Team.

返回顶部