在我写出网页信噪比的一点研究之后,石头老兄在他的研究之上提出了他的网页信噪比我之见。呵呵,说来凑巧,昨天晚上我和他讨论了些问题,不过当时比较晚了,后来我睡觉了,-_-! 没有及时的看到他的文章,今天早上一位网友给我发来地址,上午一直没有时间,中午好好的又研究了一下。 发现石头在文章中的“为有用信息和无用信息,对于搜索引擎来说,是针对具体关键词而言的。所以网页的信噪比跟具体某一关键词的信噪比应该有所区分。具体关键字的信噪比是网页中对该关键字检索有利的信息和干扰信息之比。而网页的信噪比为该页面核心关键字的信噪比。” 这样说是不是不对,但我的认为是这样不该叫做网页信噪比,而是搜索引擎在搜索过程中的文字信息的信噪比。因为在实际的搜索结果对比中,不同的分类是有不同的说法,比如大家在“6e的网页信噪比”这篇文献中可以看到一些端倪,如图: Result for http://wangxiaohu.org 分类::权重:网页信噪比 linux:: 学校:: 环境:: 中国:: 饮料:: 声音:: 软件:: 考试:: 电脑:: blog:: 智慧:: 写作:: 物理:: 污染:: 数学:: 视频:: 生活:: 商业:: 论坛:: 旅游:: 在文章中作者也提到:竟然知道我最喜欢的话题是Linux。实际上我的Blog里并没有多少是讲Linux的。按照”网页的信噪比为该页面核心关键字的信噪比“的说法,那么该blog的网页信噪比应该是: 生活:: 电脑:: 环境:: 所以,这样的说法在实际的例子中是不成立的。也就是说狭隘的将网页的信噪比划分到围绕关键字词的定义是有违于算法的基本分类和搜索方法。 另外,如果利用这样狭隘的解释,是无法解释如下例子: 大家在google中输入“ccc认证” 在第二页中的第8位: http://www.necsl.com.cn/product/touying/product-vt676-2.html 这个里面只有一张图,仔细查看,没有任何的瞄文本,那么google是如何让其有这样排名的呢?如果依靠刚才的信噪比说法,该站和ccc认证是没有任何关系,是和图有关系,当然,这个也不能证明google能获取图片中的3C认证的字样。但是却已经否定了网页的信噪比为该页面核心关键字的信噪比这样的说法。因为这样的说法不代表全面性。 为此我也查阅过一些有关资料,在卢亮的“基于信息噪音模型的分类算法”的ppt中有一段说明: 文本信息的噪音模型 *假设文本是有两部分构成的,由信号和噪音的叠加构成。 *噪音的定义为不能对文本进行有效的分辨的内容,例如传统的停止词,极高频词 *信号的定义为有差别于其它信息的特征内容,为不常见的关键词 然后在其中的 噪音的消除 有这样一个过程说明: 也就是说在相同的关键字词围绕中,算法本身就会去除部分的 的关键字词叠加。 那么究竟什么是网页信噪比,现在也不能马上过早或者单一的下结论,我相信在以后更为深入的探讨和大家的讨论中,会给大家一个满意的答复。请大家继续关注点石博客。 当然,这些例子都是围绕关键字词是否就是网页信噪比而言的,其实我本身通过当时的研究,也正和石头在撰文中所表现在思想一样:即在设计网站的时候,如果需要考虑seo的因素,那么合理的去规划整个网站的整体的素质,突出主题,在具体的设计过程中,去除不合理或者冗杂因素,那么在你方便浏览者的同时,搜索引擎也会给你一个好的排名。 |
|小黑屋|最新主题|手机版|微赢网络技术论坛 ( 苏ICP备08020429号 )
GMT+8, 2024-9-30 19:38 , Processed in 0.204469 second(s), 12 queries , Gzip On, MemCache On.
Powered by Discuz! X3.5
© 2001-2023 Discuz! Team.