设为首页收藏本站

新微赢技术网

 找回密码
 注册
搜索
热搜: 回贴
查看: 10904|回复: 3
打印 上一主题 下一主题

网络蜘蛛程序检索重复页面方法的探索

[复制链接]
跳转到指定楼层
1#
发表于 2009-11-24 02:21:47 | 只看该作者 回帖奖励 |正序浏览 |阅读模式
在v1.2版本webinfo搜索引擎网络蜘蛛程序中对搜索到的重复页面一直没有很好的办法,在1.3版中我尝试在添加新数据时自动将数据库中原有的相同网页地址的数据删除,高手帮帮忙看看下面这段代码有没有问题。
                              string text5 = row2["url"].ToString().Replace("'", "''");
                              textArray2 = new string[5] ...{ "select count(*) from ", sArray, " where url='", text5,"'" } ;
                              text4 = string.Concat(textArray2);   
                              command1.CommandText = text4;
                              int count = (int)  command1.ExecuteScalar();
                               command1.ExecuteNonQuery();
                              if (count != 0)
                              ...{
                              textArray3 = new string[5] ...{ "delete from ", sArray, " where url='",text5 ,"'"} ;
                              text3 = string.Concat(textArray3);
                              Console.WriteLine(count+"重复页面已删除,本次存储完成:"+wghtot);   
                              //Console.WriteLine(count);
                              command1.CommandText = text3;
                              command1.ExecuteNonQuery();
                              }
                              else
                              ...{
                              Console.WriteLine("新数据:"+count);   
                              }
这段代码时可以正常运行的,但是给mssql数据服务器增加了很的负荷,如果搜索数据量非常大很容易造成服务器当机。
2#
发表于 2010-1-30 11:05:05 | 只看该作者
今天没事来逛逛,看了一下,感觉相当的不错。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

申请友链|小黑屋|最新主题|手机版|新微赢技术网 ( 苏ICP备08020429号 )  

GMT+8, 2024-11-18 20:02 , Processed in 0.096276 second(s), 9 queries , Gzip On, Memcache On.

Powered by xuexi

© 2001-2013 HaiAn.Com.Cn Inc. 寰耽

快速回复 返回顶部 返回列表