新微赢技术网

标题: 网络蜘蛛程序检索重复页面方法的探索 [打印本页]

作者: `|楛纞♂ぺ﹖    时间: 2009-11-24 02:21
标题: 网络蜘蛛程序检索重复页面方法的探索
在v1.2版本webinfo搜索引擎网络蜘蛛程序中对搜索到的重复页面一直没有很好的办法,在1.3版中我尝试在添加新数据时自动将数据库中原有的相同网页地址的数据删除,高手帮帮忙看看下面这段代码有没有问题。
                              string text5 = row2["url"].ToString().Replace("'", "''");
                              textArray2 = new string[5] ...{ "select count(*) from ", sArray, " where url='", text5,"'" } ;
                              text4 = string.Concat(textArray2);   
                              command1.CommandText = text4;
                              int count = (int)  command1.ExecuteScalar();
                               command1.ExecuteNonQuery();
                              if (count != 0)
                              ...{
                              textArray3 = new string[5] ...{ "delete from ", sArray, " where url='",text5 ,"'"} ;
                              text3 = string.Concat(textArray3);
                              Console.WriteLine(count+"重复页面已删除,本次存储完成:"+wghtot);   
                              //Console.WriteLine(count);
                              command1.CommandText = text3;
                              command1.ExecuteNonQuery();
                              }
                              else
                              ...{
                              Console.WriteLine("新数据:"+count);   
                              }
这段代码时可以正常运行的,但是给mssql数据服务器增加了很的负荷,如果搜索数据量非常大很容易造成服务器当机。
作者: LXQ    时间: 2010-1-30 11:05
今天没事来逛逛,看了一下,感觉相当的不错。




欢迎光临 新微赢技术网 (http://bbs.weiying.cn/) Powered by Discuz! X3.2