1:假如说你的站点页面中有这么一句: 你利用Nutch抓取并分析时,如何得到这个meta数值并处理呢? 2:你可以从HtmlParseFilter扩展出一个RobotsParserFilter,用下面的代码得到meta值: Properties generalMetaTags = metaTags.getGeneralTags(); 情缘.教程_网 [http://Www.XiuGoo.Com] String robots = generalMetaTags.getProperty("robots"); 3:增加这个值到metadata中: parse.getData().getMetadata().put("robots", robots); 4: robots属性还可以再次从 metadata获取: String robots2 = parse.getData().get("robots"); |
|小黑屋|最新主题|手机版|微赢网络技术论坛 ( 苏ICP备08020429号 )
GMT+8, 2024-9-30 03:24 , Processed in 0.144190 second(s), 12 queries , Gzip On, MemCache On.
Powered by Discuz! X3.5
© 2001-2023 Discuz! Team.