Apache Nutch doesn't index rss feed properly
我一直在尝试使用"feed"作为解析器(而不是 tika.
理论上,对于每个 RSS 项目,应该在 Solr 中创建一个文档。它被创造了!但只是暂时的。
事实上,一旦索引成功完成,清理作业就会删除所有 RSS 项目。
我的猜测是在 crawlDB 中找不到 RSS 项目的 url,因此它会在 cleanjob 期间从 Solr 中删除它们。会不会是对的?
编辑:
我注意到所有条目都具有相同的"签名",因为提取器如此决定。因此,重复数据删除将它们标记为重复,并且清理器会清理它们。
我正在尝试修改这种情况,但我不明白为什么它会以这种方式进行配置。
Nutch 中的提要插件从提要文件中生成多个文档,而不获取其中列出的 URL。我的猜测是,它将与提要页面相同的签名分配给所有子文档,正如您所指出的那样,这会导致它们被重复数据删除。
这不应该发生,显然是一个错误。您能否为它打开一个 JIRA 问题?
您可以从抓取脚本中删除重复数据删除步骤,以便将您的文档保留在索引中。
或者,您可以编写插件的修改版本,它只是从提要中提取外链接,并让 Nutch 像往常一样获取子文档。这样每个文档都将获得自己的签名,并且重复数据删除将是有意义的。
您更喜欢它的另一个原因是提要条目可能不包含子文档的整个文本/元数据。
有趣的是,我刚刚在 StormCrawler 中添加了一个用于解析提要的资源,与 Nutch 中的不同,它只是检测外链并稍后获取它们。