将ApacheTika应用于Solr而不是Nutch有什么好处

将ApacheTika应用于Solr而不是Nutch有什么好处,solr,nutch,apache-tika,Solr,Nutch,Apache Tika,我正在尝试使用ApacheNutch抓取数据,并使用ApacheSolr对其进行索引 作为本文的一部分,我还想解析内容。我正在试图弄清楚,将Tika应用于Nutch、Solr还是两者都好。尽可能早地应用Tika,但一定要将原始的、完整的文档保存在某个地方 如果您知道最终要将二进制文件缩减为一组元数据字段并去掉其余字段,那么传递二进制文件是没有意义的

我正在尝试使用ApacheNutch抓取数据,并使用ApacheSolr对其进行索引


作为本文的一部分,我还想解析内容。我正在试图弄清楚,将Tika应用于Nutch、Solr还是两者都好。

尽可能早地应用Tika,但一定要将原始的、完整的文档保存在某个地方

如果您知道最终要将二进制文件缩减为一组元数据字段并去掉其余字段,那么传递二进制文件是没有意义的