Java 如何在ApacheSolr上索引PDF文档

Java 如何在ApacheSolr上索引PDF文档,java,pdf,solr,document,Java,Pdf,Solr,Document,我是Solr的新手。因为我看其他主题看不懂任何东西,他们的解释对我来说太专业了,我正在寻找关于将PDF文档索引到Solr的基本解释 我从一些stackoverflow主题中找到了这个链接,但它不是教程 我只想在solr中添加许多pdf文档,然后搜索并下载它们 我如何才能做到这一点?我必须在eclipse或任何地方创建java项目吗?我想看一下其中的一个教程,例如5分钟内的Solr,这里是[1]链接 通常情况下,Solr和ElasticSearch一样,允许索引OTB而无需编写任何代码,因此通过

我是Solr的新手。因为我看其他主题看不懂任何东西,他们的解释对我来说太专业了,我正在寻找关于将PDF文档索引到Solr的基本解释

我从一些stackoverflow主题中找到了这个链接,但它不是教程

我只想在solr中添加许多pdf文档,然后搜索并下载它们


我如何才能做到这一点?我必须在eclipse或任何地方创建java项目吗?

我想看一下其中的一个教程,例如5分钟内的Solr,这里是[1]链接

通常情况下,Solr和ElasticSearch一样,允许索引OTB而无需编写任何代码,因此通过简单的配置文件,您应该能够将文件夹指向索引;在某些情况下,CLI工具应允许您在命令行上指定此类信息

无论如何,使用Solr实现这一点的最简单方法是使用“post.jar”:

cd example/exampledocs
java -Dc=techproducts -jar post.jar sd500.xml
添加sd500.xml。如果您有多个文件,可以使用一个简单的bash脚本来循环它们并发布到Solr

希望有帮助

[1]


[2]

非常感谢。我是否应该将PDF文件转换为XML,然后将XML文件发布到solr?不一定。您可以对PDF文件使用相同的方法。我相信Solr会为您选择合适的解析器OTB。我正在使用Solr 4.10.2,我在exampledocs中找到了post.jar和1个pdf文件,并将它们移动到我创建的文件夹中。我在终端上的文件夹里alican@alican:~/Downloads/solr-4.10.2/example/solr/senior$然后打印了这个,java-Dc=senior-jar post.jar solr-word.pdf lt向我显示了以下消息:SimplePostTool版本1.5使用内容类型application/xml将文件发布到基本url。。发布文件solr-word.pdf SimplePostTool:WARNING:solr为url:SimplePostTool:WARNING:Response:4000返回了一个错误#400(错误请求):无效的UTF-8中间字节0xe5(在字符#10,字节#-1)400我想知道为什么我得到了-2。。。