Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/solr/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
ApacheSolr-索引PDF文件_Solr_Lucene_Solr Cell - Fatal编程技术网

ApacheSolr-索引PDF文件

ApacheSolr-索引PDF文件,solr,lucene,solr-cell,Solr,Lucene,Solr Cell,嗨,我已经试着用二进制发行版来做这件事,并且自己编译了源代码。也尝试过用ApacheTomcat运行这个。但是,当我使用pdf文件进行索引时,总是会出现以下错误。我正在使用Solr的示例项目中提供的post.jar SimplePostTool: version 1.3 SimplePostTool: POSTing files to http://localhost:8983/solr/update.. SimplePostTool: POSTing file 4538a001.pdf Sim

嗨,我已经试着用二进制发行版来做这件事,并且自己编译了源代码。也尝试过用ApacheTomcat运行这个。但是,当我使用pdf文件进行索引时,总是会出现以下错误。我正在使用Solr的示例项目中提供的post.jar

SimplePostTool: version 1.3
SimplePostTool: POSTing files to http://localhost:8983/solr/update..
SimplePostTool: POSTing file 4538a001.pdf
SimplePostTool: FATAL: Solr returned an error #400 Invalid UTF-8 middle byte 0xe
3 (at char #10, byte #-1)
我也试过在Win7(JDK1.7)和Centos(1.6)上运行它

我搜索了互联网,在bug tracker上找到了Jetty jar文件的补丁版本,但即使在替换这些文件后,问题仍然存在

我真的很感谢你的帮助,因为我被困在这里,无法继续进行进一步的任务


谢谢,Solr更新是一种特定的XML格式,因此它拒绝使用PDF文件

您可以配置提取请求处理程序,该处理程序将解析PDF文件,然后将提取的文本作为更新进行处理


请参阅:

Solr更新是一种特定的XML格式,因此它拒绝使用PDF文件

您可以配置提取请求处理程序,该处理程序将解析PDF文件,然后将提取的文本作为更新进行处理

见: