用Solr索引PDF_Solr_Full Text Search_Solrj_Apache Tika_Solr Cell

用Solr索引PDF

solr

用Solr索引PDF,solr,full-text-search,solrj,apache-tika,solr-cell,Solr,Full Text Search,Solrj,Apache Tika,Solr Cell,有人能给我指一个教程吗我使用Solr的主要经验是为CSV文件编制索引。但我找不到任何简单的说明/教程来告诉我索引PDF需要做什么我看到了这一点：但这对我来说意义不大。我需要安装Tika吗我迷路了-请帮助您可以使用dataImportHandler。DataIMorHandle将在solrconfig.xml中定义，DataImportHandler的配置应在不同的xml配置文件（data config.xml）中实现对于索引pdf，您可以 1.）爬网目录以使用 2.）使用如果您有相关

有人能给我指一个教程吗

我使用Solr的主要经验是为CSV文件编制索引。但我找不到任何简单的说明/教程来告诉我索引PDF需要做什么

我看到了这一点：

但这对我来说意义不大。我需要安装Tika吗

我迷路了-请帮助

您可以使用dataImportHandler。DataIMorHandle将在solrconfig.xml中定义，DataImportHandler的配置应在不同的xml配置文件（data config.xml）中实现

对于索引pdf，您可以

1.）爬网目录以使用

2.）使用

如果您有相关pdf的列表，请使用TikaEntityProcessor

看看这个（ppt的例子）和这个

最困难的部分是使用类似这样的工具从PDF获取元数据。这些工具肯定有好几吨

Aperture是一个Java框架，用于从PDF文件中提取和查询全文内容和元数据

Apeture从PDF中获取元数据并将其存储在xml文件中

我使用lxml解析xml文件，并使用solr，ExtractingRequestHandler将它们发布到solr。这将使用ApacheTika解析pdf文件。我相信它可以提取元数据等，你也可以通过自己的元数据。使用solr-4.9（目前最新版本），从PDF、电子表格（xls、xlxs系列）、演示文稿（ppt、ppt）、文档（doc、txt等丰富文档中提取数据变得相当简单。从下载的存档文件中提供的示例代码示例包含一个基本的solr模板项目，让您快速入门

必要的配置更改如下所示：

更改

solrConfig.xml

以包括以下行：

创建一个请求处理程序，如下所示：

2.将SolreSample中必要的JAR添加到项目中

3.根据您的需要定义架构，并触发如下查询：

curl”http://localhost:8983/solr/collection1/update/extract?literal.id=1&literal.filename=testDocToExtractFrom.txt&literal.created_at=2014-07-22+09:50:12.234&commit=true“-F“myfile=@testDocToExtractFrom.txt”

转到GUI门户并查询以查看索引内容

如果您遇到任何问题，请告诉我。

公共类SolrCellRequestDemo{
public class SolrCellRequestDemo {
public static void main (String[] args) throws IOException, SolrServerException {
SolrClient client = new
HttpSolrClient.Builder("http://localhost:8983/solr/my_collection").build();
ContentStreamUpdateRequest req = new
ContentStreamUpdateRequest("/update/extract");
req.addFile(new File("my-file.pdf"));
req.setParam(ExtractingParams.EXTRACT_ONLY, "true");
NamedList<Object> result = client.request(req);
System.out.println("Result: " +enter code here result);
}

公共静态void main（字符串[]args）引发IOException、SolrServerException{
SolrClient客户端=新建
HttpSolrClient.Builder（“http://localhost:8983/solr/my_collectionbuild（）；
ContentStreamUpdateRequest请求=新建
ContentStreamUpdateRequest（“/update/extract”）；
req.addFile（新文件（“my File.pdf”）；
请求setParam（仅限ExtractingParams.EXTRACT_，“true”）；
NamedList结果=客户端请求（req）；
System.out.println（“结果：+在此处输入代码结果）；
}

这可能会有所帮助。

ApacheSolr现在可以为所有类型的二进制文件（如PDF、Word等）编制索引。请查看此文档：

是否可以以某种方式查看pdf的解析内容？（我指的是原始文本）您可以将内容字段设置为

stored=true

。如果您在solr上搜索文档，您可以打印存储字段以进行预览或语法突出显示。您的意思是此设置可用作参数还是配置？您好！我正在尝试此操作，但在使用curl为PDF文档编制索引时出现错误

错误500 java.lang.NoClassDefFoundError:org/eclipse/jetty/server/MultiParts

有什么想法吗？这已经为pdf文档编制了索引，但是当我搜索pdf中的内容时，它不会显示任何结果。我们怎么做？