用Solr索引PDF
有人能给我指一个教程吗 我使用Solr的主要经验是为CSV文件编制索引。但我找不到任何简单的说明/教程来告诉我索引PDF需要做什么 我看到了这一点: 但这对我来说意义不大。我需要安装Tika吗用Solr索引PDF,solr,full-text-search,solrj,apache-tika,solr-cell,Solr,Full Text Search,Solrj,Apache Tika,Solr Cell,有人能给我指一个教程吗 我使用Solr的主要经验是为CSV文件编制索引。但我找不到任何简单的说明/教程来告诉我索引PDF需要做什么 我看到了这一点: 但这对我来说意义不大。我需要安装Tika吗 我迷路了-请帮助您可以使用dataImportHandler。DataIMorHandle将在solrconfig.xml中定义,DataImportHandler的配置应在不同的xml配置文件(data config.xml)中实现 对于索引pdf,您可以 1.)爬网目录以使用 2.)使用 如果您有相关
我迷路了-请帮助您可以使用dataImportHandler。DataIMorHandle将在solrconfig.xml中定义,DataImportHandler的配置应在不同的xml配置文件(data config.xml)中实现 对于索引pdf,您可以 1.)爬网目录以使用 2.)使用 如果您有相关pdf的列表,请使用TikaEntityProcessor
看看这个(ppt的例子)和这个最困难的部分是使用类似这样的工具从PDF获取元数据。这些工具肯定有好几吨 Aperture是一个Java框架,用于从PDF文件中提取和查询全文内容和元数据 Apeture从PDF中获取元数据并将其存储在xml文件中
我使用lxml解析xml文件,并使用solr,ExtractingRequestHandler将它们发布到solr。这将使用ApacheTika解析pdf文件。我相信它可以提取元数据等,你也可以通过自己的元数据。 使用solr-4.9(目前最新版本),从PDF、电子表格(xls、xlxs系列)、演示文稿(ppt、ppt)、文档(doc、txt等丰富文档中提取数据变得相当简单。 从下载的存档文件中提供的示例代码示例 包含一个基本的solr模板项目,让您快速入门 必要的配置更改如下所示:
solrConfig.xml
以包括以下行:
2.将SolreSample中必要的JAR添加到项目中
3.根据您的需要定义架构,并触发如下查询:
curl”http://localhost:8983/solr/collection1/update/extract?literal.id=1&literal.filename=testDocToExtractFrom.txt&literal.created_at=2014-07-22+09:50:12.234&commit=true“-F“myfile=@testDocToExtractFrom.txt”
转到GUI门户并查询以查看索引内容
如果您遇到任何问题,请告诉我。公共类SolrCellRequestDemo{
public class SolrCellRequestDemo {
public static void main (String[] args) throws IOException, SolrServerException {
SolrClient client = new
HttpSolrClient.Builder("http://localhost:8983/solr/my_collection").build();
ContentStreamUpdateRequest req = new
ContentStreamUpdateRequest("/update/extract");
req.addFile(new File("my-file.pdf"));
req.setParam(ExtractingParams.EXTRACT_ONLY, "true");
NamedList<Object> result = client.request(req);
System.out.println("Result: " +enter code here result);
}
公共静态void main(字符串[]args)引发IOException、SolrServerException{
SolrClient客户端=新建
HttpSolrClient.Builder(“http://localhost:8983/solr/my_collectionbuild();
ContentStreamUpdateRequest请求=新建
ContentStreamUpdateRequest(“/update/extract”);
req.addFile(新文件(“my File.pdf”);
请求setParam(仅限ExtractingParams.EXTRACT_,“true”);
NamedList结果=客户端请求(req);
System.out.println(“结果:+在此处输入代码结果);
}
这可能会有所帮助。ApacheSolr现在可以为所有类型的二进制文件(如PDF、Word等)编制索引。请查看此文档:
是否可以以某种方式查看pdf的解析内容?(我指的是原始文本)您可以将内容字段设置为
stored=true
。如果您在solr上搜索文档,您可以打印存储字段以进行预览或语法突出显示。您的意思是此设置可用作参数还是配置?您好!我正在尝试此操作,但在使用curl为PDF文档编制索引时出现错误错误500 java.lang.NoClassDefFoundError:org/eclipse/jetty/server/MultiParts
有什么想法吗?这已经为pdf文档编制了索引,但是当我搜索pdf中的内容时,它不会显示任何结果。我们怎么做?