Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/solr/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
用Solr索引PDF_Solr_Full Text Search_Solrj_Apache Tika_Solr Cell - Fatal编程技术网

用Solr索引PDF

用Solr索引PDF,solr,full-text-search,solrj,apache-tika,solr-cell,Solr,Full Text Search,Solrj,Apache Tika,Solr Cell,有人能给我指一个教程吗 我使用Solr的主要经验是为CSV文件编制索引。但我找不到任何简单的说明/教程来告诉我索引PDF需要做什么 我看到了这一点: 但这对我来说意义不大。我需要安装Tika吗 我迷路了-请帮助您可以使用dataImportHandler。DataIMorHandle将在solrconfig.xml中定义,DataImportHandler的配置应在不同的xml配置文件(data config.xml)中实现 对于索引pdf,您可以 1.)爬网目录以使用 2.)使用 如果您有相关

有人能给我指一个教程吗

我使用Solr的主要经验是为CSV文件编制索引。但我找不到任何简单的说明/教程来告诉我索引PDF需要做什么

我看到了这一点:

但这对我来说意义不大。我需要安装Tika吗


我迷路了-请帮助

您可以使用dataImportHandler。DataIMorHandle将在solrconfig.xml中定义,DataImportHandler的配置应在不同的xml配置文件(data config.xml)中实现

对于索引pdf,您可以

1.)爬网目录以使用

2.)使用

如果您有相关pdf的列表,请使用TikaEntityProcessor
看看这个(ppt的例子)和这个

最困难的部分是使用类似这样的工具从PDF获取元数据。这些工具肯定有好几吨

Aperture是一个Java框架,用于从PDF文件中提取和查询全文内容和元数据

Apeture从PDF中获取元数据并将其存储在xml文件中


我使用lxml解析xml文件,并使用solr,ExtractingRequestHandler将它们发布到solr。这将使用ApacheTika解析pdf文件。我相信它可以提取元数据等,你也可以通过自己的元数据。 使用solr-4.9(目前最新版本),从PDF、电子表格(xls、xlxs系列)、演示文稿(ppt、ppt)、文档(doc、txt等丰富文档中提取数据变得相当简单。 从下载的存档文件中提供的示例代码示例 包含一个基本的solr模板项目,让您快速入门

必要的配置更改如下所示:

  • 更改
    solrConfig.xml
    以包括以下行:

    
    

  • 创建一个请求处理程序,如下所示:

    
    

    2.将SolreSample中必要的JAR添加到项目中

    3.根据您的需要定义架构,并触发如下查询:

    curl”http://localhost:8983/solr/collection1/update/extract?literal.id=1&literal.filename=testDocToExtractFrom.txt&literal.created_at=2014-07-22+09:50:12.234&commit=true“-F“myfile=@testDocToExtractFrom.txt”
    

    转到GUI门户并查询以查看索引内容

    如果您遇到任何问题,请告诉我。

    公共类SolrCellRequestDemo{
    
    public class SolrCellRequestDemo {
    public static void main (String[] args) throws IOException, SolrServerException {
    SolrClient client = new
    HttpSolrClient.Builder("http://localhost:8983/solr/my_collection").build();
    ContentStreamUpdateRequest req = new
    ContentStreamUpdateRequest("/update/extract");
    req.addFile(new File("my-file.pdf"));
    req.setParam(ExtractingParams.EXTRACT_ONLY, "true");
    NamedList<Object> result = client.request(req);
    System.out.println("Result: " +enter code here result);
    }
    
    公共静态void main(字符串[]args)引发IOException、SolrServerException{ SolrClient客户端=新建 HttpSolrClient.Builder(“http://localhost:8983/solr/my_collectionbuild(); ContentStreamUpdateRequest请求=新建 ContentStreamUpdateRequest(“/update/extract”); req.addFile(新文件(“my File.pdf”); 请求setParam(仅限ExtractingParams.EXTRACT_,“true”); NamedList结果=客户端请求(req); System.out.println(“结果:+在此处输入代码结果); }

    这可能会有所帮助。

    ApacheSolr现在可以为所有类型的二进制文件(如PDF、Word等)编制索引。请查看此文档:

    是否可以以某种方式查看pdf的解析内容?(我指的是原始文本)您可以将内容字段设置为
    stored=true
    。如果您在solr上搜索文档,您可以打印存储字段以进行预览或语法突出显示。您的意思是此设置可用作参数还是配置?您好!我正在尝试此操作,但在使用curl为PDF文档编制索引时出现错误
    错误500 java.lang.NoClassDefFoundError:org/eclipse/jetty/server/MultiParts
    有什么想法吗?这已经为pdf文档编制了索引,但是当我搜索pdf中的内容时,它不会显示任何结果。我们怎么做?