Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/solr/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Indexing 从apachesolr中提取PDF_Indexing_Solr - Fatal编程技术网

Indexing 从apachesolr中提取PDF

Indexing 从apachesolr中提取PDF,indexing,solr,Indexing,Solr,我不熟悉Solr索引。我使用Solr5.5,通过简单地使用 #bin/post -c gettingstarted /home/ubuntu/pdf.pdf 我删除了源pdf文件。我可以从ApacheSolr中提取pdf文件吗。我可以看到它是从URL索引的 http://localhost:8983/solr/gettingstarted/select?q=*.pdf 提前谢谢 如果在默认情况下索引正确,则pdf内容将被索引到字段名内容中,如果它在架构中正确声明。因此,搜索一些关键字或*使用

我不熟悉Solr索引。我使用Solr5.5,通过简单地使用

#bin/post -c gettingstarted /home/ubuntu/pdf.pdf
我删除了源pdf文件。我可以从ApacheSolr中提取pdf文件吗。我可以看到它是从URL索引的

http://localhost:8983/solr/gettingstarted/select?q=*.pdf

提前谢谢

如果在默认情况下索引正确,则pdf内容将被索引到字段名内容中,如果它在架构中正确声明。因此,搜索一些关键字或*使用该内容字段

例: q=内容:关键字->以pdf格式显示

http://localhost:8983/solr/gettingstarted/select?q=content:*
如果contentnt字段未定义。然后在模式文件中添加字段定义

例:字段名声明

<field name="content" type="text_general" indexed="true" stored="true" multiValued="true"/>
字段类型定义

<fieldType name="text_general" class="solr.TextField" positionIncrementGap="100">
      <analyzer type="index">
        <tokenizer class="solr.StandardTokenizerFactory"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
        <filter class="solr.LowerCaseFilterFactory"/>
      </analyzer>
      <analyzer type="query">
        <tokenizer class="solr.StandardTokenizerFactory"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
        <filter class="solr.LowerCaseFilterFactory"/>
      </analyzer>
    </fieldType>

我索引了类似于bin/post-c gettingstarted/home/ubuntu/pdf.pdf的pdf文件http://localhost:8983/solr/gettingstarted/select?q=content 显示与q=*.pdf相同的结果。http://localhost:8983/solr/gettingstarted/select?q=content:*给出代码404的错误。请提供任何建议。这可能表明您没有内容字段。使用*:*搜索并应用必要的fq来查找您的文档。您遇到了什么错误。?正如我前面提到的,@BinoyDalal说,您的模式文件中可能没有定义内容字段。检查一下。我猜你没有正确索引pdf。谢谢大家的回复。实际上,我根本没有修改模式。我只是使用post命令为pdf文件编制索引,我可以从该pdf文件中查询任何内容。如果我运行q=content:*,这就是错误。。。。org.apache.solr.common.SolrException org.apache.solr.common.SolrException未定义字段内容400未定义字段内容此错误表明您的架构没有内容字段。您应该为架构文件中的内容添加字段定义。那么它工作得很好。我更新了答案供你们参考。