如何配置ApacheTika和ApacheSolr来索引和搜索pdf文件目录?

如何配置ApacheTika和ApacheSolr来索引和搜索pdf文件目录?,pdf,solr,lucene,full-text-search,apache-tika,Pdf,Solr,Lucene,Full Text Search,Apache Tika,如何使ApacheTika索引成为包含PDF和文本文件(包括子目录)的目录,并将其提交给ApacheSolr,以便为该目录的内容提供搜索引擎 任何关于Windows或Linux的建议都无关紧要。 我一直无法做到这一点,因为这两个项目的文档主要面向开发人员,这很好,但我无法让他们做到这一点,因为文档很模糊,对于非java开发人员来说不够清晰 非常简单:如何使用ApacheLucene系列项目构建搜索引擎,这些项目可以索引并提供对/home/material或c:/material或/cygdriv

如何使ApacheTika索引成为包含PDF和文本文件(包括子目录)的目录,并将其提交给ApacheSolr,以便为该目录的内容提供搜索引擎

任何关于Windows或Linux的建议都无关紧要。 我一直无法做到这一点,因为这两个项目的文档主要面向开发人员,这很好,但我无法让他们做到这一点,因为文档很模糊,对于非java开发人员来说不够清晰

非常简单:如何使用ApacheLucene系列项目构建搜索引擎,这些项目可以索引并提供对/home/material或c:/material或/cygdrive/c/material的搜索


事先非常感谢

您熟悉哪种编程语言

作为一个Python爱好者,我将熟悉
urllib2
,一个HTTP客户端库和可以处理文件系统的
os
模块(列出目录中的文件,打开一个文件指针以便在文件中发布到Solr)。与此相关的还有
set
数据类型,可用于比较FS和Solr索引中的文档

所以

  • 学习将富文档发布到Solr(使用Solr库或HTTP客户端库)
  • 使用逻辑从Solr和目录中检索所有文档名
  • 将所有丢失/更改的文档上载到Solr

  • 你熟悉什么编程语言

    作为一个Python爱好者,我将熟悉
    urllib2
    ,一个HTTP客户端库和可以处理文件系统的
    os
    模块(列出目录中的文件,打开一个文件指针以便在文件中发布到Solr)。与此相关的还有
    set
    数据类型,可用于比较FS和Solr索引中的文档

    所以

  • 学习将富文档发布到Solr(使用Solr库或HTTP客户端库)
  • 使用逻辑从Solr和目录中检索所有文档名
  • 将所有丢失/更改的文档上载到Solr
  • Solr提供了帮助索引丰富文档的工具。
    页面上列出的示例使用curl向Solr提供数据。
    一个简单的脚本可以遍历文件夹和子文件夹并执行curl命令,它可以在所有文档上创建索引。
    如果您使用Solr的任何客户机,比如Solrj、rsolr,您可以轻松地遍历目录并执行http URL来索引文档

    Solr提供了帮助索引丰富文档的工具。
    页面上列出的示例使用curl向Solr提供数据。
    一个简单的脚本可以遍历文件夹和子文件夹并执行curl命令,它可以在所有文档上创建索引。
    如果您使用Solr的任何客户机,比如Solrj、rsolr,您可以轻松地遍历目录并执行http URL来索引文档