如何配置ApacheTika和ApacheSolr来索引和搜索pdf文件目录？_Pdf_Solr_Lucene_Full Text Search_Apache Tika

如何配置ApacheTika和ApacheSolr来索引和搜索pdf文件目录？

pdf solr lucene

如何配置ApacheTika和ApacheSolr来索引和搜索pdf文件目录？,pdf,solr,lucene,full-text-search,apache-tika,Pdf,Solr,Lucene,Full Text Search,Apache Tika,如何使ApacheTika索引成为包含PDF和文本文件（包括子目录）的目录，并将其提交给ApacheSolr，以便为该目录的内容提供搜索引擎任何关于Windows或Linux的建议都无关紧要。我一直无法做到这一点，因为这两个项目的文档主要面向开发人员，这很好，但我无法让他们做到这一点，因为文档很模糊，对于非java开发人员来说不够清晰非常简单：如何使用ApacheLucene系列项目构建搜索引擎，这些项目可以索引并提供对/home/material或c:/material或/cygdriv

如何使ApacheTika索引成为包含PDF和文本文件（包括子目录）的目录，并将其提交给ApacheSolr，以便为该目录的内容提供搜索引擎

任何关于Windows或Linux的建议都无关紧要。我一直无法做到这一点，因为这两个项目的文档主要面向开发人员，这很好，但我无法让他们做到这一点，因为文档很模糊，对于非java开发人员来说不够清晰

非常简单：如何使用ApacheLucene系列项目构建搜索引擎，这些项目可以索引并提供对/home/material或c:/material或/cygdrive/c/material的搜索

事先非常感谢

您熟悉哪种编程语言

作为一个Python爱好者，我将熟悉

urllib2

，一个HTTP客户端库和可以处理文件系统的

os

模块（列出目录中的文件，打开一个文件指针以便在文件中发布到Solr）。与此相关的还有

set

数据类型，可用于比较FS和Solr索引中的文档

所以

学习将富文档发布到Solr（使用Solr库或HTTP客户端库）

使用逻辑从Solr和目录中检索所有文档名

将所有丢失/更改的文档上载到Solr

你熟悉什么编程语言