elasticsearch,information-retrieval,structured-data,Solr,Indexing,elasticsearch,Information Retrieval,Structured Data" /> elasticsearch,information-retrieval,structured-data,Solr,Indexing,elasticsearch,Information Retrieval,Structured Data" />

Solr 如何上传/索引富文本/结构化文本文档以使用ElasticSearch进行搜索?

Solr 如何上传/索引富文本/结构化文本文档以使用ElasticSearch进行搜索?,solr,indexing,elasticsearch,information-retrieval,structured-data,Solr,Indexing,elasticsearch,Information Retrieval,Structured Data,我正在构建一个搜索引擎,它围绕着一系列文档,包括MicrosoftWord文档、PowerPoints、PDF和文本文件。我已经成功下载并安装了ElasticSearch并使其运行(从命令提示符和浏览器可见-localhost:9200) 我可以上传和搜索手动输入的数据(在一些在线教程中可以找到,比如这篇:) 现在我需要从搜索手动输入的数据跳到搜索大量结构化文本文件。我的问题是-我如何上传/索引这些文档,使它们可供我正在运行的Elasticsearch实例使用 我理解这可能太大,无法在一个单一的

我正在构建一个搜索引擎,它围绕着一系列文档,包括MicrosoftWord文档、PowerPoints、PDF和文本文件。我已经成功下载并安装了ElasticSearch并使其运行(从命令提示符和浏览器可见-localhost:9200)

我可以上传和搜索手动输入的数据(在一些在线教程中可以找到,比如这篇:)

现在我需要从搜索手动输入的数据跳到搜索大量结构化文本文件。我的问题是-我如何上传/索引这些文档,使它们可供我正在运行的Elasticsearch实例使用

我理解这可能太大,无法在一个单一的答复中回答-即使指向一个工具或教程链接也会有所帮助


版本:Windows 7,Elasticsearch 1.2.1

我会尝试使用Elasticsearch附件插件:

附件类型

附件类型允许索引不同的“附件”类型字段 (编码为base64),例如,Microsoft Office格式,打开 文档格式、ePub、HTML等(完整列表可在此处找到)

附件类型作为插件扩展提供。该插件是一个 简单的zip文件,可以下载并放置在 $ES_主页/插件位置。它将被自动检测到,并且 将添加附件类型

它使用Apache Tika构建,并支持以下文件格式:

支持的文档格式

  • 超文本标记语言
  • XML和派生格式
  • Microsoft Office文档格式
  • OpenDocument格式
  • 可移植文档格式
  • 电子出版物格式
  • 富文本格式
  • 压缩和打包格式
  • 文本格式
  • 音频格式
  • 图像格式
  • 视频格式
  • Java类文件和归档
  • mbox格式

它是作为插件提供的-如果您不熟悉插件体系结构,我会在这里查看:


这绝对是我想要指出的方向,谢谢。我要试一试。