Solr 如何上传/索引富文本/结构化文本文档以使用ElasticSearch进行搜索?
我正在构建一个搜索引擎,它围绕着一系列文档,包括MicrosoftWord文档、PowerPoints、PDF和文本文件。我已经成功下载并安装了ElasticSearch并使其运行(从命令提示符和浏览器可见-localhost:9200) 我可以上传和搜索手动输入的数据(在一些在线教程中可以找到,比如这篇:) 现在我需要从搜索手动输入的数据跳到搜索大量结构化文本文件。我的问题是-我如何上传/索引这些文档,使它们可供我正在运行的Elasticsearch实例使用 我理解这可能太大,无法在一个单一的答复中回答-即使指向一个工具或教程链接也会有所帮助Solr 如何上传/索引富文本/结构化文本文档以使用ElasticSearch进行搜索?,solr,indexing,
elasticsearch,information-retrieval,structured-data,Solr,Indexing,
elasticsearch,Information Retrieval,Structured Data,我正在构建一个搜索引擎,它围绕着一系列文档,包括MicrosoftWord文档、PowerPoints、PDF和文本文件。我已经成功下载并安装了ElasticSearch并使其运行(从命令提示符和浏览器可见-localhost:9200) 我可以上传和搜索手动输入的数据(在一些在线教程中可以找到,比如这篇:) 现在我需要从搜索手动输入的数据跳到搜索大量结构化文本文件。我的问题是-我如何上传/索引这些文档,使它们可供我正在运行的Elasticsearch实例使用 我理解这可能太大,无法在一个单一的
版本:Windows 7,Elasticsearch 1.2.1我会尝试使用Elasticsearch附件插件: 附件类型 附件类型允许索引不同的“附件”类型字段 (编码为base64),例如,Microsoft Office格式,打开 文档格式、ePub、HTML等(完整列表可在此处找到) 附件类型作为插件扩展提供。该插件是一个 简单的zip文件,可以下载并放置在 $ES_主页/插件位置。它将被自动检测到,并且 将添加附件类型 它使用Apache Tika构建,并支持以下文件格式: 支持的文档格式
- 超文本标记语言
- XML和派生格式
- Microsoft Office文档格式
- OpenDocument格式
- 可移植文档格式
- 电子出版物格式
- 富文本格式
- 压缩和打包格式
- 文本格式
- 音频格式
- 图像格式
- 视频格式
- Java类文件和归档
- mbox格式
这绝对是我想要指出的方向,谢谢。我要试一试。