Indexing 是否保留原始文件？_Indexing_Solr

Indexing 是否保留原始文件？

indexing solr

Indexing 是否保留原始文件？,indexing,solr,Indexing,Solr,这是一个Solr新手的问题——不过，了解Solr的工作原理以及它是否适合我的项目对我来说非常重要我想索引二进制文档，即MS Office文档和PDF。我知道Solr可以为这些文档的内容编制索引，并且我可以构建查询以获取我指定的值和字段。我的问题是PDF或任何文档扫描后会发生什么情况？它是实际存储的还是完全丢弃的？我是否可以从solr获得指向原始文档的引用/链接（包括位置路径），或者我是否必须在提交文档时传递此信息有人能帮我理解一下吗？你基本上可以索引任何你想要的东西，SOLR将允许你搜索它并

这是一个Solr新手的问题——不过，了解Solr的工作原理以及它是否适合我的项目对我来说非常重要

我想索引二进制文档，即MS Office文档和PDF。我知道Solr可以为这些文档的内容编制索引，并且我可以构建查询以获取我指定的值和字段。我的问题是PDF或任何文档扫描后会发生什么情况？它是实际存储的还是完全丢弃的？我是否可以从solr获得指向原始文档的引用/链接（包括位置路径），或者我是否必须在提交文档时传递此信息

有人能帮我理解一下吗？

你基本上可以索引任何你想要的东西，SOLR将允许你搜索它并返回结果。例如，我们使用Nutch为我们的网站编制索引，我们有自制的Groovy脚本，可以从数据库中提取数据并创建SOLR索引

重要的部分是如何构建索引。如果您提供一个URL或其他资源定位器来链接到您的文件，那么您可以让SOLR在结果负载中返回该信息