Indexing 是否保留原始文件?

Indexing 是否保留原始文件?,indexing,solr,Indexing,Solr,这是一个Solr新手的问题——不过,了解Solr的工作原理以及它是否适合我的项目对我来说非常重要 我想索引二进制文档,即MS Office文档和PDF。我知道Solr可以为这些文档的内容编制索引,并且我可以构建查询以获取我指定的值和字段。我的问题是PDF或任何文档扫描后会发生什么情况?它是实际存储的还是完全丢弃的?我是否可以从solr获得指向原始文档的引用/链接(包括位置路径),或者我是否必须在提交文档时传递此信息 有人能帮我理解一下吗?你基本上可以索引任何你想要的东西,SOLR将允许你搜索它并

这是一个Solr新手的问题——不过,了解Solr的工作原理以及它是否适合我的项目对我来说非常重要

我想索引二进制文档,即MS Office文档和PDF。我知道Solr可以为这些文档的内容编制索引,并且我可以构建查询以获取我指定的值和字段。我的问题是PDF或任何文档扫描后会发生什么情况?它是实际存储的还是完全丢弃的?我是否可以从solr获得指向原始文档的引用/链接(包括位置路径),或者我是否必须在提交文档时传递此信息


有人能帮我理解一下吗?

你基本上可以索引任何你想要的东西,SOLR将允许你搜索它并返回结果。例如,我们使用Nutch为我们的网站编制索引,我们有自制的Groovy脚本,可以从数据库中提取数据并创建SOLR索引

重要的部分是如何构建索引。如果您提供一个URL或其他资源定位器来链接到您的文件,那么您可以让SOLR在结果负载中返回该信息