Pdf 创建类似谷歌的文档搜索页面_Pdf_Solr

Pdf 创建类似谷歌的文档搜索页面

pdf solr

Pdf 创建类似谷歌的文档搜索页面,pdf,solr,Pdf,Solr,你好我已经彻底搜索了互联网和这个网站，但没有找到一个完整的答案，还没有能够实施我自己的解决方案。如果我似乎错过了Stackoverflow上已经发布的解决方案；我提前道歉我的公司扫描所有收到的邮件。然后由ABBYY Finereader处理OCR数据。所有这些文档都位于数据中心的NAS上，可以通过WEBDAV连接进行访问。我想要的是为所有这些文件编制索引，让我们现在只使用PDF，使它们可以搜索，并通过类似谷歌的搜索网站访问，在那里可以单击结果在浏览器中打开相应的PDF文件进行查看/下载

你好

我已经彻底搜索了互联网和这个网站，但没有找到一个完整的答案，还没有能够实施我自己的解决方案。如果我似乎错过了Stackoverflow上已经发布的解决方案；我提前道歉

我的公司扫描所有收到的邮件。然后由ABBYY Finereader处理OCR数据。所有这些文档都位于数据中心的NAS上，可以通过WEBDAV连接进行访问。我想要的是为所有这些文件编制索引，让我们现在只使用PDF，使它们可以搜索，并通过类似谷歌的搜索网站访问，在那里可以单击结果在浏览器中打开相应的PDF文件进行查看/下载

问题就在这里；我已经安装了SOLR/Tika，可以索引pdf文件，搜索并找到结果。为扫描文档保存到的整个文件夹编制索引的最佳方法是什么？理想情况下，所有这些都在linux服务器上运行，因此我可以挂载此目录

如何监视此目录中的新文件，以便自动为其编制索引

如果文件被移动到根目录中的新目录，或者被删除/重命名并自动更新索引，我如何跟踪这些文件

为用户创建前端的首选方式是什么？我可以自定义Solr/browse，但我更愿意使用Rails来构建站点，因为我对它很熟悉，并且希望向Solr发送一个包含查询数据的请求，并获得一个响应/数组，以呈现给用户

最后但并非最不重要；

如果有人对提供这种功能的商业产品有什么好的建议，我很乐意听听。我无意重新发明轮子，但我的研究并没有让我了解太多。

你一次问的问题太多了。所以，你有一大堆的指针去追逐，希望它对其他人也有用

您无法自定义Solr/browse-Solr不安全，无法直接向用户应用程序公开您可以将DataImportHandler DIH与嵌套实体一起使用，使用with rootEntity=false拾取文件，并在内部为一组文件编制索引。但是，这不会帮助您删除已删除的文件。也许你需要一个存根文件或者类似的东西。使用Solr，其文件系统适配器可能比DIH更智能是一款内置Solr的商业产品，可能具有文件系统适配器和大量其他功能是一款具有大数据管道的商业产品，包括文档输入和使用Solr。重要的是，它还预先配置了，这可能会为您提供至少一个版本的界面。