Pdf 创建类似谷歌的文档搜索页面

Pdf 创建类似谷歌的文档搜索页面,pdf,solr,Pdf,Solr,你好 我已经彻底搜索了互联网和这个网站,但没有找到一个完整的答案,还没有能够实施我自己的解决方案。 如果我似乎错过了Stackoverflow上已经发布的解决方案;我提前道歉 我的公司扫描所有收到的邮件。 然后由ABBYY Finereader处理OCR数据。 所有这些文档都位于数据中心的NAS上,可以通过WEBDAV连接进行访问。我想要的是为所有这些文件编制索引,让我们现在只使用PDF,使它们可以搜索,并通过类似谷歌的搜索网站访问,在那里可以单击结果在浏览器中打开相应的PDF文件进行查看/下载

你好

我已经彻底搜索了互联网和这个网站,但没有找到一个完整的答案,还没有能够实施我自己的解决方案。 如果我似乎错过了Stackoverflow上已经发布的解决方案;我提前道歉

我的公司扫描所有收到的邮件。 然后由ABBYY Finereader处理OCR数据。 所有这些文档都位于数据中心的NAS上,可以通过WEBDAV连接进行访问。我想要的是为所有这些文件编制索引,让我们现在只使用PDF,使它们可以搜索,并通过类似谷歌的搜索网站访问,在那里可以单击结果在浏览器中打开相应的PDF文件进行查看/下载

问题就在这里; 我已经安装了SOLR/Tika,可以索引pdf文件,搜索并找到结果。 为扫描文档保存到的整个文件夹编制索引的最佳方法是什么? 理想情况下,所有这些都在linux服务器上运行,因此我可以挂载此目录

如何监视此目录中的新文件,以便自动为其编制索引

如果文件被移动到根目录中的新目录,或者被删除/重命名并自动更新索引,我如何跟踪这些文件

为用户创建前端的首选方式是什么?我可以自定义Solr/browse,但我更愿意使用Rails来构建站点,因为我对它很熟悉,并且希望向Solr发送一个包含查询数据的请求,并获得一个响应/数组,以呈现给用户

最后但并非最不重要;
如果有人对提供这种功能的商业产品有什么好的建议,我很乐意听听。我无意重新发明轮子,但我的研究并没有让我了解太多。

你一次问的问题太多了。所以,你有一大堆的指针去追逐,希望它对其他人也有用

您无法自定义Solr/browse-Solr不安全,无法直接向用户应用程序公开 您可以将DataImportHandler DIH与嵌套实体一起使用,使用with rootEntity=false拾取文件,并在内部为一组文件编制索引。但是,这不会帮助您删除已删除的文件。也许你需要一个存根文件或者类似的东西。 使用Solr,其文件系统适配器可能比DIH更智能 是一款内置Solr的商业产品,可能具有文件系统适配器和大量其他功能 是一款具有大数据管道的商业产品,包括文档输入和使用Solr。重要的是,它还预先配置了,这可能会为您提供至少一个版本的界面。