Warning: file_get_contents(/data/phpspider/zhask/data//catemap/6/xamarin/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Indexing 如何为PDF/MS Word/Excel文件编制索引以进行全文搜索?_Indexing_Full Text Search_Search Engine_Real Time - Fatal编程技术网

Indexing 如何为PDF/MS Word/Excel文件编制索引以进行全文搜索?

Indexing 如何为PDF/MS Word/Excel文件编制索引以进行全文搜索?,indexing,full-text-search,search-engine,real-time,Indexing,Full Text Search,Search Engine,Real Time,我们正在为机构建立实时搜索功能,索引基于用户上传的文件(主要是Word/Excel/PDF/PowerPoint和ASCII文件)。预计I/O速度仅为10 IOPS-20 IOPS,但可能会因日期而异。最大I/O可能为100 IOPS。当前的数据库大小已达到10GB,已经存在4个月了 对于实时搜索服务器,我正在考虑Solr/Lucene,可能还有ElasticSearch。但挑战在于如何快速索引这些文件,以便搜索服务器能够实时查询索引 我发现了一些关于如何索引.doc/.xls/.pdf的类似问

我们正在为机构建立实时搜索功能,索引基于用户上传的文件(主要是Word/Excel/PDF/PowerPoint和ASCII文件)。预计I/O速度仅为10 IOPS-20 IOPS,但可能会因日期而异。最大I/O可能为100 IOPS。当前的数据库大小已达到10GB,已经存在4个月了

对于实时搜索服务器,我正在考虑Solr/Lucene,可能还有ElasticSearch。但挑战在于如何快速索引这些文件,以便搜索服务器能够实时查询索引

我发现了一些关于如何索引.doc/.xls/.pdf的类似问题,但没有提到如何确保索引性能:

所以我的问题是:如何快速建立索引?


对建筑有什么建议吗?我应该专注于构建快速基础架构(即RAID、SSD、更多CPU、网络带宽?)还是专注于索引工具和算法?

我们正在构建一个高性能的office文档全文搜索。我们可以分享一些见解:

  • 我们使用弹性搜索。很难使它在大文件上运行良好。我们为此写了几篇文章。
  • 使用微服务体系结构和docker轻松扩展应用程序
  • 不要将elasticsearch中的原始文件存储为二进制数据。单独存储,例如在MongoDB中
希望有帮助