Indexing 如何在Solr中对文件（而不是HDF）进行并行索引？_Indexing_Solr_Parallel Processing

Indexing 如何在Solr中对文件（而不是HDF）进行并行索引？

indexing solr parallel-processing

Indexing 如何在Solr中对文件（而不是HDF）进行并行索引？,indexing,solr,parallel-processing,Indexing,Solr,Parallel Processing,到目前为止，我无法找到可行的解决方案，以下是我的环境：云杉要索引的文件系统中的1TB数据数据格式仅为JSON 我知道如何在文件系统（如单个文件或文件夹）上进行索引，但如何以并行方式进行索引？由于数据不是也不能放在HDFS上，因此限制了使用MapReduce或Spark工具的可能解决方案有没有人遇到同样的需求？谢谢。使用您熟悉的编程语言编写一个索引器，从可用文件中获取一部分可能是最好的选择，然后运行此索引器的多个副本（或使用多个线程，如果很容易获得的话）-允许您并行提交内容，并在必要时从多

到目前为止，我无法找到可行的解决方案，以下是我的环境：

云杉

要索引的文件系统中的1TB数据

数据格式仅为JSON

我知道如何在文件系统（如单个文件或文件夹）上进行索引，但如何以并行方式进行索引？由于数据不是也不能放在HDFS上，因此限制了使用MapReduce或Spark工具的可能解决方案

有没有人遇到同样的需求？谢谢。

使用您熟悉的编程语言编写一个索引器，从可用文件中获取一部分可能是最好的选择，然后运行此索引器的多个副本（或使用多个线程，如果很容易获得的话）-允许您并行提交内容，并在必要时从多个服务器提交内容

不要在每个客户机中使用显式提交—使用commitWithin，这样您只需每隔60秒（或10分钟，或..任何适合您的时间间隔）提交一次即可。

什么？！这不是一个非常普遍和流行的需求吗？我一直在想应该有一个内置的函数来实现这一点，例如，Cloudera提供MapReduce和Spark来对HDFS进行并行索引