Indexing 如何在Solr中对文件(而不是HDF)进行并行索引?

Indexing 如何在Solr中对文件(而不是HDF)进行并行索引?,indexing,solr,parallel-processing,Indexing,Solr,Parallel Processing,到目前为止,我无法找到可行的解决方案,以下是我的环境: 云杉 要索引的文件系统中的1TB数据 数据格式仅为JSON 我知道如何在文件系统(如单个文件或文件夹)上进行索引,但如何以并行方式进行索引?由于数据不是也不能放在HDFS上,因此限制了使用MapReduce或Spark工具的可能解决方案 有没有人遇到同样的需求?谢谢。使用您熟悉的编程语言编写一个索引器,从可用文件中获取一部分可能是最好的选择,然后运行此索引器的多个副本(或使用多个线程,如果很容易获得的话)-允许您并行提交内容,并在必要时从多

到目前为止,我无法找到可行的解决方案,以下是我的环境:

  • 云杉
  • 要索引的文件系统中的1TB数据
  • 数据格式仅为JSON
  • 我知道如何在文件系统(如单个文件或文件夹)上进行索引,但如何以并行方式进行索引?由于数据不是也不能放在HDFS上,因此限制了使用MapReduce或Spark工具的可能解决方案


    有没有人遇到同样的需求?谢谢。

    使用您熟悉的编程语言编写一个索引器,从可用文件中获取一部分可能是最好的选择,然后运行此索引器的多个副本(或使用多个线程,如果很容易获得的话)-允许您并行提交内容,并在必要时从多个服务器提交内容


    不要在每个客户机中使用显式提交—使用commitWithin,这样您只需每隔60秒(或10分钟,或..任何适合您的时间间隔)提交一次即可。

    什么?!这不是一个非常普遍和流行的需求吗?我一直在想应该有一个内置的函数来实现这一点,例如,Cloudera提供MapReduce和Spark来对HDFS进行并行索引