Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/cocoa/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop 具有大数据检索的solr性能_Hadoop_Search_Solr_Cloudera_Cloudera Cdh - Fatal编程技术网

Hadoop 具有大数据检索的solr性能

Hadoop 具有大数据检索的solr性能,hadoop,search,solr,cloudera,cloudera-cdh,Hadoop,Search,Solr,Cloudera,Cloudera Cdh,我的用例 我每天有20gb的文件。(以管道分隔的文本文件) 我已为90天的数据编制了索引(20*90 gb) 创纪录的数字——55亿 字段总数-30 索引字段-调用\u编号、调用\u编号、时间\u键 所有其他字段都按照schema.cml存储 索引大小-300gb 碎片数量=4 我使用下面的方法进行索引(org.apache.solr.hadoop.mapreduceIndexeTool) 在我的测试台上,我有4个数据节点和1个名称节点。(cloudera 5.4.7上的试验台) 每个节点都

我的用例

  • 我每天有20gb的文件。(以管道分隔的文本文件)
  • 我已为90天的数据编制了索引(20*90 gb)
  • 创纪录的数字——55亿
  • 字段总数-30
  • 索引字段-调用\u编号、调用\u编号、时间\u键
  • 所有其他字段都按照schema.cml存储
  • 索引大小-300gb
  • 碎片数量=4
我使用下面的方法进行索引(org.apache.solr.hadoop.mapreduceIndexeTool)

在我的测试台上,我有4个数据节点和1个名称节点。(cloudera 5.4.7上的试验台) 每个节点都有256gb的ram,在solr中我应该遵循哪些提高性能的技巧

在一次搜索(基于时间键的范围查询)中,获得3000条记录大约需要120秒。但在第一次查询之后,它会被缓存,然后如果我再次执行,我会在不到1秒的时间内得到响应,同时输出更大的记录(10000条记录输出也会在1秒内得到)

请注意,在检索10-20条记录时,第一次本身的性能是好的

hadoop jar /usr/lib/solr/contrib/mr/search-mr-*-job.jar org.apache.solr.hadoop.M apReduceIndexerTool \
    --morphline-file $path/morphlines.conf –output -dir hdfs://MASTERNODE:8020/$path2 \
    --go-live --zk-host MASTERNODE:2181/solr \
    --collection COLLECTIONNAME \
    --mappers 4 \
    --reducers 12 hdfs://Masternode/path/asd.txt