Hadoop 具有大数据检索的solr性能_Hadoop_Search_Solr_Cloudera_Cloudera Cdh

Hadoop 具有大数据检索的solr性能

hadoop search solr

Hadoop 具有大数据检索的solr性能,hadoop,search,solr,cloudera,cloudera-cdh,Hadoop,Search,Solr,Cloudera,Cloudera Cdh,我的用例我每天有20gb的文件。（以管道分隔的文本文件）我已为90天的数据编制了索引（20*90 gb）创纪录的数字——55亿字段总数-30 索引字段-调用\u编号、调用\u编号、时间\u键所有其他字段都按照schema.cml存储索引大小-300gb 碎片数量=4 我使用下面的方法进行索引（org.apache.solr.hadoop.mapreduceIndexeTool）在我的测试台上，我有4个数据节点和1个名称节点。（cloudera 5.4.7上的试验台）每个节点都

我的用例

我每天有20gb的文件。（以管道分隔的文本文件）
我已为90天的数据编制了索引（20*90 gb）
创纪录的数字——55亿
字段总数-30
索引字段-调用\u编号、调用\u编号、时间\u键
所有其他字段都按照schema.cml存储
索引大小-300gb
碎片数量=4

我使用下面的方法进行索引（org.apache.solr.hadoop.mapreduceIndexeTool）

在我的测试台上，我有4个数据节点和1个名称节点。（cloudera 5.4.7上的试验台）每个节点都有256gb的ram，在solr中我应该遵循哪些提高性能的技巧

在一次搜索（基于时间键的范围查询）中，获得3000条记录大约需要120秒。但在第一次查询之后，它会被缓存，然后如果我再次执行，我会在不到1秒的时间内得到响应，同时输出更大的记录（10000条记录输出也会在1秒内得到）

请注意，在检索10-20条记录时，第一次本身的性能是好的

hadoop jar /usr/lib/solr/contrib/mr/search-mr-*-job.jar org.apache.solr.hadoop.M apReduceIndexerTool \
    --morphline-file $path/morphlines.conf –output -dir hdfs://MASTERNODE:8020/$path2 \
    --go-live --zk-host MASTERNODE:2181/solr \
    --collection COLLECTIONNAME \
    --mappers 4 \
    --reducers 12 hdfs://Masternode/path/asd.txt