Hadoop 具有大数据检索的solr性能
我的用例Hadoop 具有大数据检索的solr性能,hadoop,search,solr,cloudera,cloudera-cdh,Hadoop,Search,Solr,Cloudera,Cloudera Cdh,我的用例 我每天有20gb的文件。(以管道分隔的文本文件) 我已为90天的数据编制了索引(20*90 gb) 创纪录的数字——55亿 字段总数-30 索引字段-调用\u编号、调用\u编号、时间\u键 所有其他字段都按照schema.cml存储 索引大小-300gb 碎片数量=4 我使用下面的方法进行索引(org.apache.solr.hadoop.mapreduceIndexeTool) 在我的测试台上,我有4个数据节点和1个名称节点。(cloudera 5.4.7上的试验台) 每个节点都
- 我每天有20gb的文件。(以管道分隔的文本文件)
- 我已为90天的数据编制了索引(20*90 gb)
- 创纪录的数字——55亿
- 字段总数-30
- 索引字段-调用\u编号、调用\u编号、时间\u键
- 所有其他字段都按照schema.cml存储
- 索引大小-300gb
- 碎片数量=4
hadoop jar /usr/lib/solr/contrib/mr/search-mr-*-job.jar org.apache.solr.hadoop.M apReduceIndexerTool \
--morphline-file $path/morphlines.conf –output -dir hdfs://MASTERNODE:8020/$path2 \
--go-live --zk-host MASTERNODE:2181/solr \
--collection COLLECTIONNAME \
--mappers 4 \
--reducers 12 hdfs://Masternode/path/asd.txt