Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
elasticsearch与hbase/hadoop进行实时统计_Hadoop_<img Src="//i.stack.imgur.com/RUiNP.png" Height="16" Width="18" Alt="" Class="sponsor Tag Img">elasticsearch_Hbase_Hdfs_Bigdata - Fatal编程技术网 elasticsearch,hbase,hdfs,bigdata,Hadoop,elasticsearch,Hbase,Hdfs,Bigdata" /> elasticsearch,hbase,hdfs,bigdata,Hadoop,elasticsearch,Hbase,Hdfs,Bigdata" />

elasticsearch与hbase/hadoop进行实时统计

elasticsearch与hbase/hadoop进行实时统计,hadoop,elasticsearch,hbase,hdfs,bigdata,Hadoop,elasticsearch,Hbase,Hdfs,Bigdata,我每周要记录数百万个小日志文档,以便: 数据挖掘中的即席查询 连接、比较、过滤和计算值 使用python进行多个全文搜索 每天对数百万份文档运行此操作几次 我的第一个想法是将所有文档放在HBase/HDFS中,运行Hadoop作业生成统计结果 问题是:某些结果必须接近实时 所以,经过一些研究,我发现了ElasticSearch,现在我正在考虑传输所有数百万个文档,并使用DSL查询生成统计结果 这是个好主意吗?ElasticSearch似乎很容易处理数以百万计/数十亿计的文档。 对于实时搜索分

我每周要记录数百万个小日志文档,以便:

  • 数据挖掘中的即席查询
  • 连接、比较、过滤和计算值
  • 使用python进行多个全文搜索
  • 每天对数百万份文档运行此操作几次
我的第一个想法是将所有文档放在HBase/HDFS中,运行Hadoop作业生成统计结果

问题是:某些结果必须接近实时

所以,经过一些研究,我发现了ElasticSearch,现在我正在考虑传输所有数百万个文档,并使用DSL查询生成统计结果

这是个好主意吗?ElasticSearch似乎很容易处理数以百万计/数十亿计的文档。

  • 对于实时搜索分析,弹性搜索是一个不错的选择
  • 绝对比Hadoop/HBase/HDFS更易于设置和处理。
  • 弹性搜索与HBase的良好比较: