Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
使用es-hadoop索引日志_Hadoop_<img Src="//i.stack.imgur.com/RUiNP.png" Height="16" Width="18" Alt="" Class="sponsor Tag Img">elasticsearch_Hdfs_Avro - Fatal编程技术网 elasticsearch,hdfs,avro,Hadoop,elasticsearch,Hdfs,Avro" /> elasticsearch,hdfs,avro,Hadoop,elasticsearch,Hdfs,Avro" />

使用es-hadoop索引日志

使用es-hadoop索引日志,hadoop,elasticsearch,hdfs,avro,Hadoop,elasticsearch,Hdfs,Avro,我是elasticsearch的新手,希望为我的网站日志编制索引,这些日志存储在HDFS上,以便快速查询。 我有一个结构良好的管道,每20分钟运行一个脚本,将数据摄取到HDFS中。 我想将elasticsearch与之集成,这样它也可以根据特定字段对这些日志进行索引,从而使用spark SQL提供更快的查询结果。 所以,我的问题是,我可以只基于特定字段对数据进行索引吗? 此外,我的日志以avro文件格式保存。es是否提供了一种直接索引avro序列化数据的方法,还是需要将其转换为其他格式 提前谢谢

我是elasticsearch的新手,希望为我的网站日志编制索引,这些日志存储在HDFS上,以便快速查询。 我有一个结构良好的管道,每20分钟运行一个脚本,将数据摄取到HDFS中。 我想将elasticsearch与之集成,这样它也可以根据特定字段对这些日志进行索引,从而使用spark SQL提供更快的查询结果。 所以,我的问题是,我可以只基于特定字段对数据进行索引吗? 此外,我的日志以avro文件格式保存。es是否提供了一种直接索引avro序列化数据的方法,还是需要将其转换为其他格式


提前谢谢。

我建议您查看Elasticsearch、Logstash和Kibana stack,它们应该足以满足您的需求。将其放在HDFS上,然后使用ES将是额外的开销

相反,您可以使用Logstash将数据输入ES,在您希望查询的任何字段上建立索引,并在不到10分钟的练习中构建简单的仪表板。请阅读本教程,以获得更好的分步指南


所以,如果我也将日志存储在elasticsearch中,它不需要两倍的空间吗?我的意思是,只存储到ES中。