使用es-hadoop索引日志
我是elasticsearch的新手,希望为我的网站日志编制索引,这些日志存储在HDFS上,以便快速查询。 我有一个结构良好的管道,每20分钟运行一个脚本,将数据摄取到HDFS中。 我想将elasticsearch与之集成,这样它也可以根据特定字段对这些日志进行索引,从而使用spark SQL提供更快的查询结果。 所以,我的问题是,我可以只基于特定字段对数据进行索引吗? 此外,我的日志以avro文件格式保存。es是否提供了一种直接索引avro序列化数据的方法,还是需要将其转换为其他格式使用es-hadoop索引日志,hadoop,elasticsearch,hdfs,avro,Hadoop,elasticsearch,Hdfs,Avro,我是elasticsearch的新手,希望为我的网站日志编制索引,这些日志存储在HDFS上,以便快速查询。 我有一个结构良好的管道,每20分钟运行一个脚本,将数据摄取到HDFS中。 我想将elasticsearch与之集成,这样它也可以根据特定字段对这些日志进行索引,从而使用spark SQL提供更快的查询结果。 所以,我的问题是,我可以只基于特定字段对数据进行索引吗? 此外,我的日志以avro文件格式保存。es是否提供了一种直接索引avro序列化数据的方法,还是需要将其转换为其他格式 提前谢谢
提前谢谢。我建议您查看Elasticsearch、Logstash和Kibana stack,它们应该足以满足您的需求。将其放在HDFS上,然后使用ES将是额外的开销 相反,您可以使用Logstash将数据输入ES,在您希望查询的任何字段上建立索引,并在不到10分钟的练习中构建简单的仪表板。请阅读本教程,以获得更好的分步指南
所以,如果我也将日志存储在elasticsearch中,它不需要两倍的空间吗?我的意思是,只存储到ES中。