使用es-hadoop索引日志_Hadoop_<img Src="//i.stack.imgur.com/RUiNP.png" Height="16" Width="18" Alt="" Class="sponsor Tag Img">elasticsearch_Hdfs_Avro

使用es-hadoop索引日志

hadoop

使用es-hadoop索引日志,hadoop,elasticsearch,hdfs,avro,Hadoop,elasticsearch,Hdfs,Avro,我是elasticsearch的新手，希望为我的网站日志编制索引，这些日志存储在HDFS上，以便快速查询。我有一个结构良好的管道，每20分钟运行一个脚本，将数据摄取到HDFS中。我想将elasticsearch与之集成，这样它也可以根据特定字段对这些日志进行索引，从而使用spark SQL提供更快的查询结果。所以，我的问题是，我可以只基于特定字段对数据进行索引吗？此外，我的日志以avro文件格式保存。es是否提供了一种直接索引avro序列化数据的方法，还是需要将其转换为其他格式提前谢谢

我是elasticsearch的新手，希望为我的网站日志编制索引，这些日志存储在HDFS上，以便快速查询。我有一个结构良好的管道，每20分钟运行一个脚本，将数据摄取到HDFS中。我想将elasticsearch与之集成，这样它也可以根据特定字段对这些日志进行索引，从而使用spark SQL提供更快的查询结果。所以，我的问题是，我可以只基于特定字段对数据进行索引吗？此外，我的日志以avro文件格式保存。es是否提供了一种直接索引avro序列化数据的方法，还是需要将其转换为其他格式

提前谢谢。

我建议您查看Elasticsearch、Logstash和Kibana stack，它们应该足以满足您的需求。将其放在HDFS上，然后使用ES将是额外的开销

相反，您可以使用Logstash将数据输入ES，在您希望查询的任何字段上建立索引，并在不到10分钟的练习中构建简单的仪表板。请阅读本教程，以获得更好的分步指南

所以，如果我也将日志存储在elasticsearch中，它不需要两倍的空间吗？我的意思是，只存储到ES中。