Amazon web services 使用EMR处理cloudtrail日志

Amazon web services 使用EMR处理cloudtrail日志,amazon-web-services,Amazon Web Services,我有一个关于Amazon web服务的问题。 是否可以使用EMR来处理cloudtrail中的日志?简要描述如何完成此操作?是。AWS Cloudtrail日志可以使用EMR Hive或EMR Spark进行解析 在EMR Spark:awslapes有一个开源代码,可以将您的AWS CloudTrail日志转换为Spark数据框架,然后您可以使用SQL进行查询 在EMR配置单元上:EMR集群包括一个Cloudtrail服务器,用于解析Cloudtrial日志。这些类是/usr/share/aw

我有一个关于Amazon web服务的问题。
是否可以使用EMR来处理cloudtrail中的日志?简要描述如何完成此操作?

是。AWS Cloudtrail日志可以使用EMR Hive或EMR Spark进行解析

EMR Spark:awslapes有一个开源代码,可以将您的AWS CloudTrail日志转换为Spark数据框架,然后您可以使用SQL进行查询

EMR配置单元上:EMR集群包括一个Cloudtrail服务器,用于解析Cloudtrial日志。这些类是/usr/share/aws/emr/goodies/lib/EmrHadoopGoodies-x.jar和/usr/share/aws/emr/goodies/lib/EmrHiveGoodies-x.jar的一部分,并自动包含在配置单元类路径中。Hive还可以自动反压缩GZ文件。您所需要做的就是运行类似于SQL命令的查询。数据由CloudTrailInputFormat实现处理,该实现定义了输入数据拆分和键/值记录。调用SerDe中定义的CloudTrailLogDeserializer类将数据格式化为一个记录,该记录映射到表中的列和数据类型。要写入的数据(例如使用INSERT语句)由SerDe中定义的序列化程序类转换为OUTPUTFORMAT类(HiveIgnoreKeyTextOutputFormat)可以读取的格式。可以在此处找到配置单元调用示例: