Pyspark 使用AWS EMR的ETL

Pyspark 使用AWS EMR的ETL,pyspark,amazon-emr,Pyspark,Amazon Emr,我是AWS EMR的新手,我必须在EMR上使用spark执行以下任务:- 步骤1:-从s3中选择xml文件 步骤2:-对xml数据执行转换 步骤3:-将结果存储到Elasticsearch或任何RDBMS中 我需要关于如何执行这些步骤的程序您可以为此类作业创建一个临时群集。。。 选择步骤执行并启用在作业结束时终止群集 但是,如果您的用例只是从s3读取数据并加载到弹性搜索中,我建议您使用AWS Glue,因为它是无服务器的,您无需担心集群管理,您可以按需付费。我使用的xml数据与Glue不友好。.

我是AWS EMR的新手,我必须在EMR上使用spark执行以下任务:-

步骤1:-从s3中选择xml文件

步骤2:-对xml数据执行转换

步骤3:-将结果存储到Elasticsearch或任何RDBMS中


我需要关于如何执行这些步骤的程序

您可以为此类作业创建一个临时群集。。。 选择步骤执行并启用在作业结束时终止群集


但是,如果您的用例只是从s3读取数据并加载到弹性搜索中,我建议您使用AWS Glue,因为它是无服务器的,您无需担心集群管理,您可以按需付费。

我使用的xml数据与Glue不友好。.我使用的xml数据既有xml,也有html,因此,我无法在Glue Crawli中为模式指定特定的行标记。我在谈论Glue作业,但您可以随时创建EMR临时集群。