Pyspark 将拼花地板转换为json以导入dynamodb

Pyspark 将拼花地板转换为json以导入dynamodb,pyspark,amazon-dynamodb,Pyspark,Amazon Dynamodb,我正在使用AWS胶水作业以拼花格式备份s3中的dynamodb表,以便能够在Athena中使用它 如果我想使用这些拼花格式的s3文件来恢复dynamodb中的表,这就是我的想法——读取每个拼花格式的文件并将其转换为json,然后将json格式的数据插入dynamodb(在下面几行中使用pyspark) 使用- 这种方法听起来正确吗?这种方法还有其他替代方法吗?您的方法会起作用,但您可以直接向DynamoDB写入。运行pyspark时,只需导入一些jars即可。看看这个: 希望这有帮助。您可以使

我正在使用AWS胶水作业以拼花格式备份s3中的dynamodb表,以便能够在Athena中使用它

如果我想使用这些拼花格式的s3文件来恢复dynamodb中的表,这就是我的想法——读取每个拼花格式的文件并将其转换为json,然后将json格式的数据插入dynamodb(在下面几行中使用pyspark)

使用-


这种方法听起来正确吗?这种方法还有其他替代方法吗?

您的方法会起作用,但您可以直接向DynamoDB写入。运行
pyspark
时,只需导入一些
jar
s即可。看看这个:


希望这有帮助。

您可以使用AWS Glue直接将拼花格式转换为JSON,然后创建一个lambda函数,在S3 put上触发并加载到DyanmoDB中


您可以使用spark直接写入dynamodb。这样,无需转换为json。谢谢,这很有帮助,我可以使用hive导入dynamo。
# set sql context
parquetFile = sqlContext.read.parquet(input_file)
parquetFile.write.json(output_path)