Pyspark 将拼花地板转换为json以导入dynamodb_Pyspark_Amazon Dynamodb

Pyspark 将拼花地板转换为json以导入dynamodb

pyspark amazon-dynamodb

Pyspark 将拼花地板转换为json以导入dynamodb,pyspark,amazon-dynamodb,Pyspark,Amazon Dynamodb,我正在使用AWS胶水作业以拼花格式备份s3中的dynamodb表，以便能够在Athena中使用它如果我想使用这些拼花格式的s3文件来恢复dynamodb中的表，这就是我的想法——读取每个拼花格式的文件并将其转换为json，然后将json格式的数据插入dynamodb（在下面几行中使用pyspark）使用- 这种方法听起来正确吗？这种方法还有其他替代方法吗？您的方法会起作用，但您可以直接向DynamoDB写入。运行pyspark时，只需导入一些jars即可。看看这个：希望这有帮助。您可以使

我正在使用AWS胶水作业以拼花格式备份s3中的dynamodb表，以便能够在Athena中使用它

如果我想使用这些拼花格式的s3文件来恢复dynamodb中的表，这就是我的想法——读取每个拼花格式的文件并将其转换为json，然后将json格式的数据插入dynamodb（在下面几行中使用pyspark）

使用-

这种方法听起来正确吗？这种方法还有其他替代方法吗？

您的方法会起作用，但您可以直接向DynamoDB写入。运行

pyspark

时，只需导入一些

jar

s即可。看看这个：

希望这有帮助。

您可以使用AWS Glue直接将拼花格式转换为JSON，然后创建一个lambda函数，在S3 put上触发并加载到DyanmoDB中

您可以使用spark直接写入dynamodb。这样，无需转换为json。谢谢，这很有帮助，我可以使用hive导入dynamo。

# set sql context
parquetFile = sqlContext.read.parquet(input_file)
parquetFile.write.json(output_path)