Apache spark 无需EMR即可启动发电机
我有一组AWS实例,其中安装了ApacheHadoop发行版和ApacheSpark 我正试图通过Spark streaming访问DynamoDb,以便对表进行读写操作,但是 在编写Spark-DynamoDB代码的过程中,我了解到需要emr-ddb-hadoop.jar来获取DynamoDB输入格式和输出格式,这仅存在于emr集群中。 在查看了一些博客之后,似乎只有使用EMR Spark才能访问它。 对吗Apache spark 无需EMR即可启动发电机,apache-spark,amazon-dynamodb,spark-streaming,amazon-emr,Apache Spark,Amazon Dynamodb,Spark Streaming,Amazon Emr,我有一组AWS实例,其中安装了ApacheHadoop发行版和ApacheSpark 我正试图通过Spark streaming访问DynamoDb,以便对表进行读写操作,但是 在编写Spark-DynamoDB代码的过程中,我了解到需要emr-ddb-hadoop.jar来获取DynamoDB输入格式和输出格式,这仅存在于emr集群中。 在查看了一些博客之后,似乎只有使用EMR Spark才能访问它。 对吗 然而,我使用独立的JavaSDK访问Dynamodb,它工作得很好,我得到了问题的解决
然而,我使用独立的JavaSDK访问Dynamodb,它工作得很好,我得到了问题的解决方案。 我从emr下载了emr-ddb-hadoop.jar文件,并在我的环境中使用它。
请注意:要运行DynamoDB,我们只需要上面的jar。jar是可用的'com.amazonaws:aws java sdk emr:1.10.68'尝试将其包含在spark中。我尝试将上面的依赖项包含在我的项目中,但emr-ddb-hadoop.jar没有出现在项目的Maven依赖项文件夹中,还有哪个jar文件包含org.apache.hadoop.dynamodb.write.DynamoDBOutputFormat和org.apache.hadoop.dynamodb.read.dynamodbinputformat就是这个-启动应用程序时添加以下标志-packages com.amazonaws:aws java sdk dynamodb:1.10.69,aws java sdk emr:1.10.68。例如bin/spark submit-packages com.amazonaws:aws java sdk dynamodb:1.10.69,aws java sdk emr:1.10.68…此依赖项与java Dynamodb相关,但是我正在寻找Spark-Dynamodb,它应该包含org.apache.hadoop.Dynamodb.read.dynamodbinputformat。您可以分享您如何使用这些jar文件创建Spark会话的代码吗。?这对我非常有帮助。谢谢你是的Saurabh这段代码对我来说也是一个真正的起点