无法从Spark的Java数据集中的AWS S3读取数据_Java_Apache Spark_Intellij Idea_Amazon S3

无法从Spark的Java数据集中的AWS S3读取数据

java apache-spark intellij-idea amazon-s3

无法从Spark的Java数据集中的AWS S3读取数据,java,apache-spark,intellij-idea,amazon-s3,Java,Apache Spark,Intellij Idea,Amazon S3,我试图将aws s3中的数据读入Java中的dataset/rdd，但在线程“main”Java.lang.NoClassDefFoundError:org/apache/hadoop/fs/StreamCapabilities中出现异常。我在IntelliJ上运行Java中的Spark代码，因此在pom.xml中添加了Hadoop依赖项下面是我的代码和pom.xml文件 import org.apache.spark.api.java.JavaRDD; import org.apache.s

我试图将aws s3中的数据读入Java中的dataset/rdd，但在线程“main”Java.lang.NoClassDefFoundError:org/apache/hadoop/fs/StreamCapabilities中出现异常。我在IntelliJ上运行Java中的Spark代码，因此在pom.xml中添加了Hadoop依赖项

下面是我的代码和pom.xml文件

import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.sql.SparkSession;
import org.apache.spark.api.java.JavaSparkContext;

public class SparkJava {

    public static void main(String[] args){

        SparkSession spark  = SparkSession
                .builder()
                .master("local")
                .config("spark.hadoop.fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem")                  .config("spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version", "2")
                .config("fs.s3n.awsAccessKeyId", AWS_KEY)
                .config("fs.s3n.awsSecretAccessKey", AWS_SECRET_KEY)
                .getOrCreate();

        JavaSparkContext sc = new JavaSparkContext(spark.sparkContext());
        String input_path = "s3a://bucket/2018/07/28/zqa.parquet";
        Dataset<Row> dF = spark.read().load(input_path); // THIS LINE CAUSES ERROR

    }
}

import org.apache.spark.api.java.JavaRDD；
导入org.apache.spark.sql.SparkSession；
导入org.apache.spark.api.java.JavaSparkContext；
公共类SparkJava{
公共静态void main（字符串[]args）{
火花会话火花=火花会话
.builder（）
.master（“本地”）
.config（“spark.hadoop.fs.s3a.impl”、“org.apache.hadoop.fs.s3a.S3AFileSystem”）.config（“spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version”、“2”）
.config（“fs.s3n.awsAccessKeyId”，AWS_键）
.config（“fs.s3n.awsSecretAccessKey”，AWS\u SECRET\u KEY）
.getOrCreate（）；
JavaSparkContext sc=新的JavaSparkContext（spark.sparkContext（））；
字符串输入_path=“s3a://bucket/2018/07/28/zqa.parquet”；
数据集dF=spark.read（）.load（输入路径）；//此行导致错误
}
}

以下是pom.xml中的依赖项

<dependencies>
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-core_2.11</artifactId>
        <version>2.3.1</version>
    </dependency>
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-sql_2.11</artifactId>
        <version>2.3.1</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-aws</artifactId>
        <version>3.1.1</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-hdfs</artifactId>
        <version>3.1.1</version>
    </dependency>
</dependencies>


org.apache.spark
spark-core_2.11
2.3.1
org.apache.spark
spark-sql_2.11
2.3.1
org.apache.hadoop
hadoop aws
3.1.1
org.apache.hadoop
hadoop hdfs
3.1.1

任何帮助都将不胜感激。提前谢谢

通过添加流动依赖项解决了此问题：

<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-common</artifactId>
    <version>3.1.1</version>
</dependency>


org.apache.hadoop
hadoop通用
3.1.1

通过添加流动依赖项解决了此问题：

<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-common</artifactId>
    <version>3.1.1</version>
</dependency>


org.apache.hadoop
hadoop通用
3.1.1

您是否设置了相关的环境变量，如HADOOP\u HOME、SPARK\u DIST\u CLASSPATH等。如果是，请分享您设置的内容？（我想在做这件事之前，我们需要设置好几个）。@Lalit:谢谢你的回复。如何设置类路径？指定依赖项是否不够？当你说HADOOP_HOME时，我必须安装HADOOP吗？你能告诉我一步一步的说明吗。对不起，我是Java新手，来自Python世界。只是依赖性还不够（hadoop的乐趣，我经历了很多：））。在这篇文章中尝试获得最大投票数的回复，看看它是否有效-。这可能会让人有点困惑，所以不要担心（我们可以在后面进行解释）-只需回答这个问题，不管结果如何。您是否设置了相关的环境变量，如HADOOP\u HOME、SPARK\u DIST\u CLASSPATH等。如果是，请分享您设置的内容？（我想在做这件事之前，我们需要设置好几个）。@Lalit:谢谢你的回复。如何设置类路径？指定依赖项是否不够？当你说HADOOP_HOME时，我必须安装HADOOP吗？你能告诉我一步一步的说明吗。对不起，我是Java新手，来自Python世界。只是依赖性还不够（hadoop的乐趣，我经历了很多：））。在这篇文章中尝试获得最大投票数的回复，看看它是否有效-。这可能会让人有点困惑，所以不要担心（我们可以在后面进行解释）-只需回答这个问题，不管结果是什么。如何将其写入s3？和你在这里做的一样？如何将其写入s3？和你在这里做的一样？数据集dF=spark.read（）.load（输入路径）；根据我的理解，我们可以使用spark.write（）.load（output_path）如何将其写入s3？和你在这里做的一样？如何将其写入s3？和你在这里做的一样？数据集dF=spark.read（）.load（输入路径）；根据我的理解，我们可以使用spark.write（）.load（输出路径）