Java Apache拼花数据存储引擎？_Java_Apache Spark_Parquet

Java Apache拼花数据存储引擎？

java apache-spark

Java Apache拼花数据存储引擎？,java,apache-spark,parquet,Java,Apache Spark,Parquet,从下面的链接中，我看到代码片段存储了拼花地板格式的数据，但是根据我的理解，这只是一种格式，而不是一个存储引擎。所以拼花地板将在商店里出售 HDFS/S3/Cassandra等存储引擎上特定格式的数据，不是吗？所以我的问题是下面的代码片段将在哪里存储th数据，因为我看不到任何关于HDFS/S3/Cassandra等存储引擎的提及 Dataset<Row> peopleDF = spark.read().json("examples/src/main/resources/people

从下面的链接中，我看到代码片段存储了拼花地板格式的数据，但是根据我的理解，这只是一种格式，而不是一个存储引擎。所以拼花地板将在商店里出售 HDFS/S3/Cassandra等存储引擎上特定格式的数据，不是吗？所以我的问题是下面的代码片段将在哪里存储th数据，因为我看不到任何关于HDFS/S3/Cassandra等存储引擎的提及

Dataset<Row> peopleDF = spark.read().json("examples/src/main/resources/people.json");

// DataFrames can be saved as Parquet files, maintaining the schema information
peopleDF.write().parquet("people.parquet");

// Read in the Parquet file created above.
// Parquet files are self-describing so the schema is preserved
// The result of loading a parquet file is also a DataFrame
Dataset<Row> parquetFileDF = spark.read().parquet("people.parquet");

Dataset peopleDF=spark.read（）.json（“examples/src/main/resources/people.json”）；
//数据框可以保存为拼花文件，以维护模式信息
peopleDF.write（）.parquet（“people.parquet”）；
//读入上面创建的拼花地板文件。
//拼花地板文件是自描述的，因此保留了模式
//加载拼花地板文件的结果也是一个数据帧
数据集parquetFileDF=spark.read（）.parquet（“people.parquet”）；

它是从URL方案推导出来的，例如

s3://examples/src/main/resources/people.json

或

hdfs://examples/src/main/resources/people.json

。从scheme到

org.apache.hadoop.fs.FileSystem

实现的映射在hadoop配置中维护。比如说

<property><name>fs.s3.impl</name><value>org.apache.hadoop.fs.s3a.S3AFileSystem</value></property>

fs.s3.improg.apache.hadoop.fs.s3a.S3AFileSystem

将

s3://…

映射到

S3AFileSystem

，如果没有显式配置，一些常见文件系统会有默认值。

它是从URL方案推导出来的，例如

s3://examples/src/main/resources/people.json

或

hdfs://examples/src/main/resources/people.json

。从scheme到

org.apache.hadoop.fs.FileSystem

实现的映射在hadoop配置中维护。比如说

<property><name>fs.s3.impl</name><value>org.apache.hadoop.fs.s3a.S3AFileSystem</value></property>

fs.s3.improg.apache.hadoop.fs.s3a.S3AFileSystem

将

s3://…

映射到

S3AFileSystem

，并且在一些常见文件系统没有明确配置的情况下，它们有默认值。

但是正如我在代码片段中提到的，我没有看到任何关于s3/HDFS的提及。那么文件将存储在这里吗？不，我认为在未指定方案时，它默认为本地文件系统。使用

s3://some/path/people.parquet

存储到s3或

hdfs://some/path/people.parquet

存储到HDFS。但正如我在代码片段中提到的，我没有看到任何关于S3/HDFS的内容。那么文件将存储在这里吗？不，我认为在未指定方案时，它默认为本地文件系统。使用

s3://some/path/people.parquet

存储到s3或

hdfs://some/path/people.parquet

存储到HDFS。