Apache spark spark选件文档

Apache spark spark选件文档,apache-spark,pyspark,parquet,Apache Spark,Pyspark,Parquet,这个问题可能很容易回答,但就我的一生而言,我似乎找不到这个问题 有人能给我指一下spark可以使用的各种键值对选项的文档吗 pyspark中此类选项的示例: some_spark_table.write.format("parquet").option("parquet.block.size", 1234) 如果我对parquet.block.size选项的单位感兴趣,我在哪里可以找到它 我发现了一些有用的说法:要找到更多关于额外ORC/拼花地板选项的详细信息,请访问ApacheORC/拼花地

这个问题可能很容易回答,但就我的一生而言,我似乎找不到这个问题

有人能给我指一下spark可以使用的各种键值对选项的文档吗

pyspark中此类选项的示例:

some_spark_table.write.format("parquet").option("parquet.block.size", 1234)
如果我对parquet.block.size选项的单位感兴趣,我在哪里可以找到它


我发现了一些有用的说法:要找到更多关于额外ORC/拼花地板选项的详细信息,请访问ApacheORC/拼花地板官方网站。但是我还是找不到。

你必须查阅官方文件才能找到这些房产。 例如,与拼花地板相关的属性

而您可以找到的大多数与配置相关的属性


希望有帮助

您必须查阅官方文档才能找到酒店。 例如,与拼花地板相关的属性

而您可以找到的大多数与配置相关的属性


希望有帮助

正如doc所说,您可以访问Apache拼花地板官方网站。我认为官方网站的意思是:

从那里引用:

属性:parquet.block.size 描述:以字节为单位的块大小。此属性取决于文件系统:

如果使用的文件系统FS支持HDFS之类的块,则块大小 将是FS的默认块大小与此值之间的最大值 所有物行组大小将等于此属性

block\u size=maxdefault\u fs\u block\u size,parquet.block.size 行\组\尺寸=拼花地板.block.size 如果使用的文件系统不支持块,则此属性将定义行组大小。 请注意,行组大小的值越大,当 阅读,但写作时会消耗更多内存 默认值:134217728 128 MB


与Parquet不同,Spark自己的配置设置有很好的文档记录,正如另一个答案所指出的,Spark希望您在其网站上了解这些设置。

正如doc所说,您可以访问Apache Parquet官方网站。我认为官方网站的意思是:

从那里引用:

属性:parquet.block.size 描述:以字节为单位的块大小。此属性取决于文件系统:

如果使用的文件系统FS支持HDFS之类的块,则块大小 将是FS的默认块大小与此值之间的最大值 所有物行组大小将等于此属性

block\u size=maxdefault\u fs\u block\u size,parquet.block.size 行\组\尺寸=拼花地板.block.size 如果使用的文件系统不支持块,则此属性将定义行组大小。 请注意,行组大小的值越大,当 阅读,但写作时会消耗更多内存 默认值:134217728 128 MB


与Parquet不同,Spark自己的配置设置在其网站上有很好的文档记录,正如另一个答案所指出的那样。

我确实找到了这些链接,但是,没有一个提到我想要查看的选项,例如,Parquet文件的块大小……是的,我也没有看到,我确实找到了这些链接,但是,没有一个提到我想要查看的选项,例如拼花文件的块大小……是的,我也没有看到