Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/ruby/24.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
提供元数据信息的pyspark函数(如input_file_name())有哪些不同?_Pyspark_Databricks_Azure Databricks - Fatal编程技术网

提供元数据信息的pyspark函数(如input_file_name())有哪些不同?

提供元数据信息的pyspark函数(如input_file_name())有哪些不同?,pyspark,databricks,azure-databricks,Pyspark,Databricks,Azure Databricks,我试图深入研究pyspark,找出所有不同的方法来跟踪在spark上下文中读取的文件的元数据。我主要使用Databricks,并希望找出不同的函数,如下面列出的函数,这些函数将为我提供有关数据的一些重要元数据信息 input_file_name() printSchema() df.describe().show() 我是pyspark的新手,我不知道如何获取此类信息。有没有一种方法可以获得pyspark中所有此类元数据函数的列表?提前感谢。这些是获取元数据信息的不同方法 对于数据集df的模式

我试图深入研究pyspark,找出所有不同的方法来跟踪在spark上下文中读取的文件的元数据。我主要使用Databricks,并希望找出不同的函数,如下面列出的函数,这些函数将为我提供有关数据的一些重要元数据信息

input_file_name()
printSchema()
df.describe().show()

我是pyspark的新手,我不知道如何获取此类信息。有没有一种方法可以获得pyspark中所有此类元数据函数的列表?提前感谢。

这些是获取元数据信息的不同方法

对于数据集df的模式,可以使用
df.schema
df.schema.fields
df.schema.fieldNames
df.printSchema()
,和
df.descripe().show()

甚至
createOrReplaceTempView
也提供了模式信息

df.createOrReplaceTempView("storm")


参考:

您要查找的内容都有文档记录。如果您不能全部浏览,您只需根据需要通过谷歌搜索即可。@LearneR,如果我的答案对您有帮助,您可以将其作为答案接受(单击答案旁边的复选标记,将其从灰色变为填充)。这可能对其他社区成员有益。非常感谢。
df.describe().show()
df.schema
df.createOrReplaceTempView("storm")