提供元数据信息的pyspark函数(如input_file_name())有哪些不同?
我试图深入研究pyspark,找出所有不同的方法来跟踪在spark上下文中读取的文件的元数据。我主要使用Databricks,并希望找出不同的函数,如下面列出的函数,这些函数将为我提供有关数据的一些重要元数据信息提供元数据信息的pyspark函数(如input_file_name())有哪些不同?,pyspark,databricks,azure-databricks,Pyspark,Databricks,Azure Databricks,我试图深入研究pyspark,找出所有不同的方法来跟踪在spark上下文中读取的文件的元数据。我主要使用Databricks,并希望找出不同的函数,如下面列出的函数,这些函数将为我提供有关数据的一些重要元数据信息 input_file_name() printSchema() df.describe().show() 我是pyspark的新手,我不知道如何获取此类信息。有没有一种方法可以获得pyspark中所有此类元数据函数的列表?提前感谢。这些是获取元数据信息的不同方法 对于数据集df的模式
input_file_name()
printSchema()
df.describe().show()
我是pyspark的新手,我不知道如何获取此类信息。有没有一种方法可以获得pyspark中所有此类元数据函数的列表?提前感谢。这些是获取元数据信息的不同方法 对于数据集df的模式,可以使用
df.schema
,df.schema.fields
,df.schema.fieldNames
,df.printSchema()
,和df.descripe().show()
甚至createOrReplaceTempView
也提供了模式信息
df.createOrReplaceTempView("storm")
参考:您要查找的内容都有文档记录。如果您不能全部浏览,您只需根据需要通过谷歌搜索即可。@LearneR,如果我的答案对您有帮助,您可以将其作为答案接受(单击答案旁边的复选标记,将其从灰色变为填充)。这可能对其他社区成员有益。非常感谢。
df.describe().show()
df.schema
df.createOrReplaceTempView("storm")