Dataframe csv的pyspark模式验证

Dataframe csv的pyspark模式验证,dataframe,pyspark,union,Dataframe,Pyspark,Union,我在pyspark数据帧df1中有原始数据(从csv文件读取)。当我尝试附加另一个csv(将在另一个pyspark数据帧df2中读取)时,在我“联合”这两个数据帧之前,是否有一种优雅的方法来检查或验证这两个数据帧的模式?谢谢。您需要什么样的验证 匹配列名称 如果您只想知道是否存在相同的列,可以使用 df1.选择(df2.列) 我认为,如果您试图进行联合,检查数据类型以及列是否可为空非常重要,因为您可以使用: df1.schema==df2.schema 您可以根据您的用例将它们设置为断言或i

我在pyspark数据帧df1中有原始数据(从csv文件读取)。当我尝试附加另一个csv(将在另一个pyspark数据帧df2中读取)时,在我“联合”这两个数据帧之前,是否有一种优雅的方法来检查或验证这两个数据帧的模式?谢谢。

您需要什么样的验证

  • 匹配列名称 如果您只想知道是否存在相同的列,可以使用

    df1.选择(df2.列)

  • 我认为,如果您试图进行联合,检查数据类型以及列是否可为空非常重要,因为您可以使用:

    df1.schema==df2.schema


  • 您可以根据您的用例将它们设置为断言或if条件。

    您需要什么样的验证

  • 匹配列名称 如果您只想知道是否存在相同的列,可以使用

    df1.选择(df2.列)

  • 我认为,如果您试图进行联合,检查数据类型以及列是否可为空非常重要,因为您可以使用:

    df1.schema==df2.schema


  • 您可以根据您的用例将它们作为断言或if条件放置。

    两个数据帧是否具有相同的模式?你已经知道模式了吗?我知道df1的模式。在“联合”这两个数据帧之前,我想检查df2的模式是否与df1相同。或者我想说我的csv头与df2不同。基本上,我想在合并df1和df2之前检查它们的头名称是否相同。谢谢,只是头球<代码>断言df1.columns==df2.columns。但是,如果要按名称进行联合,可以直接使用一个方法:。两个数据帧是否具有相同的架构?你已经知道模式了吗?我知道df1的模式。在“联合”这两个数据帧之前,我想检查df2的模式是否与df1相同。或者我想说我的csv头与df2不同。基本上,我想在合并df1和df2之前检查它们的头名称是否相同。谢谢,只是头球<代码>断言df1.columns==df2.columns。但是,如果要按名称进行联合,则可以直接使用以下方法:。