Dataframe csv的pyspark模式验证_Dataframe_Pyspark_Union

Dataframe csv的pyspark模式验证

dataframe pyspark

Dataframe csv的pyspark模式验证,dataframe,pyspark,union,Dataframe,Pyspark,Union,我在pyspark数据帧df1中有原始数据（从csv文件读取）。当我尝试附加另一个csv（将在另一个pyspark数据帧df2中读取）时，在我“联合”这两个数据帧之前，是否有一种优雅的方法来检查或验证这两个数据帧的模式？谢谢。您需要什么样的验证匹配列名称如果您只想知道是否存在相同的列，可以使用 df1.选择（df2.列）我认为，如果您试图进行联合，检查数据类型以及列是否可为空非常重要，因为您可以使用： df1.schema==df2.schema 您可以根据您的用例将它们设置为断言或i

我在pyspark数据帧df1中有原始数据（从csv文件读取）。当我尝试附加另一个csv（将在另一个pyspark数据帧df2中读取）时，在我“联合”这两个数据帧之前，是否有一种优雅的方法来检查或验证这两个数据帧的模式？谢谢。

您需要什么样的验证

匹配列名称如果您只想知道是否存在相同的列，可以使用

df1.选择（df2.列）

我认为，如果您试图进行联合，检查数据类型以及列是否可为空非常重要，因为您可以使用：

df1.schema==df2.schema

您可以根据您的用例将它们设置为断言或if条件。

您需要什么样的验证

匹配列名称如果您只想知道是否存在相同的列，可以使用

df1.选择（df2.列）

我认为，如果您试图进行联合，检查数据类型以及列是否可为空非常重要，因为您可以使用：

df1.schema==df2.schema

您可以根据您的用例将它们作为断言或if条件放置。

两个数据帧是否具有相同的模式？你已经知道模式了吗？我知道df1的模式。在“联合”这两个数据帧之前，我想检查df2的模式是否与df1相同。或者我想说我的csv头与df2不同。基本上，我想在合并df1和df2之前检查它们的头名称是否相同。谢谢，只是头球<代码>断言df1.columns==df2.columns。但是，如果要按名称进行联合，可以直接使用一个方法：。两个数据帧是否具有相同的架构？你已经知道模式了吗？我知道df1的模式。在“联合”这两个数据帧之前，我想检查df2的模式是否与df1相同。或者我想说我的csv头与df2不同。基本上，我想在合并df1和df2之前检查它们的头名称是否相同。谢谢，只是头球<代码>断言df1.columns==df2.columns。但是，如果要按名称进行联合，则可以直接使用以下方法：。