当列确实存在时,Pyspark无法解析列名
我有一些Pyspark代码正在处理一个示例csv BLOB,然后我决定将它指向一个更大的数据集。这一行:当列确实存在时,Pyspark无法解析列名,pyspark,Pyspark,我有一些Pyspark代码正在处理一个示例csv BLOB,然后我决定将它指向一个更大的数据集。这一行: df= df.withColumn("TransactionDate", df["TransactionDate"].cast(TimestampType())) 现在抛出此错误: AnalysisException: u'Cannot resolve column name "TransactionDate" among ("TransactionDate","Country ...
df= df.withColumn("TransactionDate", df["TransactionDate"].cast(TimestampType()))
现在抛出此错误:
AnalysisException: u'Cannot resolve column name "TransactionDate" among ("TransactionDate","Country ...
很明显,TransactionDate作为一列存在于数据集中,那么为什么它突然不起作用呢?啊,好吧,我想出来了。如果您收到此问题,请检查您的分隔符。在我的新数据集中,它是“where as as In my small sample is was”|
df = spark.read.format(file_type).options(header='true', quote='"', delimiter=",",ignoreLeadingWhiteSpace='true',inferSchema='true').load(file_location)