Python 如何在Spark中将Pandas Dataframe转换为String类型_Python_Pandas_Apache Spark_Pyspark_Spark Dataframe

Python 如何在Spark中将Pandas Dataframe转换为String类型

python pandas apache-spark pyspark

Python 如何在Spark中将Pandas Dataframe转换为String类型,python,pandas,apache-spark,pyspark,spark-dataframe,Python,Pandas,Apache Spark,Pyspark,Spark Dataframe,我在做数据记录。默认情况下，我已将CSV文件作为字符串类型加载到Spark数据框中。然后，我使用.toPandas命令将Spark数据帧转换为Pandas数据帧我遇到的问题是。默认情况下，toPandas正在将整个数据帧转换为type对象。我试图通过 df[x] = df[x].astype(str) 但这并不奏效是否有其他方法可以执行此操作？在pandas数据框中，字符串列的数据类型显示为object，因此您的列可能已经是字符串类型。您可以通过查看df[x].apply（lambda x

我在做数据记录。默认情况下，我已将CSV文件作为字符串类型加载到Spark数据框中。然后，我使用

.toPandas

命令将Spark数据帧转换为Pandas数据帧

我遇到的问题是

。默认情况下，toPandas

正在将整个数据帧转换为type对象。我试图通过

df[x] = df[x].astype(str)

但这并不奏效

是否有其他方法可以执行此操作？

在

pandas

数据框中，字符串列的数据类型显示为object，因此您的列可能已经是字符串类型。您可以通过查看

df[x].apply（lambda x:isinstance（x，str））.all（）

@Psidom进一步检查这一点。我假设如果您提供的输出为True，那么所有列确实都是String类型的？另外，当我运行这个命令时：“df[lst[col]=pd.to_numeric（df[lst[col]]，errors='compresse'，downcast='float'）”我得到了这个错误：“to_numeric（）得到了一个意外的关键字参数'downcast'，这让我相信它没有正确转换，因为这在我将它放入Spark之前起作用。