Apache spark 在Pyspark中,是否可以将数据帧的csv表示形式作为字符串?

Apache spark 在Pyspark中,是否可以将数据帧的csv表示形式作为字符串?,apache-spark,pyspark,Apache Spark,Pyspark,我试图得到与不带路径参数的pandas调用相同的结果。目前,我将数据帧保存为csv,然后读取它,我希望避免此步骤 路径:str或文件句柄,默认为无 文件路径或对象,如果未提供任何路径或对象,则结果将作为字符串返回。如果传递了非二进制文件对象,则应使用换行符=''打开该对象,从而禁用通用换行符。如果传递了二进制文件对象,则模式可能需要包含“b” 有一个大的数据集,这个函数就不起作用了。 是否有人知道pyspark中是否有此功能,或者是否知道解决方法?您可以使用来\u csv: csv_string

我试图得到与不带路径参数的pandas调用相同的结果。目前,我将数据帧保存为csv,然后读取它,我希望避免此步骤

路径:str或文件句柄,默认为无 文件路径或对象,如果未提供任何路径或对象,则结果将作为字符串返回。如果传递了非二进制文件对象,则应使用换行符=''打开该对象,从而禁用通用换行符。如果传递了二进制文件对象,则模式可能需要包含“b”

有一个大的数据集,这个函数就不起作用了。
是否有人知道pyspark中是否有此功能,或者是否知道解决方法?

您可以使用
来\u csv

csv_string = df.agg(F.concat_ws('\n', F.collect_list(F.to_csv(F.struct(df.columns))))).head()[0]

您可以使用
将列列表转换为csv,如下所示

from pyspark.sql import functions as f

df.select(f.to_csv(f.struct(df.columns))).show(truncate=False)