Pyspark Pypark over zeppilin:无法导出为csv格式?

Pyspark Pypark over zeppilin:无法导出为csv格式?,pyspark,export-to-csv,apache-zeppelin,Pyspark,Export To Csv,Apache Zeppelin,我正在尝试将数据帧导出为.csv文件,并将其导出到S3 bucket 不幸的是,它保存在拼花文件中 有人能告诉我,如何将pyspark数据帧导出到.csv文件中 我尝试了以下代码: 预测。选择(“概率”).write.format('csv').csv('s3a://bucketname/output/x1.csv')) 它引发此错误:CSV数据源不支持结构,值:数组>数据类型 感谢任何人的帮助 注意:我的spark设置基于zepplin 谢谢, Naseer概率是一个数组列(包含多个值),需要

我正在尝试将数据帧导出为.csv文件,并将其导出到S3 bucket

不幸的是,它保存在拼花文件中

有人能告诉我,如何将pyspark数据帧导出到.csv文件中

我尝试了以下代码: 预测。选择(“概率”).write.format('csv').csv('s3a://bucketname/output/x1.csv'))

它引发此错误:CSV数据源不支持结构,值:数组>数据类型

感谢任何人的帮助

注意:我的spark设置基于zepplin

谢谢,
Naseer

概率是一个数组列(包含多个值),需要先将其转换为字符串,然后才能将其保存到csv。一种方法是使用udf(用户定义函数):

然后,您可以保存数据集:

predictions.select("probability_string").write.csv('s3a://bucketname/output/x1.csv')

您需要展平结构类型才能另存为CSV。CSV不支持Struct。您可以共享任何资源来执行此操作吗?我感谢拉德克。感谢您的代码。它就像一个符咒。
predictions.select("probability_string").write.csv('s3a://bucketname/output/x1.csv')