Pyspark Pypark over zeppilin:无法导出为csv格式？_Pyspark_Export To Csv_Apache Zeppelin

Pyspark Pypark over zeppilin:无法导出为csv格式？

pyspark

Pyspark Pypark over zeppilin:无法导出为csv格式？,pyspark,export-to-csv,apache-zeppelin,Pyspark,Export To Csv,Apache Zeppelin,我正在尝试将数据帧导出为.csv文件，并将其导出到S3 bucket 不幸的是，它保存在拼花文件中有人能告诉我，如何将pyspark数据帧导出到.csv文件中我尝试了以下代码：预测。选择（“概率”）.write.format（'csv'）.csv（'s3a://bucketname/output/x1.csv'））它引发此错误：CSV数据源不支持结构，值：数组>数据类型感谢任何人的帮助注意：我的spark设置基于zepplin 谢谢， Naseer概率是一个数组列（包含多个值），需要

我正在尝试将数据帧导出为.csv文件，并将其导出到S3 bucket

不幸的是，它保存在拼花文件中

有人能告诉我，如何将pyspark数据帧导出到.csv文件中

我尝试了以下代码：预测。选择（“概率”）.write.format（'csv'）.csv（'s3a://bucketname/output/x1.csv'））

它引发此错误：CSV数据源不支持结构，值：数组>数据类型

感谢任何人的帮助

注意：我的spark设置基于zepplin

谢谢，

Naseer

概率是一个数组列（包含多个值），需要先将其转换为字符串，然后才能将其保存到csv。一种方法是使用udf（用户定义函数）：

然后，您可以保存数据集：

predictions.select("probability_string").write.csv('s3a://bucketname/output/x1.csv')

您需要展平结构类型才能另存为CSV。CSV不支持Struct。您可以共享任何资源来执行此操作吗？我感谢拉德克。感谢您的代码。它就像一个符咒。

predictions.select("probability_string").write.csv('s3a://bucketname/output/x1.csv')