Apache spark Spark:生成txt文件
我有parqueue格式存储的数据,我想从spark生成分隔文本文件,每个文件的行限制为100行。这可以从spark笔记本电脑处理吗? 我正在建立一个ADF管道来触发这个笔记本,假设输出是文本文件,类似于下面的格式,请建议我可能的方法 5431732167 899 1011381 1测试字符串 5431732163 899 912测试字符串 5431932119 899 108808 40测试字符串 5432032116 899 1082223 40测试字符串 我还需要处理该批文本文件并将其加载到数据库中,请建议执行此操作的选项 提前谢谢 谢谢,Apache spark Spark:生成txt文件,apache-spark,apache-spark-sql,Apache Spark,Apache Spark Sql,我有parqueue格式存储的数据,我想从spark生成分隔文本文件,每个文件的行限制为100行。这可以从spark笔记本电脑处理吗? 我正在建立一个ADF管道来触发这个笔记本,假设输出是文本文件,类似于下面的格式,请建议我可能的方法 5431732167 899 1011381 1测试字符串 5431732163 899 912测试字符串 5431932119 899 108808 40测试字符串 5432032116 899 1082223 40测试字符串 我还需要处理该批文本文件并将其加载
Manoj.这个问题似乎是功能性的重复: 在运行编写CSV文件的作业之前,请设置
maxRecordsPerFile
,以便在Spark SQL中:
set spark.sql.files.maxRecordsPerFile = 100
您应该能够将maxRecordsPerFile与CSV输出一起使用。但这并不能保证您只有一个记录少于100条的文件,只能保证没有超过100行的文件。Spark并行写入,因此无法跨节点确保这一点
df
写
.选项(“maxRecordsPerFile”,100)
.csv(输出路径)
如果您的数据非常小,您可以将其合并到一个分区,并确保只有一个文件大于100行,但这样您就失去了并行处理速度优势(在上次计算和写入过程中,您的大多数集群将被闲置)
对于写入数据库,解决方案取决于特定的数据库。许多数据库支持的一个例子是JDBC,spark可以用它读/写数据,请参阅:这是否回答了您的问题?