Apache spark Spark：生成txt文件_Apache Spark_Apache Spark Sql

Apache spark Spark：生成txt文件

apache-spark

Apache spark Spark：生成txt文件,apache-spark,apache-spark-sql,Apache Spark,Apache Spark Sql,我有parqueue格式存储的数据，我想从spark生成分隔文本文件，每个文件的行限制为100行。这可以从spark笔记本电脑处理吗？我正在建立一个ADF管道来触发这个笔记本，假设输出是文本文件，类似于下面的格式，请建议我可能的方法 5431732167 899 1011381 1测试字符串 5431732163 899 912测试字符串 5431932119 899 108808 40测试字符串 5432032116 899 1082223 40测试字符串我还需要处理该批文本文件并将其加载

我有parqueue格式存储的数据，我想从spark生成分隔文本文件，每个文件的行限制为100行。这可以从spark笔记本电脑处理吗？我正在建立一个ADF管道来触发这个笔记本，假设输出是文本文件，类似于下面的格式，请建议我可能的方法

5431732167 899 1011381 1测试字符串 5431732163 899 912测试字符串 5431932119 899 108808 40测试字符串 5432032116 899 1082223 40测试字符串

我还需要处理该批文本文件并将其加载到数据库中，请建议执行此操作的选项

提前谢谢

谢谢，

Manoj.

这个问题似乎是功能性的重复：

在运行编写CSV文件的作业之前，请设置

maxRecordsPerFile

，以便在Spark SQL中：

set spark.sql.files.maxRecordsPerFile = 100

您应该能够将maxRecordsPerFile与CSV输出一起使用。但这并不能保证您只有一个记录少于100条的文件，只能保证没有超过100行的文件。Spark并行写入，因此无法跨节点确保这一点

df
写
.选项（“maxRecordsPerFile”，100）
.csv（输出路径）

如果您的数据非常小，您可以将其合并到一个分区，并确保只有一个文件大于100行，但这样您就失去了并行处理速度优势（在上次计算和写入过程中，您的大多数集群将被闲置）

对于写入数据库，解决方案取决于特定的数据库。许多数据库支持的一个例子是JDBC，spark可以用它读/写数据，请参阅：

这是否回答了您的问题？