Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark Spark:生成txt文件_Apache Spark_Apache Spark Sql - Fatal编程技术网

Apache spark Spark:生成txt文件

Apache spark Spark:生成txt文件,apache-spark,apache-spark-sql,Apache Spark,Apache Spark Sql,我有parqueue格式存储的数据,我想从spark生成分隔文本文件,每个文件的行限制为100行。这可以从spark笔记本电脑处理吗? 我正在建立一个ADF管道来触发这个笔记本,假设输出是文本文件,类似于下面的格式,请建议我可能的方法 5431732167 899 1011381 1测试字符串 5431732163 899 912测试字符串 5431932119 899 108808 40测试字符串 5432032116 899 1082223 40测试字符串 我还需要处理该批文本文件并将其加载

我有parqueue格式存储的数据,我想从spark生成分隔文本文件,每个文件的行限制为100行。这可以从spark笔记本电脑处理吗? 我正在建立一个ADF管道来触发这个笔记本,假设输出是文本文件,类似于下面的格式,请建议我可能的方法

5431732167 899 1011381 1测试字符串 5431732163 899 912测试字符串 5431932119 899 108808 40测试字符串 5432032116 899 1082223 40测试字符串

我还需要处理该批文本文件并将其加载到数据库中,请建议执行此操作的选项

提前谢谢

谢谢,
Manoj.

这个问题似乎是功能性的重复:

在运行编写CSV文件的作业之前,请设置
maxRecordsPerFile
,以便在Spark SQL中:

set spark.sql.files.maxRecordsPerFile = 100

您应该能够将maxRecordsPerFile与CSV输出一起使用。但这并不能保证您只有一个记录少于100条的文件,只能保证没有超过100行的文件。Spark并行写入,因此无法跨节点确保这一点

df
写
.选项(“maxRecordsPerFile”,100)
.csv(输出路径)
如果您的数据非常小,您可以将其合并到一个分区,并确保只有一个文件大于100行,但这样您就失去了并行处理速度优势(在上次计算和写入过程中,您的大多数集群将被闲置)


对于写入数据库,解决方案取决于特定的数据库。许多数据库支持的一个例子是JDBC,spark可以用它读/写数据,请参阅:

这是否回答了您的问题?