Apache spark PySpark读取一个大的自定义行结束文件

Apache spark PySpark读取一个大的自定义行结束文件,apache-spark,pyspark,apache-spark-sql,line-endings,Apache Spark,Pyspark,Apache Spark Sql,Line Endings,文件为20GB,行尾字符为␀. 以下是PySpark代码: text\u file=sc.textFile(文件名) 计数=text_file.flatMap(lambda行:line.split(“␀")) counts.count() 错误如下所示: 换行符前面的字节太多:2147483648 问题:如何在大型自定义行结束文件中使用PySpark read?您可以使用与中相同的技术 rdd=sc.newapiHadoop文件( “/tmp/wird”, 'org.apache.hadoop

文件为20GB,行尾字符为␀. 以下是PySpark代码:

text\u file=sc.textFile(文件名)
计数=text_file.flatMap(lambda行:line.split(“␀"))
counts.count()
错误如下所示: 换行符前面的字节太多:2147483648


问题:如何在大型自定义行结束文件中使用PySpark read?

您可以使用与中相同的技术

rdd=sc.newapiHadoop文件(
“/tmp/wird”,
'org.apache.hadoop.mapreduce.lib.input.TextInputFormat',
'org.apache.hadoop.io.LongWritable',
'org.apache.hadoop.io.Text',
conf={'textinputformat.record.delimiter':'␀'}
).values()