Apache spark PySpark读取一个大的自定义行结束文件_Apache Spark_Pyspark_Apache Spark Sql_Line Endings

Apache spark PySpark读取一个大的自定义行结束文件

apache-spark pyspark

Apache spark PySpark读取一个大的自定义行结束文件,apache-spark,pyspark,apache-spark-sql,line-endings,Apache Spark,Pyspark,Apache Spark Sql,Line Endings,文件为20GB，行尾字符为␀. 以下是PySpark代码： text\u file=sc.textFile（文件名）计数=text_file.flatMap（lambda行：line.split（“␀")) counts.count（）错误如下所示：换行符前面的字节太多：2147483648 问题：如何在大型自定义行结束文件中使用PySpark read？您可以使用与中相同的技术 rdd=sc.newapiHadoop文件( “/tmp/wird”， 'org.apache.hadoop

文件为20GB，行尾字符为␀. 以下是PySpark代码：

text\u file=sc.textFile（文件名）
计数=text_file.flatMap（lambda行：line.split（“␀"))
counts.count（）

错误如下所示：换行符前面的字节太多：2147483648

问题：如何在大型自定义行结束文件中使用PySpark read？

您可以使用与中相同的技术

rdd=sc.newapiHadoop文件(
“/tmp/wird”，
'org.apache.hadoop.mapreduce.lib.input.TextInputFormat'，
'org.apache.hadoop.io.LongWritable'，
'org.apache.hadoop.io.Text'，
conf={'textinputformat.record.delimiter'：'␀'}
).values（）