Python pyspark-将一个文件读取到RDD,并将N行写入一个映射
我有一个.txt文件,其中包含如下多行数据:Python pyspark-将一个文件读取到RDD,并将N行写入一个映射,python,apache-spark,pyspark,rdd,Python,Apache Spark,Pyspark,Rdd,我有一个.txt文件,其中包含如下多行数据: [t_1, t_2, t_3, t_4, ...] [t_1,...,t_n, t_(n+1),...,t_(2n), t_(2n+1),...,t_(3n), ...] 我想通过Pyspark API将其读入RDD,所需的RDD如下: [t_1, t_2, t_3, t_4, ...] [t_1,...,t_n, t_(n+1),...,t_(2n), t_(2n+1),...,t_(3n), ...] 有人能给
[t_1,
t_2,
t_3,
t_4,
...]
[t_1,...,t_n,
t_(n+1),...,t_(2n),
t_(2n+1),...,t_(3n),
...]
我想通过Pyspark API将其读入RDD,所需的RDD如下:
[t_1,
t_2,
t_3,
t_4,
...]
[t_1,...,t_n,
t_(n+1),...,t_(2n),
t_(2n+1),...,t_(3n),
...]
有人能给我一个想法吗
提前谢谢