Pyspark 如何从.txt.bz2文件创建Spark数据帧_Pyspark

Pyspark 如何从.txt.bz2文件创建Spark数据帧

pyspark

Pyspark 如何从.txt.bz2文件创建Spark数据帧,pyspark,Pyspark,如何从名为“/datos/cite75_99.txt.bz2”的.txt.bz2文件创建Spark数据帧源文本文件的结构如下所示： "CITING","CITED" 3858241,956203 3858241,1324234 3858241,3398406 3858241,3557384 3858241,3634889 +--------+------+ |NPatente|ncitas| +--------+------+ | 306045

如何从名为“/datos/cite75_99.txt.bz2”的.txt.bz2文件创建Spark数据帧

源文本文件的结构如下所示：

"CITING","CITED"
3858241,956203
3858241,1324234
3858241,3398406
3858241,3557384
3858241,3634889

 +--------+------+
 |NPatente|ncitas|
 +--------+------+
 | 3060453|  3   |
 | 3390168|  6   |
 | 3626542| 18   |
 | 3611507|  5   |
 | 3000113|  4   |

所需输出是一个Spark数据帧，它按如下方式计算每个引用的数量：

"CITING","CITED"
3858241,956203
3858241,1324234
3858241,3398406
3858241,3557384
3858241,3634889

 +--------+------+
 |NPatente|ncitas|
 +--------+------+
 | 3060453|  3   |
 | 3390168|  6   |
 | 3626542| 18   |
 | 3611507|  5   |
 | 3000113|  4   |

期待您的回复

谢谢大家!

您可以在spark中直接阅读 Spark支持bz2压缩

%pyspark
df = spark.read.csv(path_to_file)