Apache spark 将从通用爬网下载的warc.gz文件转换为RDD

Apache spark 将从通用爬网下载的warc.gz文件转换为RDD,apache-spark,pyspark,rdd,common-crawl,warc,Apache Spark,Pyspark,Rdd,Common Crawl,Warc,我从common crawl下载了一个warc.gz文件,我必须使用spark进行处理。如何将文件转换为RDD?sc.textFile(“filepath”)似乎没有帮助。 当打印rdd.take(1)时,它会给我[u'WARC/1.0'],而它应该给我一个完整的记录。如何将文件转换为可处理的rdd?谢谢 这是因为RDD支持非结构化数据。如果将文件作为RDD读取,warc结构将消失。因此,当您执行rdd.take(1)时,它本质上意味着rdd的第一行。因此,结果[u'WARC/1.0']。如果要

我从common crawl下载了一个
warc.gz
文件,我必须使用spark进行处理。如何将文件转换为RDD?
sc.textFile(“filepath”)
似乎没有帮助。
当打印
rdd.take(1)
时,它会给我
[u'WARC/1.0']
,而它应该给我一个完整的记录。如何将文件转换为可处理的rdd?谢谢

这是因为RDD支持非结构化数据。如果将文件作为RDD读取,warc结构将消失。因此,当您执行rdd.take(1)时,它本质上意味着rdd的第一行。因此,结果[u'WARC/1.0']。如果要处理warc记录。我不推荐使用spark,因为目前还支持Warc文件。使用python warc库可以帮助您解决这一问题,因为它将保留丰富的warc数据的结构。

您得到了这一点,因为RDD支持非结构化数据。如果将文件作为RDD读取,warc结构将消失。因此,当您执行rdd.take(1)时,它本质上意味着rdd的第一行。因此,结果[u'WARC/1.0']。如果要处理warc记录。我不推荐使用spark,因为目前还支持Warc文件。使用python warc库可以帮助您解决这一问题,因为它将保留丰富的warc数据的结构。

请参阅?请参阅?未实现?Hadoop输入格式已经可用。。。没有实施?Hadoop输入格式已经可用。。。