Apache spark 将从通用爬网下载的warc.gz文件转换为RDD_Apache Spark_Pyspark_Rdd_Common Crawl_Warc

Apache spark 将从通用爬网下载的warc.gz文件转换为RDD

apache-spark pyspark

Apache spark 将从通用爬网下载的warc.gz文件转换为RDD,apache-spark,pyspark,rdd,common-crawl,warc,Apache Spark,Pyspark,Rdd,Common Crawl,Warc,我从common crawl下载了一个warc.gz文件，我必须使用spark进行处理。如何将文件转换为RDD？sc.textFile（“filepath”）似乎没有帮助。当打印rdd.take（1）时，它会给我[u'WARC/1.0']，而它应该给我一个完整的记录。如何将文件转换为可处理的rdd？谢谢这是因为RDD支持非结构化数据。如果将文件作为RDD读取，warc结构将消失。因此，当您执行rdd.take（1）时，它本质上意味着rdd的第一行。因此，结果[u'WARC/1.0']。如果要

我从common crawl下载了一个

warc.gz

文件，我必须使用spark进行处理。如何将文件转换为RDD？

sc.textFile（“filepath”）

似乎没有帮助。

当打印

rdd.take（1）

时，它会给我

[u'WARC/1.0']

，而它应该给我一个完整的记录。如何将文件转换为可处理的rdd？谢谢

这是因为RDD支持非结构化数据。如果将文件作为RDD读取，warc结构将消失。因此，当您执行rdd.take（1）时，它本质上意味着rdd的第一行。因此，结果[u'WARC/1.0']。如果要处理warc记录。我不推荐使用spark，因为目前还支持Warc文件。使用python warc库可以帮助您解决这一问题，因为它将保留丰富的warc数据的结构。

您得到了这一点，因为RDD支持非结构化数据。如果将文件作为RDD读取，warc结构将消失。因此，当您执行rdd.take（1）时，它本质上意味着rdd的第一行。因此，结果[u'WARC/1.0']。如果要处理warc记录。我不推荐使用spark，因为目前还支持Warc文件。使用python warc库可以帮助您解决这一问题，因为它将保留丰富的warc数据的结构。

请参阅？请参阅？未实现？Hadoop输入格式已经可用。。。没有实施？Hadoop输入格式已经可用。。。