Pyspark 一次读取一行Avro文件。python

Pyspark 一次读取一行Avro文件。python,pyspark,avro,Pyspark,Avro,背景: 我想将Avro文件作为RDD读入Spark。我想知道如果我可以访问Avro数据模式,是否可以一次解析一行Avro文件 我正在使用pyspark编写我的spark作业。我正在考虑使用sc.textfile来读取这个巨大的文件,并进行并行解析,如果我一次可以解析一行的话。任何指向每次解析一行Avro文件的指针都将不胜感激 Spark用于并行多个文件分区的大数据处理,一次读取一行不能作为Spark用例 您可以在行转换的帮助下添加业务逻辑(应用于每一行),spark将延迟执行。spark用于并行

背景: 我想将Avro文件作为RDD读入Spark。我想知道如果我可以访问Avro数据模式,是否可以一次解析一行Avro文件


我正在使用pyspark编写我的spark作业。我正在考虑使用sc.textfile来读取这个巨大的文件,并进行并行解析,如果我一次可以解析一行的话。任何指向每次解析一行Avro文件的指针都将不胜感激

Spark用于并行多个文件分区的大数据处理,一次读取一行不能作为Spark用例


您可以在行转换的帮助下添加业务逻辑(应用于每一行),spark将延迟执行。

spark用于并行多个文件分区的大数据处理,一次读取一行不能作为spark用例


您可以在行转换的帮助下添加业务逻辑(应用于每行),spark将延迟执行。

这将帮助您。但是,spark有延迟评估功能,如果您想一次只处理一行文件,您可能不需要它。这将有助于您。但是,spark具有延迟评估功能,如果您想同时处理一行文件,则不应该使用spark。