Pyspark Pypark中的采样

Pyspark Pypark中的采样,pyspark,bigdata,hadoop2,sample,Pyspark,Bigdata,Hadoop2,Sample,Pypark新手 我正在从HDFS加载一个JSON文件。它一次读取一个日志中的数据。 比如说,从每个日志中提取日期,配置1D并将其加载到JSON文件中 有没有一种方法可以使用随机采样只加载5%或10%的数据,而不将整个JSON文件加载到内存中。因为加载整个JSON文件花费了我一个多小时 如果对数据帧df有更多问题,请告诉我,您可以使用df.sample(分数=0.05,种子=3)对5%进行采样。分数是一个介于0和1之间的数字,种子是可选的,但在其他方面是随机的。在Spark中,如果不先加载内存中

Pypark新手

我正在从HDFS加载一个JSON文件。它一次读取一个日志中的数据。 比如说,从每个日志中提取日期,配置1D并将其加载到JSON文件中

有没有一种方法可以使用随机采样只加载5%或10%的数据,而不将整个JSON文件加载到内存中。因为加载整个JSON文件花费了我一个多小时


如果对数据帧df有更多问题,请告诉我,您可以使用df.sample(分数=0.05,种子=3)对5%进行采样。分数是一个介于0和1之间的数字,种子是可选的,但在其他方面是随机的。

在Spark中,如果不先加载内存中的所有数据,则无法执行此操作。首先,您必须加载它和do sample(转换),正如@firtree所说。

尝试使用
samplingario
参数:使用df.sample(),问题仍然存在,因为我必须加载数据帧,因此需要时间和内存,我正在寻找一些在创建json文件hmmm时完成的采样,好的,只是想一些替代方案,谢谢你的帮助