Pyspark Pypark中的采样_Pyspark_Bigdata_Hadoop2_Sample

Pyspark Pypark中的采样

pyspark

Pyspark Pypark中的采样,pyspark,bigdata,hadoop2,sample,Pyspark,Bigdata,Hadoop2,Sample,Pypark新手我正在从HDFS加载一个JSON文件。它一次读取一个日志中的数据。比如说，从每个日志中提取日期，配置1D并将其加载到JSON文件中有没有一种方法可以使用随机采样只加载5%或10%的数据，而不将整个JSON文件加载到内存中。因为加载整个JSON文件花费了我一个多小时如果对数据帧df有更多问题，请告诉我，您可以使用df.sample（分数=0.05，种子=3）对5%进行采样。分数是一个介于0和1之间的数字，种子是可选的，但在其他方面是随机的。在Spark中，如果不先加载内存中

Pypark新手

我正在从HDFS加载一个JSON文件。它一次读取一个日志中的数据。比如说，从每个日志中提取日期，配置1D并将其加载到JSON文件中

有没有一种方法可以使用随机采样只加载5%或10%的数据，而不将整个JSON文件加载到内存中。因为加载整个JSON文件花费了我一个多小时

如果对数据帧df有更多问题，请告诉我，您可以使用df.sample（分数=0.05，种子=3）对5%进行采样。分数是一个介于0和1之间的数字，种子是可选的，但在其他方面是随机的。

在Spark中，如果不先加载内存中的所有数据，则无法执行此操作。首先，您必须加载它和do sample（转换），正如@firtree所说。

尝试使用

samplingario

参数：使用df.sample（），问题仍然存在，因为我必须加载数据帧，因此需要时间和内存，我正在寻找一些在创建json文件hmmm时完成的采样，好的，只是想一些替代方案，谢谢你的帮助