Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/macos/9.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 3.x 在300k行数据集上打印速度非常慢_Python 3.x_Pandas_Matplotlib_Seaborn - Fatal编程技术网

Python 3.x 在300k行数据集上打印速度非常慢

Python 3.x 在300k行数据集上打印速度非常慢,python-3.x,pandas,matplotlib,seaborn,Python 3.x,Pandas,Matplotlib,Seaborn,我在一个320k行数据集上做EDA,30列 我想显示变量的分布,所以我尝试一些基本的东西,比如 ` ` 我的jupyter手机已经运行了10分钟了。。。30万“太多”了吗?使用GPU会有帮助吗?我注意到Colab的速度也很慢 我也尝试了sns.pairplot(df),但在20分钟后取消了 我做错什么了吗 感谢大家的帮助,不要绘制值计数的PIE,您可以先查看df[col].descripe()为每列提供的指标。它将更快、更完整地概述您的数据 然后,如果您想要一个可视化的概述,当然这取决于您的数据

我在一个320k行数据集上做EDA,30列

我想显示变量的分布,所以我尝试一些基本的东西,比如

`

`

我的jupyter手机已经运行了10分钟了。。。30万“太多”了吗?使用GPU会有帮助吗?我注意到Colab的速度也很慢

我也尝试了
sns.pairplot(df)
,但在20分钟后取消了

我做错什么了吗


感谢大家的帮助,不要绘制值计数的PIE,您可以先查看
df[col].descripe()
为每列提供的指标。它将更快、更完整地概述您的数据

然后,如果您想要一个可视化的概述,当然这取决于您的数据和您试图理解的内容,但是您需要从以某种方式聚合数据的可视化开始。认为核密度估计优于直方图,hexbin图优于散点图


我现在的2美分,如果您想到其他内容,或者您可以提供更多关于您正在查看的内容以及希望使用它做什么的详细信息,将进行编辑。

每列有多少个唯一值?您是否可以执行
print(col)
,以确定某个特定列在迭代时是否是瓶颈?300K行并不太多。这完全取决于数据的分布方式。然而,在一个饼图中有1000个切片将是很多。一个30x30子地块的海生成对地块太多了。你是对的,有些栏目会让它变慢。我很笨,但是。。一个320k+URL的饼就是。。。首先尝试清理数据不是更有用吗?因为descripe()表有点大,我可以看到很多列超过90%。。顺便问一下,我能问一下,你认为哪一个百分比的数值是“无用的”?
for col in df.select_dtypes("object"):
    plt.figure()
    df[col].value_counts().plot.pie(autopct='%1.1f%%')
    plt.show()