Python DataFrame.hist()形状看起来不正确
对于我正在使用的数据集,它在Kaggle上的以下位置可用 我只是将.csv导入到一个数据帧df中,并运行命令Python DataFrame.hist()形状看起来不正确,python,python-3.x,pandas,dataframe,Python,Python 3.x,Pandas,Dataframe,对于我正在使用的数据集,它在Kaggle上的以下位置可用 我只是将.csv导入到一个数据帧df中,并运行命令df['jobsessment'].hist()在我的jupyter笔记本中 我对数据做了更多的测试,测试结果与直方图的形状不匹配。因此,我测量了列中每个值的比例,然后将它们绘制在Excel列图表中。该形状与.hist()函数的输出看起来不同 有人能分享一些关于这方面的信息吗 原因是,当您调用df['jobsessment'].hist()时,您实际上是在调用hist(bins=10),
df['jobsessment'].hist()代码>在我的jupyter笔记本中
我对数据做了更多的测试,测试结果与直方图的形状不匹配。因此,我测量了列中每个值的比例,然后将它们绘制在Excel列图表中。该形状与.hist()
函数的输出看起来不同
有人能分享一些关于这方面的信息吗
原因是,当您调用df['jobsessment'].hist()
时,您实际上是在调用hist(bins=10)
,因为默认值是bins=10
。因此,9.0s和10.0s的值被聚合到同一个容器中,导致形状与您预期的不同
当您运行df['JobSuccessment'].unique()
时,您应该会看到有12个唯一的值,它们是NaN
和0.0,1.0,…,10.0。假设要删除NaN
s,则需要为每个要在其“自己的”存储箱中计数的值创建一个包含bin=11
的直方图
我们可以通过运行df['JobSuccessment'].hist(bin=11)
来检查这一点:
我的漫画迷朋友:)