Python DataFrame.hist()形状看起来不正确

Python DataFrame.hist()形状看起来不正确,python,python-3.x,pandas,dataframe,Python,Python 3.x,Pandas,Dataframe,对于我正在使用的数据集,它在Kaggle上的以下位置可用 我只是将.csv导入到一个数据帧df中,并运行命令df['jobsessment'].hist()在我的jupyter笔记本中 我对数据做了更多的测试,测试结果与直方图的形状不匹配。因此,我测量了列中每个值的比例,然后将它们绘制在Excel列图表中。该形状与.hist()函数的输出看起来不同 有人能分享一些关于这方面的信息吗 原因是,当您调用df['jobsessment'].hist()时,您实际上是在调用hist(bins=10),

对于我正在使用的数据集,它在Kaggle上的以下位置可用

我只是将.csv导入到一个数据帧df中,并运行命令
df['jobsessment'].hist()在我的jupyter笔记本中

我对数据做了更多的测试,测试结果与直方图的形状不匹配。因此,我测量了列中每个值的比例,然后将它们绘制在Excel列图表中。该形状与
.hist()
函数的输出看起来不同

有人能分享一些关于这方面的信息吗


原因是,当您调用
df['jobsessment'].hist()
时,您实际上是在调用
hist(bins=10)
,因为默认值是
bins=10
。因此,9.0s和10.0s的值被聚合到同一个容器中,导致形状与您预期的不同

当您运行
df['JobSuccessment'].unique()
时,您应该会看到有12个唯一的值,它们是
NaN
和0.0,1.0,…,10.0。假设要删除
NaN
s,则需要为每个要在其“自己的”存储箱中计数的值创建一个包含
bin=11
的直方图

我们可以通过运行
df['JobSuccessment'].hist(bin=11)
来检查这一点:


我的漫画迷朋友:)