如何在Python中使用异常值和四分位数绘制箱线图

如何在Python中使用异常值和四分位数绘制箱线图,python,data-mining,boxplot,Python,Data Mining,Boxplot,我的箱线图显示正确,但我无法理解异常值和四分位数。。 我的箱线图如下所示 这是我的密码 df = pd.read_csv(r'posts_dataset.csv') df.boxplot(by='city', column=['price'], color='red') plt.show() 如何将其绘制为带有异常值和矩形形状的其他正式箱线图?最有可能的是,您的价格有一些巨大的异常值或它有一个沉重的尾巴,例如: df = pd.DataFrame({'price':np.random.neg

我的箱线图显示正确,但我无法理解异常值和四分位数。。 我的箱线图如下所示

这是我的密码

df = pd.read_csv(r'posts_dataset.csv')
df.boxplot(by='city', column=['price'], color='red')
plt.show()

如何将其绘制为带有异常值和矩形形状的其他正式箱线图?

最有可能的是,您的
价格
有一些巨大的异常值或它有一个沉重的尾巴,例如:

df = pd.DataFrame({'price':np.random.negative_binomial(0.1, 0.0001,5000),
                   'city':np.random.choice(['A','B','C'],5000)})
df.hist(column='price')

如果执行箱线图,它将被压扁:

df.boxplot(by='city', column=['price'], color='red')

一种选择是采用log10:

df['log_price'] = np.log10(df['price']+1)
df.boxplot(by='city', column='log_price', color='red')

添加数据集可能会帮助您获得更好的结果。@Pluviophile如何添加数据集?在云中上载。共享文件链接或在问题中添加一些示例谢谢兄弟:)我认为这是可行的。只是有一个警告:RuntimeWarning:在log10中遇到除以零。再次感谢