如何从Python中的预聚合/分组数据创建箱线图?

如何从Python中的预聚合/分组数据创建箱线图?,python,matplotlib,pyspark,aggregate,boxplot,Python,Matplotlib,Pyspark,Aggregate,Boxplot,使用Matplotlib/Pandas/Seaborn,如何从聚合数据而不是原始数据构建箱线图 背景:我知道数百万人的年龄,我想做一个方框图。因为我有数百万行,所以我首先使用PySpark对数据集进行聚合,然后再使用Pandas进行绘图。结果是,我得到了一个数据集,其中包含特定年龄段的人数(例如,10万18岁的人) 我似乎在Seaborn或maptlotlib包中找不到选项。我遗漏了什么吗?我找到了以下解决方案 使用PySpark聚合数据,并使用键名将此数据存储在字典中。字典result应如下所

使用Matplotlib/Pandas/Seaborn,如何从聚合数据而不是原始数据构建箱线图

背景:我知道数百万人的年龄,我想做一个方框图。因为我有数百万行,所以我首先使用PySpark对数据集进行聚合,然后再使用Pandas进行绘图。结果是,我得到了一个数据集,其中包含特定年龄段的人数(例如,10万18岁的人)


我似乎在Seaborn或maptlotlib包中找不到选项。我遗漏了什么吗?

我找到了以下解决方案

  • 使用PySpark聚合数据,并使用键名将此数据存储在字典中。字典
    result
    应如下所示:

    {'mean':45.30698829299204,
    “医学”:47.0,
    “q1”:27.0,
    “q3”:62.0,
    “iqr”:35.0,
    “whishi”:114,
    “whislo”:0,
    “传单”:数组([[118],[118])
    }

  • 要进行打印,可以使用matplotlib boxplot抽屉功能
    bxp
    ,例如:

    fig,ax=plt.子批次(figsize=(6,12))
    ax.bxp([result],showmeans=True,meanline=True)

  • 详情请参阅

    如果您有更好的解决方案,请随意评论或回答