Python 按对象分组、合并和打印

Python 按对象分组、合并和打印,python,pandas,pandas-groupby,Python,Pandas,Pandas Groupby,我可能不太明白何时或如何使用pandas.DataFrame的groupby函数。在下面的示例中,我希望以花瓣长度存储数据帧,并计算每个存储单元的条目数、平均值和排列。我可以通过三个groupby调用来实现这一点,但是我在三个单独的对象中得到了答案。因此,我随后对它们进行了讨论。现在我有一个对象,但所有列都称为sepalwidth,将名称传递给concat对我不起作用。此外,我还想获得bin和平均值,例如用于绘图,但我不知道如何做到这一点 import matplotlib.pyplot as

我可能不太明白何时或如何使用pandas.DataFrame的groupby函数。在下面的示例中,我希望以花瓣长度存储数据帧,并计算每个存储单元的条目数、平均值和排列。我可以通过三个groupby调用来实现这一点,但是我在三个单独的对象中得到了答案。因此,我随后对它们进行了讨论。现在我有一个对象,但所有列都称为sepalwidth,将名称传递给concat对我不起作用。此外,我还想获得bin和平均值,例如用于绘图,但我不知道如何做到这一点

import matplotlib.pyplot as plt
import pandas as pd
from sklearn import datasets

iris = datasets.load_iris()
data = pd.DataFrame(iris.data)
data.columns = iris.feature_names
data["bin"] = pd.cut(data["petal length (cm)"], 5)

g0 = data.groupby(["bin"])["sepal width (cm)"].count()
g1 = data.groupby(["bin"])["sepal width (cm)"].mean()
g2 = data.groupby(["bin"])["sepal width (cm)"].std()

# how to get better names?
g = pd.concat([g0, g1, g2], axis=1)
print g

# how to extract bin and mean e.g. for plotting?
#plt.plot(g.bin, g.mean)

关于问题的第二部分,您可以使用字符串操作。
如果我理解正确,您可以使用:

a = data['bin']
a1 = a.astype(str).str.strip('([])').str.split(',').str[0].astype(float) 
a2 = a.astype(str).str.strip('([])').str.split(',').str[1].astype(float)

data['bin_center'] = (a1+a2)/2
g = data.groupby('bin_center')['sepal width (cm)'].agg(['count', 'mean', 'std'])

plt.plot(g.index, g['mean'])

顺便说一句,如果你不想看到箱子中心,你想看到带有箱子的绘图
您可以使用数据框绘图:

g = data.groupby('bin')['sepal width (cm)'].agg(['count', 'mean', 'std'])
print(g)
g['mean'].plot()

使用
data.groupby('bin')['sepal width(cm)].agg(['count','mean','std'])
你也可以在concat
g.columns=['count','mean','std']之后使用它。
非常好,两个选项给出了相同的答案。谢谢你。对第二部分有什么想法吗?例如,如何获得“bin”的值,例如绘制平均宽度与bin中心的关系?简单的g.bin不起作用,“AttributeError:'DataFrame'对象没有属性'bin'”super,这很有帮助。我只发现bin中心的字符串解析有点复杂,但发现pd.cut可以返回bin边并使用它们计算中心。这里-:)太棒了:)