Python 按计数聚合，将所有列保留在_Python_R_Pandas_Data.table

Python 按计数聚合，将所有列保留在

python r pandas

Python 按计数聚合，将所有列保留在,python,r,pandas,data.table,Python,R,Pandas,Data.table,以下是一个数据帧示例： x = pd.DataFrame({"id": [10, 10, 20, 10, 50, 50], "name": ["A", "A", "B", "A", "C", "C"]}) 我将使用R中的data.table显示我要执行的操作： x = data.table(id = c(10,10,20,10,50,50), name = c("A", "A", "B", "A", "C", "C")) x[, .N, by = list

以下是一个数据帧示例：

x = pd.DataFrame({"id": [10, 10, 20, 10, 50, 50], 
                  "name": ["A", "A", "B", "A", "C", "C"]})

我将使用R中的data.table显示我要执行的操作：

x = data.table(id = c(10,10,20,10,50,50), name = c("A", "A", "B", "A", "C", "C"))
x[, .N, by = list(name, id)]

哪些产出：

   name id N

1:    A 10 3
2:    B 20 1
3:    C 50 2

我可以从熊猫身上得到类似的东西，但我不能保留id列：

x["name"].value_counts()

A    3
C    2
B    1
dtype: int64

尝试此操作以获取由

['id'，'name']

标识的每个子组的长度，并将组键作为索引返回

x.groupby(['id', 'name'], as_index=True).agg(len)

id  name
10  A       3
20  B       1
50  C       2
dtype: int64

您可以在“名称”和“id”上使用

groupby

，只需

apply

len

功能：

In [232]:
x = pd.DataFrame({"id": [10, 10, 20, 10, 50, 50], 
                  "name": ["A", "A", "B", "A", "C", "C"]})
x.groupby(['id','name']).apply(len)

Out[232]:
id  name
10  A       3
20  B       1
50  C       2
dtype: int64