Python 3.x 计算数据帧中不同行数的最简单方法?
我只是:Python 3.x 计算数据帧中不同行数的最简单方法?,python-3.x,pandas,dataframe,Python 3.x,Pandas,Dataframe,我只是: len(my_df.drop_duplicates()) 难道没有比这更优雅的方法吗? 在R中,您可以执行以下操作: nrow(distinct(my_df)) drop_duplicates()让我感到担忧,因为作为Python的新用户,我不知道正在进行哪些操作,以及需要存储/覆盖哪些操作的副本以使环境保持更改 事实上,在谷歌上搜索并没有给我一个清晰的一键回答,我认为这是一个简单的功能,让我有点担心 谢谢 len(pd.unique(my_df)) 我想你是在寻找独一无二的。
len(my_df.drop_duplicates())
难道没有比这更优雅的方法吗?
在R中,您可以执行以下操作:
nrow(distinct(my_df))
drop_duplicates()让我感到担忧,因为作为Python的新用户,我不知道正在进行哪些操作,以及需要存储/覆盖哪些操作的副本以使环境保持更改
事实上,在谷歌上搜索并没有给我一个清晰的一键回答,我认为这是一个简单的功能,让我有点担心
谢谢
len(pd.unique(my_df))
我想你是在寻找独一无二的。在
熊猫
中,你可以通过另一种方式groupby
或duplicated
使用sum
df.groupby(list(df)).ngroup()
(~df.duplicated()).sum()
同样作为
R
和python
用户,我知道从R
切换到pandas
很难,但最常见的方法是删除重复项
对不起,df.groupby(list(df)).ngroup()似乎没有给我我想要的…我的意思是我可以写一个函数来实现这一点…但肯定有一个函数或方法只需要将数据帧作为输入,并输出不同记录的数量?我只需要一个标量“n”输出。@Jamalan关于df.duplicated
这个方法怎么样?我的df是90条记录和3个变量,出于某种原因,这给了我一个广播错误。请添加一个示例说明您的目标。显示一些具有预期输出的示例数据