Python 摆脱熊猫重复的行列
我从一个计数实验中得到了一些csv数据,在这个实验中,我得到了一个测量时间以及该时间和上一个测量时间之间的计数数。出于某种原因,每当我有计数时(有时我没有),该行就会重复与计数相同的次数。以下是一个基本示例:Python 摆脱熊猫重复的行列,python,pandas,csv,Python,Pandas,Csv,我从一个计数实验中得到了一些csv数据,在这个实验中,我得到了一个测量时间以及该时间和上一个测量时间之间的计数数。出于某种原因,每当我有计数时(有时我没有),该行就会重复与计数相同的次数。以下是一个基本示例: time counts t1 0 t2 1 t3 0 t4 3 t4 3 t4 3 t5 0 t4被重复3次,因为我有3个计数与之关联,这发生在任何数量的计数上(除了零,在这种情况下,行只出现一次)。在我的例子中有更多的专栏,但这两个才是最重要的。是否有快速方法删除这些冗余行并使每个计数
time counts
t1 0
t2 1
t3 0
t4 3
t4 3
t4 3
t5 0
t4被重复3次,因为我有3个计数与之关联,这发生在任何数量的计数上(除了零,在这种情况下,行只出现一次)。在我的例子中有更多的专栏,但这两个才是最重要的。是否有快速方法删除这些冗余行并使每个计数只显示一次,即:
time counts
t1 0
t2 1
t3 0
t4 3
t5 0
谢谢大家! 使用拖放副本:
将numpy导入为np
作为pd进口熊猫
df=pd.DataFrame({'time':['t1','t2','t3','t4','t4','t4','t5'],
“计数”:[0,1,0,3,3,3,0]})
打印(df)
打印(df.drop_duplicates())
时间很重要
0 t1 0
1 t2 1
2 t30
3 t4 3
6 t5 0
删除重复项可以通过以下方式完成,只需使用特定列
df = df.drop_duplicates('Column',keep='first')
这将删除重复项并仅保留第一个值
df = df.drop_duplicates('time',keep='first')
您还可以按升序或降序排列数据,以获得更准确的结果
df = df.sort_values(by=['Counts'], ascending=[False],na_position='last')
df = df.drop_duplicates('time',keep='first')