Pandas 添加到系列中而不重复的有效方法
我需要经常向数据帧(或者更高效的序列)添加一个,同时确保添加不会产生重复。随着dataframe的增长,这似乎会变得效率低下,只需将其合并,然后调用drop_duplicates,因为每次添加都需要检查整个数据集的重复项 数据只有两列,所以我猜将其中一列转换为索引可能会加快速度。(或将两列合并为层次索引)。熊猫有办法禁止重复索引吗 下面是一个示例问题:Pandas 添加到系列中而不重复的有效方法,pandas,Pandas,我需要经常向数据帧(或者更高效的序列)添加一个,同时确保添加不会产生重复。随着dataframe的增长,这似乎会变得效率低下,只需将其合并,然后调用drop_duplicates,因为每次添加都需要检查整个数据集的重复项 数据只有两列,所以我猜将其中一列转换为索引可能会加快速度。(或将两列合并为层次索引)。熊猫有办法禁止重复索引吗 下面是一个示例问题: print accumulating_result c1 c2 0 A x1 1 B x2 2 B x3 3 C x4
print accumulating_result
c1 c2
0 A x1
1 B x2
2 B x3
3 C x4
print new
c1 c2
0 B x3
1 C x4
2 C x5
执行向结果中添加新内容并获得:
print accumulating_result
c1 c2
0 A x1
1 B x2
2 B x3
3 C x4
4 C x5
无论如何,c2列中的每个条目都是唯一的
有什么想法吗?您可以使用
先组合()
输出:
c1
c2
x1 A
x2 B
x3 B
x4 C
x5 Z
但is每次都会复制所有数据。也许使用HDF5或数据库更好。谢谢。如果没有适当的方法进行操作,那么这个答案就足够了。我会试试看我是否有足够的内存或时间。
c1
c2
x1 A
x2 B
x3 B
x4 C
x5 Z