Python Numpy:数组的重复掩码(如果我们以前看到该值,则返回True,否则返回False)
我正在寻找一个向量化函数,如果数组中的值以前被看到过,则返回一个值为True的掩码,否则返回False 我正在寻找最快的解决方案,因为速度非常重要 例如,这就是我希望看到的:Python Numpy:数组的重复掩码(如果我们以前看到该值,则返回True,否则返回False),python,list,numpy,Python,List,Numpy,我正在寻找一个向量化函数,如果数组中的值以前被看到过,则返回一个值为True的掩码,否则返回False 我正在寻找最快的解决方案,因为速度非常重要 例如,这就是我希望看到的: array = [1, 2, 1, 2, 3] mask = [False, False, True, True, False] 所以is\u duplicate=array[mask]应该返回[1,2] 有没有一种快速、矢量化的方法可以做到这一点?谢谢 几乎按照定义,这是无法矢量化的。任何索引的掩码值取决于0和索引之间
array = [1, 2, 1, 2, 3]
mask = [False, False, True, True, False]
所以is\u duplicate=array[mask]
应该返回[1,2]
有没有一种快速、矢量化的方法可以做到这一点?谢谢 几乎按照定义,这是无法矢量化的。任何
索引
的掩码值取决于0和索引
之间每个值的数组
值。可能有一些算法,您可以将数组
扩展到一个NxN矩阵中,并进行一些奇特的测试,但仍然会有一个O(n^2)算法。简单的集合算法是O(n log n)。您可以使用枚举
方法实现这一点,该方法允许您使用索引+值进行循环:
array = [1, 2, 1, 2, 3]
mask = []
for i,v in enumerate(array):
if array.index(v) == i:
mask.append(False)
else:
mask.append(True)
print(mask)
输出:
[False, False, True, True, False]
方法#1:带排序
def mask_firstocc(a):
sidx = a.argsort(kind='stable')
b = a[sidx]
out = np.r_[False,b[:-1] == b[1:]][sidx.argsort()]
return out
我们可以使用数组分配
来提高性能。进一步-
def mask_firstocc_v2(a):
sidx = a.argsort(kind='stable')
b = a[sidx]
mask = np.r_[False,b[:-1] == b[1:]]
out = np.empty(len(a), dtype=bool)
out[sidx] = mask
return out
样本运行-
In [166]: a
Out[166]: array([2, 1, 1, 0, 0, 4, 0, 3])
In [167]: mask_firstocc(a)
Out[167]: array([False, False, True, False, True, False, True, False])
方法#2:带有np.unique(…,返回索引)
我们可以利用np.unique
及其return\u index
,它似乎返回每个唯一元素的第一次出现,因此一个简单的数组赋值,然后索引工作-
def mask_firstocc_with_unique(a):
mask = np.ones(len(a), dtype=bool)
mask[np.unique(a, return_index=True)[1]] = False
return mask
使用np.unique
a = np.array([1, 2, 1, 2, 3])
_, ix = np.unique(a, return_index=True)
b = np.full(a.shape, True)
b[ix] = False
In [45]: b
Out[45]: array([False, False, True, True, False])
最终目标是获得[1,2]
还是您对[False,False,True,True,False]
特别感兴趣?目标实际上是重复数据消除!但我有一个阵列,需要在阵列的各个部分中进行重复数据消除。例如,我的数组可以是array=[1,2,1,2,1,2]
,其中我可能需要对array[0:4]
和array[4:6]
进行重复数据消除,以获得[1,2,1,2]
。这就是为什么我想做一个面具,但很高兴能找到其他方法。谢谢你的回答!实际上我对我的问题做了一些编辑,我首先要寻找一个numpy解决方案,因为这个软件包不需要熊猫,只需要numpy和scipy。numpy中有类似的东西吗?谢谢这太棒了,我使用了你的mask_firstocc_v2,谢谢:)运行时编号在unique和argsort之间是相似的。也要考虑独特排序。虽然独特排序看起来慢了一点,但它对我的用例更有效。谢谢:)