Python 对2D numpy数组进行子集设置

Python 对2D numpy数组进行子集设置,python,arrays,numpy,multidimensional-array,subset,Python,Arrays,Numpy,Multidimensional Array,Subset,我在这里查阅了文件和其他问题,但似乎我 尚未掌握numpy数组中的子集划分技巧 我有一个numpy阵列, 为了便于论证,将其定义如下: import numpy as np a = np.arange(100) a.shape = (10,10) # array([[ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9], # [10, 11, 12, 13, 14, 15, 16, 17, 18, 19], # [20, 21, 22, 23

我在这里查阅了文件和其他问题,但似乎我 尚未掌握numpy数组中的子集划分技巧

我有一个numpy阵列, 为了便于论证,将其定义如下:

import numpy as np
a = np.arange(100)
a.shape = (10,10)
# array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
#        [10, 11, 12, 13, 14, 15, 16, 17, 18, 19],
#        [20, 21, 22, 23, 24, 25, 26, 27, 28, 29],
#        [30, 31, 32, 33, 34, 35, 36, 37, 38, 39],
#        [40, 41, 42, 43, 44, 45, 46, 47, 48, 49],
#        [50, 51, 52, 53, 54, 55, 56, 57, 58, 59],
#        [60, 61, 62, 63, 64, 65, 66, 67, 68, 69],
#        [70, 71, 72, 73, 74, 75, 76, 77, 78, 79],
#        [80, 81, 82, 83, 84, 85, 86, 87, 88, 89],
#        [90, 91, 92, 93, 94, 95, 96, 97, 98, 99]])
现在我想选择由向量
n1
n2
指定的
a
的行和列。例如:

n1 = range(5)
n2 = range(5)
但当我使用:

b = a[n1,n2]
# array([ 0, 11, 22, 33, 44])
然后只选择前五个对角线元素,而不是整个5x5块。我找到的解决方案是这样做:

b = a[n1,:]
b = b[:,n2]
# array([[ 0,  1,  2,  3,  4],
#        [10, 11, 12, 13, 14],
#        [20, 21, 22, 23, 24],
#        [30, 31, 32, 33, 34],
#        [40, 41, 42, 43, 44]])

但是我相信应该有一种方法可以在一个命令中完成这个简单的任务。

您可以使用
np.meshgrid
n1
n2
数组提供适当的形状来执行所需的索引:

In [104]: a[np.meshgrid(n1,n2, sparse=True, indexing='ij')]
Out[104]: 
array([[ 0,  1,  2,  3,  4],
       [10, 11, 12, 13, 14],
       [20, 21, 22, 23, 24],
       [30, 31, 32, 33, 34],
       [40, 41, 42, 43, 44]])
In [6]: np.ix_([1, 2, 3], [1, 2, 3])
Out[6]:
(array([[1],
       [2],
       [3]]), array([[1, 2, 3]]))

或者,如果没有网格:

In [117]: a[np.array(n1)[:,np.newaxis], np.array(n2)[np.newaxis,:]]
Out[117]: 
array([[ 0,  1,  2,  3,  4],
       [10, 11, 12, 13, 14],
       [20, 21, 22, 23, 24],
       [30, 31, 32, 33, 34],
       [40, 41, 42, 43, 44]])
有一个类似的例子解释了这在文档中是如何工作的


另请参阅食谱。

您可以使用
np.meshgrid
n1
n2
数组提供适当的形状,以执行所需的索引:

In [104]: a[np.meshgrid(n1,n2, sparse=True, indexing='ij')]
Out[104]: 
array([[ 0,  1,  2,  3,  4],
       [10, 11, 12, 13, 14],
       [20, 21, 22, 23, 24],
       [30, 31, 32, 33, 34],
       [40, 41, 42, 43, 44]])
In [6]: np.ix_([1, 2, 3], [1, 2, 3])
Out[6]:
(array([[1],
       [2],
       [3]]), array([[1, 2, 3]]))

或者,如果没有网格:

In [117]: a[np.array(n1)[:,np.newaxis], np.array(n2)[np.newaxis,:]]
Out[117]: 
array([[ 0,  1,  2,  3,  4],
       [10, 11, 12, 13, 14],
       [20, 21, 22, 23, 24],
       [30, 31, 32, 33, 34],
       [40, 41, 42, 43, 44]])
有一个类似的例子解释了这在文档中是如何工作的


另请参见食谱。

另一种快速建立所需索引的方法是使用以下函数:

>>> a[np.ix_(n1, n2)]
array([[ 0,  1,  2,  3,  4],
       [10, 11, 12, 13, 14],
       [20, 21, 22, 23, 24],
       [30, 31, 32, 33, 34],
       [40, 41, 42, 43, 44]])

这为从索引序列构建开放网格提供了一种方便的方法。

另一种快速构建所需索引的方法是使用以下函数:

>>> a[np.ix_(n1, n2)]
array([[ 0,  1,  2,  3,  4],
       [10, 11, 12, 13, 14],
       [20, 21, 22, 23, 24],
       [30, 31, 32, 33, 34],
       [40, 41, 42, 43, 44]])

这为从索引序列构造开放网格提供了一种方便的方法。

您已经获得了一些很好的示例,说明了如何执行所需操作。然而,了解正在发生的事情以及为什么事情以这样的方式工作也是很有用的。有一些简单的规则将在将来帮助您

“花式”索引(即使用列表/序列)和“普通”索引(使用切片)之间有很大区别。根本原因与阵列是否可以“有规律地移动”有关,因此是否需要复制。因此,如果我们想在不复制的情况下创建“视图”,就必须对任意序列进行不同的处理

就你而言:

import numpy as np

a = np.arange(100).reshape(10,10)
n1, n2 = np.arange(5), np.arange(5)

# Not what you want
b = a[n1, n2]  # array([ 0, 11, 22, 33, 44])

# What you want, but only for simple sequences
# Note that no copy of *a* is made!! This is a view.
b = a[:5, :5]

# What you want, but probably confusing at first. (Also, makes a copy.)
# np.meshgrid and np.ix_ are basically equivalent to this.
b = a[n1[:,None], n2[None,:]]

使用1D序列的奇特索引基本上等同于将它们压缩在一起并使用结果进行索引

print "Fancy Indexing:"
print a[n1, n2]

print "Manual indexing:"
for i, j in zip(n1, n2):
    print a[i, j]

但是,如果要索引的序列与要索引的数组的维度相匹配(在本例中为2D),则索引的处理方式会有所不同。numpy不像“将两者压缩在一起”,而是像使用遮罩一样使用索引

换句话说,
a[[[1,2,3]]、[[1]、[2]、[3]]]
的处理方式与
a[[1,2,3]、[1,2,3]]
完全不同,因为您传递的序列/数组是二维的

In [4]: a[[[1, 2, 3]], [[1],[2],[3]]]
Out[4]:
array([[11, 21, 31],
       [12, 22, 32],
       [13, 23, 33]])

In [5]: a[[1, 2, 3], [1, 2, 3]]
Out[5]: array([11, 22, 33])

更确切地说

a[[[1, 2, 3]], [[1],[2],[3]]]
其处理方式与:

i = [[1, 1, 1],
     [2, 2, 2],
     [3, 3, 3]])
j = [[1, 2, 3],
     [1, 2, 3],
     [1, 2, 3]]
a[i, j]
换句话说,输入是否是行/列向量是索引在索引中应该如何重复的简写


np.meshgrid
np.ix
是将1D序列转换为2D版本以进行索引的便捷方法:

In [104]: a[np.meshgrid(n1,n2, sparse=True, indexing='ij')]
Out[104]: 
array([[ 0,  1,  2,  3,  4],
       [10, 11, 12, 13, 14],
       [20, 21, 22, 23, 24],
       [30, 31, 32, 33, 34],
       [40, 41, 42, 43, 44]])
In [6]: np.ix_([1, 2, 3], [1, 2, 3])
Out[6]:
(array([[1],
       [2],
       [3]]), array([[1, 2, 3]]))
类似地(sparse参数将使其与上面的
ix
相同):


你已经得到了一些关于如何做你想做的事情的好例子。然而,了解正在发生的事情以及为什么事情以这样的方式工作也是很有用的。有一些简单的规则将在将来帮助您

“花式”索引(即使用列表/序列)和“普通”索引(使用切片)之间有很大区别。根本原因与阵列是否可以“有规律地移动”有关,因此是否需要复制。因此,如果我们想在不复制的情况下创建“视图”,就必须对任意序列进行不同的处理

就你而言:

import numpy as np

a = np.arange(100).reshape(10,10)
n1, n2 = np.arange(5), np.arange(5)

# Not what you want
b = a[n1, n2]  # array([ 0, 11, 22, 33, 44])

# What you want, but only for simple sequences
# Note that no copy of *a* is made!! This is a view.
b = a[:5, :5]

# What you want, but probably confusing at first. (Also, makes a copy.)
# np.meshgrid and np.ix_ are basically equivalent to this.
b = a[n1[:,None], n2[None,:]]

使用1D序列的奇特索引基本上等同于将它们压缩在一起并使用结果进行索引

print "Fancy Indexing:"
print a[n1, n2]

print "Manual indexing:"
for i, j in zip(n1, n2):
    print a[i, j]

但是,如果要索引的序列与要索引的数组的维度相匹配(在本例中为2D),则索引的处理方式会有所不同。numpy不像“将两者压缩在一起”,而是像使用遮罩一样使用索引

换句话说,
a[[[1,2,3]]、[[1]、[2]、[3]]]
的处理方式与
a[[1,2,3]、[1,2,3]]
完全不同,因为您传递的序列/数组是二维的

In [4]: a[[[1, 2, 3]], [[1],[2],[3]]]
Out[4]:
array([[11, 21, 31],
       [12, 22, 32],
       [13, 23, 33]])

In [5]: a[[1, 2, 3], [1, 2, 3]]
Out[5]: array([11, 22, 33])

更确切地说

a[[[1, 2, 3]], [[1],[2],[3]]]
其处理方式与:

i = [[1, 1, 1],
     [2, 2, 2],
     [3, 3, 3]])
j = [[1, 2, 3],
     [1, 2, 3],
     [1, 2, 3]]
a[i, j]
换句话说,输入是否是行/列向量是索引在索引中应该如何重复的简写


np.meshgrid
np.ix
是将1D序列转换为2D版本以进行索引的便捷方法:

In [104]: a[np.meshgrid(n1,n2, sparse=True, indexing='ij')]
Out[104]: 
array([[ 0,  1,  2,  3,  4],
       [10, 11, 12, 13, 14],
       [20, 21, 22, 23, 24],
       [30, 31, 32, 33, 34],
       [40, 41, 42, 43, 44]])
In [6]: np.ix_([1, 2, 3], [1, 2, 3])
Out[6]:
(array([[1],
       [2],
       [3]]), array([[1, 2, 3]]))
类似地(sparse参数将使其与上面的
ix
相同):


似乎您的特定问题的用例将处理图像处理。在某种程度上,您可以使用示例编辑由图像生成的numpy数组,也可以使用Python图像库(PIL)

img2对象是生成的裁剪图像的numpy数组


您可以使用(PIL软件包上的一个用户友好的叉子)在这里阅读有关图像处理的更多信息:

您的特定问题的用例似乎会处理图像处理。在某种程度上,您可以使用示例编辑由图像生成的numpy数组,也可以使用Python图像库(PIL)

img2对象是生成的裁剪图像的numpy数组


您可以在这里通过(PIL软件包上的一个用户友好的叉子)阅读有关图像处理的更多信息:

这是我尝试过的一个很好的技巧(仅适用于懒惰的人) 是filter+Transpose+filter

a = np.arange(100).reshape(10,10)
subsetA = [1,3,5,7]
a[subsetA].T[subsetA]

array([[11, 31, 51, 71],
       [13, 33, 53, 73],
       [15, 35, 55, 75],
       [17, 37, 57, 77]])


这是我成功的一个好把戏(仅适用于懒惰的人) 是filter+Transpose+filter

a = np.arange(100).reshape(10,10)
subsetA = [1,3,5,7]
a[subsetA].T[subsetA]

array([[11, 31, 51, 71],
       [13, 33, 53, 73],
       [15, 35, 55, 75],
       [17, 37, 57, 77]])

Tha