基于数组的另一列（Python）对一列中的最小-最大值进行聚集_Python_Python 3.x_Numpy

基于数组的另一列（Python）对一列中的最小-最大值进行聚集

python python-3.x numpy

基于数组的另一列（Python）对一列中的最小-最大值进行聚集,python,python-3.x,numpy,Python,Python 3.x,Numpy,如果这些值具有相同的索引，我将尝试连接它们。我正在使用矩形，因此我知道：始终至少有两个相同的索引如果有两个以上的索引，我只需要存储最大值和最小值基本上发件人： a = array([ [ 1, 5], [ 1, 7], [ 2, 8], [ 2, 10], [ 2, 22], [ 3, 55], [ 3, 77]]) 致：我曾尝试将其转换为一个列表，并使用for循环遍历每个值，

如果这些值具有相同的索引，我将尝试连接它们。我正在使用矩形，因此我知道：

始终至少有两个相同的索引
如果有两个以上的索引，我只需要存储最大值和最小值

基本上

发件人：

a = array([
       [ 1,  5],
       [ 1,  7],
       [ 2,  8],
       [ 2, 10],
       [ 2, 22],
       [ 3, 55],
       [ 3, 77]])

致：

我曾尝试将其转换为一个列表，并使用for循环遍历每个值，但这需要相当长的时间

我也尝试过对数组进行排序，

np.sort（a，axis=0）

并每隔一行进行一次排序，但由于索引可能不止两个，所以失败了

我对numpy还不熟悉，所以不知道还能尝试什么

任何建议都会有帮助，谢谢

编辑：其行为类似于字典，其中键为[0]，值为[1:]

如果有两个以上的值，我只保留最小值和最大值。

使用

pandas

import pandas as pd
# create a dataframe with 2 columns corresponding to the columns of a
df = pd.DataFrame({ 'indices':a[:,0],'values':a[:,1]}) 
# compute min and max by indices
df2 = df.groupby('indices').agg({'values': ['min', 'max']}).reset_index()
# convert to numpy array
np.asarray(df2)
#array([[ 1,  5,  7],
#       [ 2,  8, 22],
#       [ 3, 55, 77]], dtype=int64)

使用

pandas

import pandas as pd
# create a dataframe with 2 columns corresponding to the columns of a
df = pd.DataFrame({ 'indices':a[:,0],'values':a[:,1]}) 
# compute min and max by indices
df2 = df.groupby('indices').agg({'values': ['min', 'max']}).reset_index()
# convert to numpy array
np.asarray(df2)
#array([[ 1,  5,  7],
#       [ 2,  8, 22],
#       [ 3, 55, 77]], dtype=int64)

用numpy做这件事的一种方式，可以使用numpy.split根据第一个轴中的值将它们拆分为单独的数组。然后你可以找到最小值和最大值

有关拆分及其工作原理的详细信息，你可以看看答案。我在这里不再重复同样的内容

ar = np.split(a, np.flatnonzero(a[1:,0] != a[:-1,0])+1,axis=0)

上面的行拆分并为轴0中的每个唯一值生成数组列表

上述行将产生如下输出：

[
array([[1, 5],
       [1, 7]]),
array([[ 2,  8],
       [ 2, 10],
       [ 2, 22]]), 
array([[ 3, 55],
       [ 3, 77]])
]

然后您可以迭代它们，以找到输出中所期望的列表的性质

final_list = []
for i in ar:
  final_list.append([i[1][0],np.min(i[:,1]),np.max(i[:,1])])
print(final_list)

上面的代码将生成如下输出

[[1, 5, 7], [2, 8, 22], [3, 55, 77]]