Python 有效比较pandas系列浮点数与pandas系列numpy阵列_Python_Pandas_Numpy

Python 有效比较pandas系列浮点数与pandas系列numpy阵列

python pandas numpy

Python 有效比较pandas系列浮点数与pandas系列numpy阵列,python,pandas,numpy,Python,Pandas,Numpy,以下内容是可复制的，并返回所需的结果 import pandas as pd, numpy as np np.random.seed(3124) x = 10 + np.random.rand(10) y = np.split(10 + np.random.rand(100), 10) x >= y # array([[False, True, True, False, False, False, False, True, False, True], # ... #

以下内容是可复制的，并返回所需的结果

import pandas as pd, numpy as np
np.random.seed(3124)

x = 10 + np.random.rand(10)
y = np.split(10 + np.random.rand(100), 10)

x >= y
# array([[False,  True,  True, False, False, False, False,  True, False, True],
#        ...
#        [False,  True,  True,  True, False,  True, False,  True, False, False]])

np.apply_along_axis(np.greater_equal, 0, x , y)
# same results as x >= y.

但是，如果上面的x和y是从pandas数据帧中提取出来的，那么我必须将pandas数组系列转换为数组列表。对于一个大系列来说，这在计算上非常昂贵

我如何以更有效的方式完成此任务

df = pd.DataFrame({'x':x,'y':y})

df['x'].values >= df['y'].tolist()
# same results as above.

df['x'] >= df['y']
# ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

df['x'].values >= df['y'].values
# ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

编辑 @迪瓦卡对上述问题给出了正确答案。然而，在我的实际用例中，

中的数组都是不同长度的

使用上面的

创建更接近我的数据的

y2

。以下是可复制的

y2 = [np.resize(a, r) for a,r in zip(y,np.random.randint(2, 10, 10))]
# yields something like:
# [array([10.1269906 , 10.34269353, 10.39461373, 10.022271  , 10.69316165, 10.83981557, 10.03328485, 10.56850597]), 
# array([10.99159117, 10.21215159, 10.65208435, 10.22483111, 10.13748229, 10.72621328]), 
# ...
# array([10.61071355, 10.62141997]), 
# array([10.3899659 , 10.66207985, 10.85937807]), 
# array([10.38374303, 10.93140162, 10.88535643, 10.51529231, 10.60723795, 10.60504599, 10.6773523 ]), 
# array([10.02775067, 10.91382588, 10.31222259, 10.44732757, 10.16980452, 10.88914854, 10.22677905])]

下面返回我想要的结果，但对于实际数据帧的大小来说是不可行的。我宁愿用numpy以矢量化的形式来做

[x[i] >= y2[i] for i in range(len(y2))]
# returns 
# [array([False, False, False, False, False, False, False, False]),
#  array([False,  True, False,  True,  True, False]),
#  ...
#  array([ True,  True]), 
#  array([ True, False, False]),
#  array([False, False, False, False, False, False, False]),
#  array([ True,  True,  True,  True,  True,  True,  True])]

获取底层数组数据，这样我们就有了

2D

数组，我们把它叫做

和

1D

，把它叫做

。然后执行比较以利用

广播

，如下所示-

Y = np.concatenate(df.y.values).reshape(-1,len(df.y[0]))
X = df.x.values
out = X >= Y

请注意，这会将

df.y

中的每个条目与

进行比较

如果您想将

中的每个条目与

df.y

中的每个条目进行比较，请将

扩展到

2D

，然后进行比较：

out=x[：，None]>=y

谢谢@Divakar。你按照我的措辞回答了我的问题，所以我接受了这个答案。虽然对于我的实际用例，

中的每个数组都是不同的大小。类似于

y2=[np.resize（a，r）for a，r in zip（y，np.random.randint（2，10，10））]

@Clay您能为这种情况添加示例并在问题中添加预期的输出吗？@Divakar-添加了更多详细信息。谢谢。是的，我认为尺寸参差不齐，你必须求助于一些不合理的解决方案。在这里看不到矢量化的帮助。是否有一个矢量化函数可以用

np.nan

填充所有数组，使它们的长度都相同，然后使用您的解决方案？认为您是在这之后-@Divakar您在上面的评论中链接到的问题的答案非常有效。非常感谢。