Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/289.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 有效比较pandas系列浮点数与pandas系列numpy阵列_Python_Pandas_Numpy - Fatal编程技术网

Python 有效比较pandas系列浮点数与pandas系列numpy阵列

Python 有效比较pandas系列浮点数与pandas系列numpy阵列,python,pandas,numpy,Python,Pandas,Numpy,以下内容是可复制的,并返回所需的结果 import pandas as pd, numpy as np np.random.seed(3124) x = 10 + np.random.rand(10) y = np.split(10 + np.random.rand(100), 10) x >= y # array([[False, True, True, False, False, False, False, True, False, True], # ... #

以下内容是可复制的,并返回所需的结果

import pandas as pd, numpy as np
np.random.seed(3124)

x = 10 + np.random.rand(10)
y = np.split(10 + np.random.rand(100), 10)

x >= y
# array([[False,  True,  True, False, False, False, False,  True, False, True],
#        ...
#        [False,  True,  True,  True, False,  True, False,  True, False, False]])

np.apply_along_axis(np.greater_equal, 0, x , y)
# same results as x >= y.
但是,如果上面的x和y是从pandas数据帧中提取出来的,那么我必须将pandas数组系列转换为数组列表。对于一个大系列来说,这在计算上非常昂贵

我如何以更有效的方式完成此任务

df = pd.DataFrame({'x':x,'y':y})

df['x'].values >= df['y'].tolist()
# same results as above.

df['x'] >= df['y']
# ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

df['x'].values >= df['y'].values
# ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()
编辑 @迪瓦卡对上述问题给出了正确答案。然而,在我的实际用例中,
y
中的数组都是不同长度的

使用上面的
y
创建更接近我的数据的
y2
。以下是可复制的

y2 = [np.resize(a, r) for a,r in zip(y,np.random.randint(2, 10, 10))]
# yields something like:
# [array([10.1269906 , 10.34269353, 10.39461373, 10.022271  , 10.69316165, 10.83981557, 10.03328485, 10.56850597]), 
# array([10.99159117, 10.21215159, 10.65208435, 10.22483111, 10.13748229, 10.72621328]), 
# ...
# array([10.61071355, 10.62141997]), 
# array([10.3899659 , 10.66207985, 10.85937807]), 
# array([10.38374303, 10.93140162, 10.88535643, 10.51529231, 10.60723795, 10.60504599, 10.6773523 ]), 
# array([10.02775067, 10.91382588, 10.31222259, 10.44732757, 10.16980452, 10.88914854, 10.22677905])]
下面返回我想要的结果,但对于实际数据帧的大小来说是不可行的。我宁愿用numpy以矢量化的形式来做

[x[i] >= y2[i] for i in range(len(y2))]
# returns 
# [array([False, False, False, False, False, False, False, False]),
#  array([False,  True, False,  True,  True, False]),
#  ...
#  array([ True,  True]), 
#  array([ True, False, False]),
#  array([False, False, False, False, False, False, False]),
#  array([ True,  True,  True,  True,  True,  True,  True])]

获取底层数组数据,这样我们就有了
y
as
2D
数组,我们把它叫做
y
x
as
1D
,把它叫做
x
。然后执行比较以利用
广播
,如下所示-

Y = np.concatenate(df.y.values).reshape(-1,len(df.y[0]))
X = df.x.values
out = X >= Y
请注意,这会将
df.y
中的每个条目与
x
进行比较


如果您想将
x
中的每个条目与
df.y
中的每个条目进行比较,请将
x
扩展到
2D
,然后进行比较:
out=x[:,None]>=y

谢谢@Divakar。你按照我的措辞回答了我的问题,所以我接受了这个答案。虽然对于我的实际用例,
y
中的每个数组都是不同的大小。类似于
y2=[np.resize(a,r)for a,r in zip(y,np.random.randint(2,10,10))]
@Clay您能为这种情况添加示例并在问题中添加预期的输出吗?@Divakar-添加了更多详细信息。谢谢。是的,我认为尺寸参差不齐,你必须求助于一些不合理的解决方案。在这里看不到矢量化的帮助。是否有一个矢量化函数可以用
np.nan
填充所有数组,使它们的长度都相同,然后使用您的解决方案?认为您是在这之后-@Divakar您在上面的评论中链接到的问题的答案非常有效。非常感谢。