Python 哈弗森距离最小值的有效计算
我有一个坐标为>2.7MM的数据框,还有一个单独的~2000坐标列表。我试图返回每一行中的坐标与列表中的每个坐标之间的最小距离。下面的代码在小范围内工作(数据帧有200行),但是当计算超过2.7MM行时,它似乎永远运行Python 哈弗森距离最小值的有效计算,python,pandas,numpy,vectorization,haversine,Python,Pandas,Numpy,Vectorization,Haversine,我有一个坐标为>2.7MM的数据框,还有一个单独的~2000坐标列表。我试图返回每一行中的坐标与列表中的每个坐标之间的最小距离。下面的代码在小范围内工作(数据帧有200行),但是当计算超过2.7MM行时,它似乎永远运行 from haversine import haversine df Latitude Longitude 39.989 -89.980 39.923 -89.901 39.990 -89.987 39.884 -89.943 39.030 -
from haversine import haversine
df
Latitude Longitude
39.989 -89.980
39.923 -89.901
39.990 -89.987
39.884 -89.943
39.030 -89.931
end_coords_list = [(41.342,-90.423),(40.349,-91.394),(38.928,-89.323)]
for row in df.itertuples():
def min_distance(row):
beg_coord = (row.Latitude, row.Longitude)
return min(haversine(beg_coord, end_coord) for end_coord in end_coords_list)
df['Min_Distance'] = df.apply(min_distance, axis=1)
我知道问题在于正在进行的计算的数量(5.7MM*2000=~114亿次),而运行这么多循环的效率非常低
根据我的研究,向量化NumPy函数似乎是一种更好的方法,但我对Python和NumPy还不熟悉,所以我不太确定在这种特殊情况下如何实现它
理想输出:
df
Latitude Longitude Min_Distance
39.989 -89.980 3.7
39.923 -89.901 4.1
39.990 -89.987 4.2
39.884 -89.943 5.9
39.030 -89.931 3.1
提前谢谢 本质上是:
# convert all latitudes/longitudes from decimal degrees to radians
lat1, lng1, lat2, lng2 = map(radians, (lat1, lng1, lat2, lng2))
# calculate haversine
lat = lat2 - lat1
lng = lng2 - lng1
d = sin(lat * 0.5) ** 2 + cos(lat1) * cos(lat2) * sin(lng * 0.5) ** 2
h = 2 * AVG_EARTH_RADIUS * asin(sqrt(d))
这里有一个矢量化方法,它利用强大的NumPy ufuncs
替换那些数学模块func,这样我们就可以一次性操作整个数组-
# Get array data; convert to radians to simulate 'map(radians,...)' part
coords_arr = np.deg2rad(coords_list)
a = np.deg2rad(df.values)
# Get the differentiations
lat = coords_arr[:,0] - a[:,0,None]
lng = coords_arr[:,1] - a[:,1,None]
# Compute the "cos(lat1) * cos(lat2) * sin(lng * 0.5) ** 2" part.
# Add into "sin(lat * 0.5) ** 2" part.
add0 = np.cos(a[:,0,None])*np.cos(coords_arr[:,0])* np.sin(lng * 0.5) ** 2
d = np.sin(lat * 0.5) ** 2 + add0
# Get h and assign into dataframe
h = 2 * AVG_EARTH_RADIUS * np.arcsin(np.sqrt(d))
df['Min_Distance'] = h.min(1)
为了进一步提高性能,我们可以使用替换超越函数
运行时测试和验证 接近-
def loopy_app(df, coords_list):
for row in df.itertuples():
df['Min_Distance1'] = df.apply(min_distance, axis=1)
def vectorized_app(df, coords_list):
coords_arr = np.deg2rad(coords_list)
a = np.deg2rad(df.values)
lat = coords_arr[:,0] - a[:,0,None]
lng = coords_arr[:,1] - a[:,1,None]
add0 = np.cos(a[:,0,None])*np.cos(coords_arr[:,0])* np.sin(lng * 0.5) ** 2
d = np.sin(lat * 0.5) ** 2 + add0
h = 2 * AVG_EARTH_RADIUS * np.arcsin(np.sqrt(d))
df['Min_Distance2'] = h.min(1)
核实-
In [158]: df
Out[158]:
Latitude Longitude
0 39.989 -89.980
1 39.923 -89.901
2 39.990 -89.987
3 39.884 -89.943
4 39.030 -89.931
In [159]: loopy_app(df, coords_list)
In [160]: vectorized_app(df, coords_list)
In [161]: df
Out[161]:
Latitude Longitude Min_Distance1 Min_Distance2
0 39.989 -89.980 126.637607 126.637607
1 39.923 -89.901 121.266241 121.266241
2 39.990 -89.987 126.037388 126.037388
3 39.884 -89.943 118.901195 118.901195
4 39.030 -89.931 53.765506 53.765506
时间安排-
In [163]: df
Out[163]:
Latitude Longitude
0 39.989 -89.980
1 39.923 -89.901
2 39.990 -89.987
3 39.884 -89.943
4 39.030 -89.931
In [164]: %timeit loopy_app(df, coords_list)
100 loops, best of 3: 2.41 ms per loop
In [165]: %timeit vectorized_app(df, coords_list)
10000 loops, best of 3: 96.8 µs per loop
请告诉我们有关harversine的信息。它接受什么输入?True
矢量化
通常需要减少编译代码中numpy
处理的基本数学运算。我们无法将黑匣子矢量化。haversine
接受两个输入:“开始”坐标和“结束”坐标,并计算两者之间的距离(以公里为单位)。这是从?如果是的话,请在问题中连接。只是更新它。让我知道这是否提供了你想要的清晰度。我们需要该软件包的源代码信息。再次,张贴以确认这是否是链接-?不要以为我们会在我们的终端安装所有的软件包。这太棒了。感谢您演示如何与熊猫一起使用NumPy。在非常大的数据帧上运行时,我遇到内存错误。你认为“numexpr”能解决这个问题吗?@WaltReed不,numexpr
在这方面没有帮助。只需将数据帧分为块,比如一次抓取10000
行,使用建议的代码进行处理并分配到输出列,然后再分配到下一个10000
行,重复执行,依此类推。