Python 从应用中构造数据帧

Python 从应用中构造数据帧,python,pandas,dataframe,apply,Python,Pandas,Dataframe,Apply,我有一个返回纬度和经度信息的函数。我想在数据框中为这4个变量创建列 这是我的密码: import geocoder import pandas as pd import geolib from geolib import geohash df = pd.read_csv('New_DP2.csv') key = [redacted] fields = ['NWLat', 'NWLong', 'SELat', 'SELong'] def getData(address, key):

我有一个返回纬度和经度信息的函数。我想在数据框中为这4个变量创建列

这是我的密码:

import geocoder
import pandas as pd
import geolib
from geolib import geohash

df = pd.read_csv('New_DP2.csv')

key = [redacted]


fields = ['NWLat', 'NWLong', 'SELat', 'SELong']
def getData(address, key):
    g = geocoder.mapquest(address, key=key)
    lat = g.lat
    lng = g.lng
    h = geolib.geohash.encode(lat, lng, 7)
    hashes = geolib.geohash.neighbours(h)
    NW = geohash.decode(hashes.nw)
    SE = geohash.decode(hashes.ne)
    nwlat = NW.lat
    nwlon = NW.lon
    selat = SE.lat
    selon = SE.lon
我想在一个数据框中创建四列,它们将为“nwlat”、“nwlon”、“selat”、“selon”生成列

通常我只需返回nwlat,然后创建一个lambda

df['NWLong'] = df.apply(lambda row: getData(row['a'], key), axis = 1)

然后,我会对其他3个变量的每一个情况都这样做。但是我总共运行了4次,而不是一次

你们非常接近。您所需要做的就是找出如何适当地返回结果。您的函数需要如下所示:

def getData(address, key):
    ...
    NW = geohash.decode(hashes.nw)
    SE = geohash.decode(hashes.ne)

    return pd.Series(dict(zip(fields, [NW.lat, NW.lon,  SE.lat, SE.lon]))) 
然后可以使用
系列。应用

df = pd.DataFrame({'address': ['Los Angeles, CA']})  # for example
df['address'].apply(getData, key=key)

                 NWLat                 NWLong                SELat                 SELong
0  34.0541839599609375  -118.2451629638671875  34.0541839599609375  -118.2424163818359375
这是通过让
getData
返回一个Series对象(以
字段作为索引)来实现的<代码>应用
将自动构建数据帧并返回结果

旁注:要将这些列连接到现有的
df
,请调用
pd.concat

res = pd.concat([df, df['address'].apply(getData, key=key)], axis=1)

另一种选择是,如果数据帧中没有NAN,则使用列表理解。这是一个性能(和内存)微优化

def getData2(address, key):
    ...
    NW = geohash.decode(hashes.nw)
    SE = geohash.decode(hashes.ne)

    return [NW.lat, NW.lon,  SE.lat, SE.lon]

pd.DataFrame([getData2(a, key) for a in df['address']], columns=fields)

                 NWLat                 NWLong                SELat                 SELong
0  34.0541839599609375  -118.2451629638671875  34.0541839599609375  -118.2424163818359375

关于列表理解及其好处的更多信息已在我的帖子中详细介绍:

Ok,所以通常您会使用
df.apply
。在这种情况下,您遇到了什么问题?@PeterLeimbigler请查看编辑,如果我不清楚,请道歉。您是否试图用此数据构建边界框?您可能需要考虑使用<代码> GEOPANDAs/COD>或空间数据库(只是一个建议,与这里的问题无关)。