使用dataframes从csv编写函数,以读取和返回python中的列值
我在csv文件中设置了以下数据:使用dataframes从csv编写函数,以读取和返回python中的列值,python,python-3.x,pandas,dataframe,Python,Python 3.x,Pandas,Dataframe,我在csv文件中设置了以下数据: vehicle---time-----aspd[m/s]------gspd[m/s]----hdg---alt[m-msl] veh_1---17:19.5---0.163471505---0.140000001---213---273.8900146 veh_2---17:19.5---0.505786836---0.170000002---214---273.9100037 veh_3---17:19.8---0.173484877---0.109999
vehicle---time-----aspd[m/s]------gspd[m/s]----hdg---alt[m-msl]
veh_1---17:19.5---0.163471505---0.140000001---213---273.8900146
veh_2---17:19.5---0.505786836---0.170000002---214---273.9100037
veh_3---17:19.8---0.173484877---0.109999999---213---273.980011
veh_4---44:12.4---18.64673424---19.22999954---316---388.9299927
veh_5---44:13.0---18.13533401---19.10000038---316---389.1700134
我正在尝试编写一个函数launch_time(),其中包含两个输入(数据帧、车辆名称),用于在gspd第一次报告超过10.0 m/s时返回。
输出时间必须从字符串(HH:MM:SS.SS)转换为12:00后的分钟格式
它应该是这样的:
>>> launch_time(df, veh_1)
30.0
'veh_1', 30.0, 'veh_2', 15.0
我将使用此函数迭代每个车辆,然后需要将结果记录到一个元组列表中,格式为启动序列顺序(v_name,launch time)
它应该是这样的:
>>> launch_time(df, veh_1)
30.0
'veh_1', 30.0, 'veh_2', 15.0
披露:我的python/pandas知识非常入门 您可以使用分隔符-{3,}
-使用3和更多的-
读取csv:
import pandas as pd
from pandas.compat import StringIO
temp=u"""vehicle---time-----aspd[m/s]------gspd[m/s]----hdg---alt[m-msl]
veh_1---17:19.5---0.163471505---0.140000001---213---273.8900146
veh_2---17:19.5---0.505786836---0.170000002---214---273.9100037
veh_3---17:19.8---0.173484877---0.109999999---213---273.980011
veh_4---44:12.4---18.64673424---19.22999954---316---388.9299927
veh_5---45:13.0---18.13533401---19.10000038---316---389.1700134"""
#after testing replace StringIO(temp) to filename
df = pd.read_csv(StringIO(temp), sep="-{3,}", engine='python')
print (df)
vehicle time aspd[m/s] gspd[m/s] hdg alt[m-msl]
0 veh_1 17:19.5 0.163472 0.14 213 273.890015
1 veh_2 17:19.5 0.505787 0.17 214 273.910004
2 veh_3 17:19.8 0.173485 0.11 213 273.980011
3 veh_4 44:12.4 18.646734 19.23 316 388.929993
4 veh_5 45:13.0 18.135334 19.10 316 389.170013
然后转换列time
,过滤10m/s
以上的所有行,对使用的车辆分组,然后获取最后一列zip
和time
,并转换为列表
:
df.time = pd.to_timedelta('00:' + df.time, unit='h').\
astype('timedelta64[m]').astype(int)
req = df[df['gspd[m/s]'] > 10].\
sort_values('time', ascending=True).\
groupby('vehicle', as_index=False).head(1)
print(req)
vehicle time aspd[m/s] gspd[m/s] hdg alt[m-msl]
4 veh_5 45 18.135334 19.10 316 389.170013
3 veh_4 44 18.646734 19.23 316 388.929993
L = list(zip(req['vehicle'],req['time']))
print (L)
[('veh_5', 45), ('veh_4', 44)]
pandas
read_csv
接受自定义分隔符,例如'--'
。你试过了吗?文件中没有'--'。我最初使用它是为了使专栏更加清晰,但它只是增加了混乱!每辆车只能有一排还是可以有多排?在时间
列中,有时是小时
?样本中的格式是MM:SS.SS
?以分钟为单位的时间可以四舍五入吗?您缺少OP的问题。OP需要从第一行开始的时间,其中gspd
>10m/s。将时间正确转换为int
后,需要在车辆上分组,在时间上排序,然后返回第一个时间。基本上:req=df[df['gspd[m/s]]]>10].groupby('vehicle').apply(lambda x:x.sort_values('time',升序=True)。head(1))
…谢谢,我将其添加到答案中。好的,没问题,;)我对你的评论做了一些改进,比如df=df[df['gspd[m/s]]]>10]。对值进行排序('time',升序=True)。groupby('vehicle',as_index=False)。首先()
完成,我使用了你的改进!只是使用了head(1)
而不是first
,因为链接文档就是这么说的。