Python dask csv读取顺序
我有一个时间序列,它的值存储在不同的csv中。 每个csv都经过排序,并包含一个可变秒数,即时间扫描Python dask csv读取顺序,python,csv,dask,Python,Csv,Dask,我有一个时间序列,它的值存储在不同的csv中。 每个csv都经过排序,并包含一个可变秒数,即时间扫描 df = dd.read_csv('/home/data/derived/ips_subnets.7days/*') df.head() seconds IP subnet 0 1477252800 Private-10.0.0.0 10.101.15.6 1 1477252800 Privat
df = dd.read_csv('/home/data/derived/ips_subnets.7days/*')
df.head()
seconds IP subnet
0 1477252800 Private-10.0.0.0 10.101.15.6
1 1477252800 Private-10.0.0.0 10.102.223.2
2 1477252800 Private-10.0.0.0 10.104.15.43
3 1477252800 Private-10.0.0.0 10.104.5.241
4 1477252800 Private-10.0.0.0 10.106.15.26
现在,我如何设置csv文件应根据变量
seconds
按顺序读取?默认情况下dask.dataframe.read\u csv
按字母顺序读取文件,因此如果您的文件名遵循标准命名方案,如2016-05-06.csv
,则您应该可以
如果需要,可以使用自定义。这里有一个类似的例子
最后,您可以始终调用df=df.set_index('seconds')
,但是这比其他方法慢得多,需要对数据进行完整扫描