Python dask csv读取顺序_Python_Csv_Dask

Python dask csv读取顺序

python csv dask

Python dask csv读取顺序,python,csv,dask,Python,Csv,Dask,我有一个时间序列，它的值存储在不同的csv中。每个csv都经过排序，并包含一个可变秒数，即时间扫描 df = dd.read_csv('/home/data/derived/ips_subnets.7days/*') df.head() seconds IP subnet 0 1477252800 Private-10.0.0.0 10.101.15.6 1 1477252800 Privat

我有一个时间序列，它的值存储在不同的csv中。每个csv都经过排序，并包含一个可变秒数，即时间扫描

    df = dd.read_csv('/home/data/derived/ips_subnets.7days/*')
df.head()

          seconds                IP        subnet
    0  1477252800  Private-10.0.0.0   10.101.15.6
    1  1477252800  Private-10.0.0.0  10.102.223.2
    2  1477252800  Private-10.0.0.0  10.104.15.43
    3  1477252800  Private-10.0.0.0  10.104.5.241
    4  1477252800  Private-10.0.0.0  10.106.15.26

现在，我如何设置csv文件应根据变量

seconds

按顺序读取？

默认情况下

dask.dataframe.read\u csv

按字母顺序读取文件，因此如果您的文件名遵循标准命名方案，如

2016-05-06.csv

，则您应该可以

如果需要，可以使用自定义。这里有一个类似的例子

最后，您可以始终调用

df=df.set_index（'seconds'）

，但是这比其他方法慢得多，需要对数据进行完整扫描