为什么Dask不读取CSV?

为什么Dask不读取CSV?,csv,dask,Csv,Dask,我刚试过 import dask.dataframe as dd df = dd.read_csv("data.csv") print(df.describe()) 给 Dask DataFrame Structure: SOME_COL FOO BAR npartitions=1 float64 float64 float64 ...

我刚试过

import dask.dataframe as dd
df = dd.read_csv("data.csv")
print(df.describe())

Dask DataFrame Structure:
              SOME_COL    FOO            BAR
npartitions=1                   float64     float64        float64
              ...         ...            ...  
Dask Name: describe, 1234 tasks
有两个问题:

  • 我不认为做了什么,因为这是一个4GB的CSV文件,因此它应该至少需要几秒钟来读取,但打印立即发生
  • 我希望得到最小值、25%、中值、75%和最大值,但没有显示这些描述性值

  • 问题出在哪里?

    Dask.dataframe默认为惰性。当你想要一个真实的答案时,你需要调用
    .compute()

    print(df.describe().compute())
    
    调用dd.read_csv()实际上做不了什么。在此之后,您应该调用.compute()方法将csv实际读入dask数据帧

    这意味着达斯克很懒。如果你只有4GB的csv文件和足够的RAM,也许你可以直接用pandas读取csv文件。在pandas.read\u csv中也设置参数low\u memory=False