为什么Dask不读取CSV?
我刚试过为什么Dask不读取CSV?,csv,dask,Csv,Dask,我刚试过 import dask.dataframe as dd df = dd.read_csv("data.csv") print(df.describe()) 给 Dask DataFrame Structure: SOME_COL FOO BAR npartitions=1 float64 float64 float64 ...
import dask.dataframe as dd
df = dd.read_csv("data.csv")
print(df.describe())
给
Dask DataFrame Structure:
SOME_COL FOO BAR
npartitions=1 float64 float64 float64
... ... ...
Dask Name: describe, 1234 tasks
有两个问题:
问题出在哪里?Dask.dataframe默认为惰性。当你想要一个真实的答案时,你需要调用
.compute()
print(df.describe().compute())
调用dd.read_csv()实际上做不了什么。在此之后,您应该调用.compute()方法将csv实际读入dask数据帧
这意味着达斯克很懒。如果你只有4GB的csv文件和足够的RAM,也许你可以直接用pandas读取csv文件。在pandas.read\u csv中也设置参数low\u memory=False