Can';是否使用dask删除列或切片数据帧?

Can';是否使用dask删除列或切片数据帧?,dask,Dask,我正在尝试使用dask而不是熊猫,因为我有2.6gb的csv文件。 我加载它,我想删除一列。但这两种方法似乎都不适用 df.drop('column')或切片df[:,:-1] 目前尚未实施。是这样,还是我遗漏了什么 我们在中实现了drop方法。这从dask 0.7.0开始提供 In [1]: import pandas as pd In [2]: df = pd.DataFrame({'x': [1, 2, 3], 'y': [3, 2, 1]}) In [3]: import dask.

我正在尝试使用dask而不是熊猫,因为我有2.6gb的csv文件。 我加载它,我想删除一列。但这两种方法似乎都不适用 df.drop('column')或切片df[:,:-1]


目前尚未实施。是这样,还是我遗漏了什么

我们在中实现了
drop
方法。这从dask 0.7.0开始提供

In [1]: import pandas as pd

In [2]: df = pd.DataFrame({'x': [1, 2, 3], 'y': [3, 2, 1]})

In [3]: import dask.dataframe as dd

In [4]: ddf = dd.from_pandas(df, npartitions=2)

In [5]: ddf.drop('y', axis=1).compute()
Out[5]: 
   x
0  1
1  2
2  3
以前也可以使用列名切片;当然,如果你有很多专栏的话,这就不那么吸引人了

In [6]: ddf[['x']].compute()
Out[6]: 
   x
0  1
1  2
2  3

为什么是“.compute()”?若你们的数据库很大,这会不会让你们慢下来?我只使用上面的计算来显示计算结果。你是对的,过早调用compute可能是次优的。