Python 如何在dask中使用“loc”选择数据帧的列

Python 如何在dask中使用“loc”选择数据帧的列,python,pandas,dataframe,distributed,dask,Python,Pandas,Dataframe,Distributed,Dask,任何人都可以告诉我如何使用dask在数据帧中选择一个带有“loc”的列 作为旁注,当我使用dd.read_csv加载数据帧时,标题等于None,列名从零开始到131094。我正要选择列名为131094的最后一列,我得到了错误 代码: > import dask.dataframe as dd > df = dd.read_csv('filename.csv', header=None) > y = df.loc['131094'] 错误: 文件/usr/local/dask-

任何人都可以告诉我如何使用dask在数据帧中选择一个带有“loc”的列

作为旁注,当我使用dd.read_csv加载数据帧时,标题等于None,列名从零开始到131094。我正要选择列名为131094的最后一列,我得到了错误

代码:

> import dask.dataframe as dd
> df = dd.read_csv('filename.csv', header=None)
> y = df.loc['131094']
错误:

文件/usr/local/dask-2018-08-22/lib/python2.7/site-packages/dask-0.5.0-py2.7.egg/dask/dataframe/core.py,第180行,位于_loc 在没有已知分区的数据帧上不能使用loc ValueError:无法在没有已知分区的数据帧上使用loc


根据这个指导原则,我的代码应该可以正常工作,但不知道是什么原因导致了问题。

我在一个虚拟csv上尝试了这个方法,结果成功了。如果没有看到给你带来问题的文件,我肯定帮不了你。也就是说,您可能选择的是行,而不是列

相反,试试这个

import dask.dataframe as dd
df = dd.read_csv('filename.csv', header=None)
y = df[df.columns[-1]]

如果您有一个命名列,那么使用:df.loc[:,'col_name']
但是如果你有一个位置列,比如在你的例子中,你想要最后一列,那么使用@user1717828的答案。

我得到了这个错误:File/usr/local/dask-2018-08-22/lib/python2.7/site-packages/dask-0.5.0-py2.7.egg/dask/dataframe/core.py,第452行,在getitem raise NotImplementedError NotImplementedError中