Python Dask:按索引从数据帧中子集(或删除)行

Python Dask:按索引从数据帧中子集(或删除)行,python,dask,Python,Dask,我想基于一组索引键获取Dask数据帧的行子集。(具体来说,我想查找其索引不在ddf2索引中的ddf1行。) cache.drop([overlap_list])和diff=cache[应该保留布尔数组]抛出NotImplementedException或以其他方式不起作用 最好的方法是什么?我不确定这是否是“最好”的方法,但以下是我最终的做法: 创建一个数据帧,索引是我想要保留的一系列索引键(例如,pd.DataFrame(index=overlap\u list)) 内部连接Dask数据帧 另

我想基于一组索引键获取Dask数据帧的行子集。(具体来说,我想查找其索引不在ddf2索引中的ddf1行。)

cache.drop([overlap_list])
diff=cache[应该保留布尔数组]
抛出NotImplementedException或以其他方式不起作用

最好的方法是什么?

我不确定这是否是“最好”的方法,但以下是我最终的做法:

  • 创建一个数据帧,索引是我想要保留的一系列索引键(例如,
    pd.DataFrame(index=overlap\u list)
  • 内部连接Dask数据帧

  • 另一种可能性是:

    df_index = df.reset_index()
    df_index = df_index.dorp_dplicates()
    

    dask中索引操作的功能相当有限。例如,将是直接的实现,但它也没有实现。