Python 为dask中的行创建唯一ID

Python 为dask中的行创建唯一ID,python,dask,pyarrow,Python,Dask,Pyarrow,我需要为dask数据帧中的行添加一个id,我尝试的第一件事是添加一个累加索引,如图2所示 但是我的笔记本电脑坏了,所以也许可以选择一个随机的唯一id 作为补充信息,我使用的文件是10GB的拼花格式和20Gb的CSV格式,我的笔记本电脑有16Gb的RAM 另一个我不知道是否可能的选择是,只将新列追加/添加到文件中,而不将其加载到内存中我会找出一些代码来为熊猫执行此操作,然后使用映射分区方法并行应用相同的函数。也许像下面这样 def add_unique_id_column(df: pandas.D

我需要为dask数据帧中的行添加一个id,我尝试的第一件事是添加一个累加索引,如图2所示

但是我的笔记本电脑坏了,所以也许可以选择一个随机的唯一id

作为补充信息,我使用的文件是10GB的拼花格式和20Gb的CSV格式,我的笔记本电脑有16Gb的RAM


另一个我不知道是否可能的选择是,只将新列追加/添加到文件中,而不将其加载到内存中

我会找出一些代码来为熊猫执行此操作,然后使用
映射分区
方法并行应用相同的函数。也许像下面这样

def add_unique_id_column(df: pandas.DataFrame) -> pandas.DataFrame:
    ...

df = df.map_partitions(add_unique_id_column)

我将找出一些为Pandas执行此操作的代码,然后使用
map\u partitions
方法并行应用相同的函数。也许像下面这样

def add_unique_id_column(df: pandas.DataFrame) -> pandas.DataFrame:
    ...

df = df.map_partitions(add_unique_id_column)