Python 包含json格式列的Dask数据帧

Python 包含json格式列的Dask数据帧,python,pandas,dask,Python,Pandas,Dask,我有一个包含json格式列的dask数据帧,我想将该列解析为数据帧格式 json格式的列如下所示: {“名称”:{“id”:1000,“地址”:“ABC”,…},,,, 所以我只想提取“Name”的值,并使其中的每个键成为一列,每个值都是其中的一个值,如: id address ... 1000 ABC 2000 DEF 3000 GHA ... ... 我认为我们可以通过读取json将json文件读取到dask数据帧中,但我该怎么做呢?您正在执行的操作似乎是令人尴尬的并行操作

我有一个包含json格式列的dask数据帧,我想将该列解析为数据帧格式

json格式的列如下所示:

{“名称”:{“id”:1000,“地址”:“ABC”,…},,,,

所以我只想提取“Name”的值,并使其中的每个键成为一列,每个值都是其中的一个值,如:

id    address ...
1000  ABC
2000  DEF
3000  GHA
...   ...

我认为我们可以通过读取json将json文件读取到dask数据帧中,但我该怎么做呢?

您正在执行的操作似乎是令人尴尬的并行操作。因此,您可以编写Pandas函数,然后在dask数据帧上并行应用该函数

def f(df: pandas.DataFrame) -> pandas.DataFrame:
    ... however you would do this in Pandas

ddf = ddf.map_partitions(f)

如果是Pandas数据帧,我会使用Pandas.io.json中的json_normalize,比如(不在dask数据帧中工作),df_json=json_normalize(df['json_col'].apply(lambda x:json.loads(x)))df_json.head(),这样你就可以对dask包做类似的事情,
db.read_text('datajsonl').map(json.loads).compute()
。然后使用
转换为数据帧。转换为\u dataframe
。你读过了吗?@quasiben,请将此作为答案提交,这样问题看起来就不是那么简单了pending@quasiben对不起,有一件事我没提。我使用read\u sql\u table方法从mysql读取数据。所以,我不能像读课文那样用其他方法来阅读。我的意思是,read_sql_表的输出dataframe包含一个json格式的列,我想对其进行规范化。