Pandas 从字典创建dask数据帧_Pandas_Dask

Pandas 从字典创建dask数据帧

pandas dask

Pandas 从字典创建dask数据帧,pandas,dask,Pandas,Dask,我有一本这样的字典： d = {'Caps': 'cap_list', 'Term': 'unique_tokens', 'LocalFreq': 'local_freq_list','CorpusFreq': 'corpus_freq_list'} 我想从中创建一个dask数据帧。我该怎么做？通常，在熊猫中，is可以通过以下方式轻松导入熊猫df： df = pd.DataFrame({'Caps': cap_list, 'Term': unique_tokens, 'LocalFreq':

我有一本这样的字典：

d = {'Caps': 'cap_list', 'Term': 'unique_tokens', 'LocalFreq': 'local_freq_list','CorpusFreq': 'corpus_freq_list'}

我想从中创建一个dask数据帧。我该怎么做？通常，在熊猫中，is可以通过以下方式轻松导入熊猫df：

df = pd.DataFrame({'Caps': cap_list, 'Term': unique_tokens, 'LocalFreq': local_freq_list,
                               'CorpusFreq': corpus_freq_list})

我是否应该先将数据装入一个包，然后从包转换为ddf？

如果您的数据适合内存，那么我建议您使用Pandas而不是Dask数据帧

如果出于某种原因，您仍然希望使用Dask数据帧，那么我会将内容转换为Pandas数据帧，然后使用

Dask.dataframe.from_Pandas

函数

import dask.dataframe as dd
import pandas as pd

df = pd.DataFrame(...)
ddf = dd.from_pandas(df, npartitions=20)

但在很多情况下，这比仅仅使用熊猫要慢。

这能回答你的问题吗？在我看来，你应该首先使用

bag

@rpanai我确实看到了链接，但是，k（序列…？）的角色和整个事情似乎很复杂。想要一个简单的例子。另外，我以前从未使用过“延迟”。我总是创建任务dag并最终运行compute（），这对我来说非常有效。