Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/file/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Pandas 从字典创建dask数据帧_Pandas_Dask - Fatal编程技术网

Pandas 从字典创建dask数据帧

Pandas 从字典创建dask数据帧,pandas,dask,Pandas,Dask,我有一本这样的字典: d = {'Caps': 'cap_list', 'Term': 'unique_tokens', 'LocalFreq': 'local_freq_list','CorpusFreq': 'corpus_freq_list'} 我想从中创建一个dask数据帧。我该怎么做?通常,在熊猫中,is可以通过以下方式轻松导入熊猫df: df = pd.DataFrame({'Caps': cap_list, 'Term': unique_tokens, 'LocalFreq':

我有一本这样的字典:

d = {'Caps': 'cap_list', 'Term': 'unique_tokens', 'LocalFreq': 'local_freq_list','CorpusFreq': 'corpus_freq_list'}
我想从中创建一个dask数据帧。我该怎么做?通常,在熊猫中,is可以通过以下方式轻松导入熊猫df:

df = pd.DataFrame({'Caps': cap_list, 'Term': unique_tokens, 'LocalFreq': local_freq_list,
                               'CorpusFreq': corpus_freq_list})

我是否应该先将数据装入一个包,然后从包转换为ddf?

如果您的数据适合内存,那么我建议您使用Pandas而不是Dask数据帧

如果出于某种原因,您仍然希望使用Dask数据帧,那么我会将内容转换为Pandas数据帧,然后使用
Dask.dataframe.from_Pandas
函数

import dask.dataframe as dd
import pandas as pd

df = pd.DataFrame(...)
ddf = dd.from_pandas(df, npartitions=20)

但在很多情况下,这比仅仅使用熊猫要慢。

这能回答你的问题吗?在我看来,你应该首先使用
bag
@rpanai我确实看到了链接,但是,k(序列…?)的角色和整个事情似乎很复杂。想要一个简单的例子。另外,我以前从未使用过“延迟”。我总是创建任务dag并最终运行compute(),这对我来说非常有效。