Pandas 从字典创建dask数据帧
我有一本这样的字典:Pandas 从字典创建dask数据帧,pandas,dask,Pandas,Dask,我有一本这样的字典: d = {'Caps': 'cap_list', 'Term': 'unique_tokens', 'LocalFreq': 'local_freq_list','CorpusFreq': 'corpus_freq_list'} 我想从中创建一个dask数据帧。我该怎么做?通常,在熊猫中,is可以通过以下方式轻松导入熊猫df: df = pd.DataFrame({'Caps': cap_list, 'Term': unique_tokens, 'LocalFreq':
d = {'Caps': 'cap_list', 'Term': 'unique_tokens', 'LocalFreq': 'local_freq_list','CorpusFreq': 'corpus_freq_list'}
我想从中创建一个dask数据帧。我该怎么做?通常,在熊猫中,is可以通过以下方式轻松导入熊猫df:
df = pd.DataFrame({'Caps': cap_list, 'Term': unique_tokens, 'LocalFreq': local_freq_list,
'CorpusFreq': corpus_freq_list})
我是否应该先将数据装入一个包,然后从包转换为ddf?如果您的数据适合内存,那么我建议您使用Pandas而不是Dask数据帧 如果出于某种原因,您仍然希望使用Dask数据帧,那么我会将内容转换为Pandas数据帧,然后使用
Dask.dataframe.from_Pandas
函数
import dask.dataframe as dd
import pandas as pd
df = pd.DataFrame(...)
ddf = dd.from_pandas(df, npartitions=20)
但在很多情况下,这比仅仅使用熊猫要慢。这能回答你的问题吗?在我看来,你应该首先使用
bag
@rpanai我确实看到了链接,但是,k(序列…?)的角色和整个事情似乎很复杂。想要一个简单的例子。另外,我以前从未使用过“延迟”。我总是创建任务dag并最终运行compute(),这对我来说非常有效。