Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/286.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python Dask数据帧保存到_csv,用于增量数据-高效写入csv_Python_Pandas_Dask - Fatal编程技术网

Python Dask数据帧保存到_csv,用于增量数据-高效写入csv

Python Dask数据帧保存到_csv,用于增量数据-高效写入csv,python,pandas,dask,Python,Pandas,Dask,我有一个用于读取流式数据并使用pandasDataFrame存储它的现有代码(新数据每5分钟出现一次),然后按类别捕获此数据(~350个类别) 接下来,我使用将所有新的数据(因为这将以增量方式存储)写入循环中的csv 伪代码如下所示: parentdf.itertuples()中的行的:#插入到。 mycat=row.category#这是传递给下面的键函数的唯一参数。 尝试: df=FnforExtractingNParsingData(mycat、NumericParam1、NumericP

我有一个用于读取流式数据并使用
pandas
DataFrame存储它的现有代码(新数据每5分钟出现一次),然后按类别捕获此数据(~350个类别)

接下来,我使用
将所有新的数据(因为这将以增量方式存储)写入循环中的csv

伪代码如下所示:

parentdf.itertuples()中的行的
:#插入到。
mycat=row.category#这是传递给下面的键函数的唯一参数。
尝试:
df=FnforExtractingNParsingData(mycat、NumericParam1、NumericParam1)
插入测向(0,'NewCol',符号)
df=df.assign(计算列=函数1(参数))
df=df.assign(calculatedCol1=functions2(参数),20))
df=df.assign(calculatedCol3=functions3(更多参数),20))
df[20:]至_csv(输出文件,模式='a',标题=False,索引=False)
在csv中按类别读取和存储每个周期需要2分钟。对于350个类别的每次增量写入,这接近.34秒。 我想知道是否可以使用
dask
dataframes使上述过程更快、更高效

我查阅了dask.org,没有得到任何明确的答案,也查看了用例

其他详细信息:我正在使用Python 3.7和熊猫0.25, 此外,上面的代码不会返回任何错误,即使我们已经在上面完成了大量的异常处理。
我的关键功能,即提取nParsingData的功能,相当有弹性,并且在很长一段时间内都能正常工作。

。。这将是我第一次尝试使用Dask,我愿意接受任何可以用来最小化过程运行时间的方法的建议。