Python Dask数据帧保存到_csv,用于增量数据-高效写入csv
我有一个用于读取流式数据并使用Python Dask数据帧保存到_csv,用于增量数据-高效写入csv,python,pandas,dask,Python,Pandas,Dask,我有一个用于读取流式数据并使用pandasDataFrame存储它的现有代码(新数据每5分钟出现一次),然后按类别捕获此数据(~350个类别) 接下来,我使用将所有新的数据(因为这将以增量方式存储)写入循环中的csv 伪代码如下所示: parentdf.itertuples()中的行的:#插入到。 mycat=row.category#这是传递给下面的键函数的唯一参数。 尝试: df=FnforExtractingNParsingData(mycat、NumericParam1、NumericP
pandas
DataFrame存储它的现有代码(新数据每5分钟出现一次),然后按类别捕获此数据(~350个类别)
接下来,我使用将所有新的数据(因为这将以增量方式存储)写入循环中的csv
伪代码如下所示:
parentdf.itertuples()中的行的:#插入到。
mycat=row.category#这是传递给下面的键函数的唯一参数。
尝试:
df=FnforExtractingNParsingData(mycat、NumericParam1、NumericParam1)
插入测向(0,'NewCol',符号)
df=df.assign(计算列=函数1(参数))
df=df.assign(calculatedCol1=functions2(参数),20))
df=df.assign(calculatedCol3=functions3(更多参数),20))
df[20:]至_csv(输出文件,模式='a',标题=False,索引=False)
在csv中按类别读取和存储每个周期需要2分钟。对于350个类别的每次增量写入,这接近.34秒。
我想知道是否可以使用dask
dataframes使上述过程更快、更高效
我查阅了dask.org,没有得到任何明确的答案,也查看了用例
其他详细信息:我正在使用Python 3.7和熊猫0.25,
此外,上面的代码不会返回任何错误,即使我们已经在上面完成了大量的异常处理。
我的关键功能,即提取nParsingData的功能,相当有弹性,并且在很长一段时间内都能正常工作。。。这将是我第一次尝试使用Dask,我愿意接受任何可以用来最小化过程运行时间的方法的建议。