Python Dask数据帧保存到_csv，用于增量数据-高效写入csv_Python_Pandas_Dask - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/286.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python Dask数据帧保存到_csv，用于增量数据-高效写入csv_Python_Pandas_Dask - Fatal编程技术网

Python Dask数据帧保存到_csv，用于增量数据-高效写入csv

python pandas dask

Python Dask数据帧保存到_csv，用于增量数据-高效写入csv,python,pandas,dask,Python,Pandas,Dask,我有一个用于读取流式数据并使用pandasDataFrame存储它的现有代码（新数据每5分钟出现一次），然后按类别捕获此数据（~350个类别）接下来，我使用将所有新的数据（因为这将以增量方式存储）写入循环中的csv 伪代码如下所示： parentdf.itertuples（）中的行的：#插入到。 mycat=row.category#这是传递给下面的键函数的唯一参数。尝试： df=FnforExtractingNParsingData（mycat、NumericParam1、NumericP

我有一个用于读取流式数据并使用

pandas

DataFrame存储它的现有代码（新数据每5分钟出现一次），然后按类别捕获此数据（~350个类别）

接下来，我使用

将所有新的数据（因为这将以增量方式存储）写入循环中的csv

伪代码如下所示：

parentdf.itertuples（）中的行的

：#插入到。
mycat=row.category#这是传递给下面的键函数的唯一参数。
尝试：
df=FnforExtractingNParsingData（mycat、NumericParam1、NumericParam1）
插入测向（0，'NewCol'，符号）
df=df.assign（计算列=函数1（参数））
df=df.assign（calculatedCol1=functions2（参数），20））
df=df.assign（calculatedCol3=functions3（更多参数），20））
df[20:]至_csv（输出文件，模式='a'，标题=False，索引=False）

在csv中按类别读取和存储每个周期需要2分钟。对于350个类别的每次增量写入，这接近.34秒。我想知道是否可以使用
dask
dataframes使上述过程更快、更高效
我查阅了dask.org，没有得到任何明确的答案，也查看了用例
其他详细信息：我正在使用Python 3.7和熊猫0.25，此外，上面的代码不会返回任何错误，即使我们已经在上面完成了大量的异常处理。
我的关键功能，即提取nParsingData的功能，相当有弹性，并且在很长一段时间内都能正常工作。
。。这将是我第一次尝试使用Dask，我愿意接受任何可以用来最小化过程运行时间的方法的建议。

[pandas]相关文章推荐

Pandas 过滤数据帧中的倍数 pandas dataframe filter

Pandas 熊猫：同一HDF中的大数据帧？ pandas

使用pandas或psycopg使用串行密钥插入数据？ pandas

Pandas 编辑字段并将值附加到python dataframe列 pandas dataframe

Pandas:获取分组数据帧中的日期时间标准 pandas

Pandas 使用部分字符串匹配从DF中删除行 pandas

Pandas 根据第二个数据帧中的值替换数据帧中的Nan pandas dataframe

Pandas 带熊猫阵列的hstack csr矩阵 pandas numpy

Pandas 如何选择属性列值等于列表中任意一个值的行 pandas

Pandas Excel COUNTIFS的等价物 pandas

Pandas 熊猫选择时间行，而不是日期时间行 pandas

Pandas 用groupby计算条件中值 pandas

Pandas 读取csv移动列并跳过错误行 pandas csv

Pandas 基于行长度求和列值 pandas

Pandas 是否难以添加具有条件的新列？ pandas python-2.7

Pandas 减去熊猫中的日期时间对象 pandas dataframe datetime

Pandas 熊猫散布图和群比不起作用 pandas

Pandas 筛选熊猫中多索引列的行 pandas

Pandas 时间序列分析-将值放入存储箱 pandas

Pandas groupby连续值的加权平均值（将连续公共值保留在一列中） pandas

随机文章推荐

Pandas 索引（列[0]）具有重复的值 pandas

Pandas 将数据帧与不同级别的索引串联在一起 pandas

Pandas Groupby值以 pandas

Pandas 处理数据帧中丢失和重复的数据时间字段 pandas dataframe

Pandas 在大熊猫中本地化时间戳 pandas localization

Pandas seaborn：如何在分组条形图上添加错误条 pandas python python-2.7 matplotlib

Pandas 减去表中的两列 pandas numpy

Pandas 如何在AWS EC2上安装QUANDL？ pandas numpy

Pandas 将列标题转换为我的df的第一行 pandas

如何在同一Geopandas数据帧中合并相交几何图形 pandas

Pandas 对于任何用例，在数据帧上迭代时，iTerrow是否比itertuples更快？ pandas dataframe

Pandas 迭代检查列名是否等于另一列'；s值 pandas loops

Pandas 查找并替换熊猫中的循环 pandas

Pandas 如何使不同的列在HoloView/hvplot中呈现为不同的颜色？ pandas

Pandas 停止将日期时间和时间戳数据的时间序列绘制为秒 pandas

如何使用AWS KMS加密Pandas/Spark数据帧中的列 pandas encryption pyspark

Pandas 熊猫数据框中的区域高程分布直方图，python pandas matplotlib

Pandas 在数据框中打印数据 pandas

Pandas 通过基于另一列的唯一元素对不同列执行groupbys来折叠数据帧 pandas dataframe

在Pandas中调用自定义函数 pandas

[python]相关推荐

Tags

Web Deep Learning Autohotkey Apache2 Linq To Sql Redirect Drupal 6 Phpstorm Curl Apache Flink Qt4 Smalltalk Gitlab Docker Compose Sdk Computer Science Firefox Addon Marklogic Xamarin.ios Jestjs Groovy Google Chrome Kendo Ui Content Management System Cypress Xna Wxpython Formatting Debian Filesystems Cakephp Zsh Webrtc Netbeans Highcharts Coding Style Hazelcast Unity3d Sequelize.js C Oracle Video Streaming Xamarin.android Phantomjs Windows 8 Sql Server Spring Cloud Ecmascript 6 Ant Corda Plone Functional Programming Odoo Autodesk Forge Version Control Electron Jasper Reports Google Cloud Platform Com Grid Joomla Optimization Leaflet Azure Devops Sql Wolfram Mathematica Inheritance Spring Azure Sql Database Azure Functions Maven 2 Opencv Hbase Generics Artifactory Fortran Xslt Ionic Framework Computer Vision Lotus Notes Gulp Udp File Azure Service Fabric Firebase Outlook Memory Leaks Login Dotnetnuke Cassandra Youtube Google Visualization Flask Chef Infra Antlr Tsql Continuous Integration Sublimetext2 Jpa Deployment Coq Influxdb Stored Procedures Liferay Protocol Buffers Scroll Google App Maker Android Node.js Big O Django Rest Framework Open Source Tridion Fonts Time Complexity Laravel 5 Rxjs Cron Airflow Amazon Redshift Debugging Error Handling Xpages Google Chrome Devtools Types Salesforce Asp Classic Asp.net Mvc 3 Laravel 4 Activemq Python 3.x Hyperledger Fabric Amazon Web Services Prometheus Ssis Responsive Design Sugarcrm Gmail Jetty Twitter Bootstrap 3 Apache Pig Eclipse Here Api Weblogic Module Symfony Stanford Nlp Mapping Floating Point Ms Access Flutter Blockchain Triggers Nhibernate Usb Api Reference Neural Network Snmp Parallel Processing Rss Polymer Algorithm Xmpp Drupal Sphinx Ubuntu Single Sign On Multithreading Monitoring Serial Port Apache Nifi Gdb Frameworks Speech Recognition Arrays Couchbase Orchardcms Alfresco Templates Iframe Parsing Encoding Sprite Kit Django Models Animation Office Js Dom Quickbooks Google Chrome Extension Libgdx Hadoop Lisp Dictionary Google Cloud Firestore Email Ipad Itext Spring Mvc Discord Active Directory

Copyright © 2024. All Rights Reserved by - Fatal编程技术网