Python 达斯克没有'；t组/与大熊猫相比，正确应用结果_Python_Pandas_Multiprocessing_Dask - Fatal编程技术网

Python 达斯克没有'；t组/与大熊猫相比，正确应用结果

python pandas dask

Python 达斯克没有'；t组/与大熊猫相比，正确应用结果,python,pandas,multiprocessing,dask,Python,Pandas,Multiprocessing,Dask,我有一个非常大的数据帧（150M行-30GB RAM）。我做了一个groupby（大约40个组），并对每个组应用一个函数。执行所有操作大约需要30分钟。以下是我使用的代码： df = df.groupby(by='date').apply(func=my_func) 由于操作不是相互依赖的，我想我应该使用Dask分别并行处理每个组所以我使用这个代码： from dask import dataframe as dd df_dask = dd.from_pandas(df_pandas,

我有一个非常大的数据帧（150M行-30GB RAM）。我做了一个groupby（大约40个组），并对每个组应用一个函数。执行所有操作大约需要30分钟。以下是我使用的代码：

df = df.groupby(by='date').apply(func=my_func)

由于操作不是相互依赖的，我想我应该使用Dask分别并行处理每个组

所以我使用这个代码：

from dask import dataframe as dd



df_dask = dd.from_pandas(df_pandas, npartitions=40)
template = pd.DataFrame(columns=['A','B','C','D','E'])
df_dask = df_dask.groupby(by='date').apply(func=my_func, meta=template)
df_dask = df_dask.compute()

但是，当我运行此操作时，根据我给出的npartitions的值，我会得到不同的结果。如果我给一个值1，它会给我相同的（正确的）结果，但是它需要的时间和熊猫一样长。如果我给它一个更高的数字，它执行得更快，但返回的行更少。我不理解nPartition和groupby之间的关系
此外，如果我尝试使用稍大一点的数据帧（40GB），Dask会耗尽内存，即使我的机器上有64GB，而pandas也可以

有什么想法吗？
Dask的DataFrameGroupBy.apply将用户提供的函数应用于每个分区：

如果您需要自定义缩减，请使用Aggregate:
这也是我的想法，但这里没有。如果我理解正确，nPartition不应该影响结果，对吗？因为这只取决于群体。在这种情况下，它改变了结果，因此我的问题是。

[pandas]相关文章推荐

Pandas 熊猫：复杂的群体和巢穴 pandas

Pandas 从除特定元素外的系列中减去一个数字 pandas

Pandas 熊猫加入内存有效吗？ pandas

Pandas 在Python中迭代比较日期 pandas datetime

Pandas DateTimeIndex和日期列之间的工作日数 pandas

Pandas Python：检查两个时间点属于哪个箱子 pandas numpy

Pandas ModuleNotFoundError:没有名为'；win32api'。。。导入tpot时文件“C:\Users\Pulkit\AppData\Local\Programs\Python36\lib\site packages\tpot\base.py”，第79行，在导入win32api ModuleNotFoundError:没有名为“win32api”的模块 pandas

Pandas 熊猫：如何根据具体值分配组号？ pandas

在pandas和python中从数据集中分离完整行和不完整行 pandas

Matplotlib：如何使用pandas plot api在散点图中绘制空圆？ pandas matplotlib

Pandas 枚举分组数据帧 pandas

Pandas 按多索引值删除数据帧行 pandas indexing

Pandas 是否在“熊猫”中的行中插入列表？ pandas

Pandas 熊猫为列中的每个唯一值绘制线（年） pandas dictionary matplotlib

Pandas groupby-聚合-groupby pandas

Pandas 根据列中的值合并数据帧 pandas dataframe merge

Pandas 列级别上每行时间戳之间的差异 pandas datetime

Pandas 如何创建自己的自定义转换器并在scikit learn中的管道中使用它们？ pandas scikit-learn

Pandas 使用dataframe和ndarray进行回归有什么区别？ pandas numpy scikit-learn

访问URL时出现错误；urlopen错误隧道连接失败“；使用pandas和matplotlib pandas matplotlib

随机文章推荐

Numpy 旋转稀疏矩阵 numpy

如何在numpy中设置二维傅里叶变换域 numpy

Numpy 利用权重处理不平衡数据 numpy import machine-learning scikit-learn

奇数大小numpy阵列发送/接收 numpy

numpy元素外积 numpy

为什么scipy.sparse.issparse（）中的numpy.zeros（）矩阵为false？ numpy

二维和三维numpy阵列之间的点积 numpy

将Spark数据帧收集到Numpy矩阵中 numpy pyspark

Numpy 获取至少有一个元素符合某些条件的切片索引 numpy

Numpy “arr[tuple（seq）]”和“arr[seq]”有什么区别？不推荐使用非元组序列进行多维索引 numpy

Numpy Python函数，用于计算对应于单个事务的每一行的余额 numpy

Numpy 函数内部的random_state=7是否比np.random.seed（7）更好？ numpy scikit-learn

Numpy 如何使用PyPI中的二进制文件（非源代码）安装pipenv？ numpy pip

Numpy 绘制插值函数等高线图：不同数据段的不匹配结果 numpy matplotlib

Numpy 如何找到；分组；或；“不平等”；数据？ numpy statistics

使用Numpy在python中移动HSV像素值 numpy colors

Numpy 如何计算多元线性回归中系数的标准误差？ numpy

“Numpy重塑”；“2D多栏”；至；二维单柱的三维模型”； numpy

Numpy 分组的加权平均值不等于groupby中的总平均值 numpy

将二维numpy数组的对角线旋转到行中 numpy

[python]相关推荐

在Python中处理非字符串文本中的反斜杠字符
Python String Encoding

Python Django：当父模型有两个外键来自同一个模型时，如何定义模型？
Python Django Django Models

如何改进我的部门计划？（简单Python）
Python

Python 使用对象列表中的特定键生成列表
Python List Dictionary

在python中以事务方式SCPing到多个服务器
Python Linux

Python 为什么我的变量不包括在subprocess.Popen中？
Python

如何在python中跟踪while循环的输入数量？
Python Random Input

Python 用字符串替换连接3个元组
Python String

Python SQLAlchemy：如何在ORM类中转换列的值
Python Sqlite Orm Sqlalchemy

Python "', " #hp_detail_sql+=“'”+时间戳[0]+“，” #hp_detail_sql+=“'”“+gmt_偏移量[0]+”）；” hp\u详细信息\u sql\u参数=（uid[0]，攻击日期时间[0]，gmt\u偏移量[0]） hp_detail_sql=''插入hp_数据_登录_detail（uid、attackDate、gmtOffset）值（？、、？）；''' 打印（hp\u详细信息\u sql）打印（攻击日期时间） cursor.execute（hp_detail_sql，h
Python Sql Server Database

Python 将列表转换为字符串的简单方法，格式仍为列表
Python String List

Python/Palm-首先从每组中选择一个项目
Python

Python 什么是类的私有名称？
Python Python 3.x

Python 如何显示弹性搜索中的所有记录。I'；我能从数据库中准确检索3条记录，弹性搜索
Python

Python 如何使用pandas仅循环文本文件中的特定列？
Python Pandas

Python 不使用类的装饰器的参数
Python Class

python中的打印语句逗号行为怪异
Python Printing

Python 属性错误：'；str'；对象没有属性'；文本'；
Python

Python 什么tensorflow分布表示分类数据列表
Python Tensorflow Machine Learning

Python Django芹菜在特定时间的定期任务
Python Django

（Python）用特定元素填充字典
Python Python 3.x Dictionary

如何在python中使用selenium定期重新检查网页
Python Selenium

Python 如何在gensim中使用cossim
Python Python 2.7

Python 从Keras模型中间进行预测
Python Tensorflow Keras Neural Network

Python 如何获取logging.LogRecord对象的格式化字符串
Python Python 2.7 Logging

如何在Python中导出Windows上的证书
Python

Python Seaborn-x-y轴上的分类变量
Python Pandas

Python 在比较期间，如何使NaN数值低于任何其他数值？
Python Pandas

尝试调用shell命令async时出现Python错误raise NotImplementedError
Python Asynchronous

我正在用Python3制作一个mp3播放器（也使用Tkinter），但我面临着一个死胡同
Python Tkinter

Tags

Here Api For Loop Socket.io Jar Exception Netsuite Networking Symfony1 C++ Forms Eclipse Plugin Linker Dynamics Crm 2011 Bootstrap 4 Gstreamer Aframe Asp.net Mvc 2 Iis Io Vb.net Monitoring Binding Excel Ios6 Stata Drools Dynamics Crm Discord.js Sockets Service Operating System Scroll Encoding Artifactory Grep Printing Nuget Scikit Learn R Glsl Chart.js Security Openssl Db2 Opengl Es Talend Polymer Redux Rxjs Pagination Uml Dependency Injection Xquery Microservices .htaccess Plone Ada Fonts Logic Java Me Google Plus Google Colaboratory Magento2 Nest Woocommerce Spring Boot Network Programming Elm Stored Procedures Opencl Ajax Sails.js If Statement Parse Platform Hbase Elixir Vaadin Servlets Tomcat Pandas Uwp Latex Raspberry Pi Asp.net Web Api Binary Gridview Linkedin Automation Scheme Tree Windows Phone 7 Clang Biztalk Neo4j Xamarin.android Asp.net Mvc 3 Oracle11g Oauth 2.0 Post Jenkins Camera Mips Mongodb Gcc Core Data Ms Office Postman Compiler Construction View Knockout.js Vue.js Unicode Deep Learning Isabelle Firefox Addon Cucumber Fortran Single Sign On Air Z3 Javascript Grafana Gremlin Embedded Dependencies Vector Vagrant Apache Zookeeper Cobol Nsis Floating Point Asp.net Core Google App Engine Inheritance Jasmine C# 4.0 Workflow Entity Framework Installation Python 2.7 Typo3 Map Log4j Umbraco Websphere Linq Documentation Graphics Wix Hybris Macos Acumatica Modelica Jquery Android Emulator Websocket Openstack Mod Rewrite Sapui5 Sharepoint 2007 Opengl Kotlin Composer Php Sonarqube Configuration Cookies Wxpython Asp.net Mvc 4 Office365 Oracle Vb6 Session Sequelize.js Amazon Redshift Debian Ecmascript 6 Snmp Twitter Bootstrap Ubuntu Hyperledger Fabric Sqlite Spring Batch Windows Gatsby Cloud Sql Server 2008 R2 Spring Security Migration Javafx 2 Text Snowflake Cloud Data Platform Command Line Firebase Wolfram Mathematica Types Magento Scrapy Sms Google Cloud Platform Hadoop Visual Studio 2015

Copyright © 2024. All Rights Reserved by - Fatal编程技术网