Dask—获取Dask数据帧中每个分区的行长度的最快方法_Dask_Dask Distributed_Dask Delayed_Fastparquet - Fatal编程技术网

Dask—获取Dask数据帧中每个分区的行长度的最快方法

dask

Dask—获取Dask数据帧中每个分区的行长度的最快方法,dask,dask-distributed,dask-delayed,fastparquet,Dask,Dask Distributed,Dask Delayed,Fastparquet,我想得到许多数据帧中每个分区的长度。我现在得到每个分区，然后得到每个分区的索引大小。这是非常非常缓慢的。有更好的办法吗下面是我的代码的简化片段： temp_dd = dd.read_parquet(read_str, gather_statistics=False) temp_dd = dask_client.scatter(temp_dd, broadcast=True) dask_wait([temp_dd]) temp_dd = dask_client.gathe

我想得到许多数据帧中每个分区的长度。我现在得到每个分区，然后得到每个分区的索引大小。这是非常非常缓慢的。有更好的办法吗

下面是我的代码的简化片段：

   temp_dd = dd.read_parquet(read_str, gather_statistics=False)
   temp_dd = dask_client.scatter(temp_dd, broadcast=True)
   dask_wait([temp_dd])
   temp_dd = dask_client.gather(temp_dd)

   while row_batch <= max_row:
       row_batch_dd = temp_dd.get_partition(row_batch)
       row_batch_dd = row_batch_dd.dropna()    
       row_batch_dd_len = row_batch_dd.index.size  # <-- this is the current way I'm determining the length
       row_batch = row_batch + 1

temp\u dd=dd.read\u拼花地板（read\u str，gather\u statistics=False）
temp\u dd=dask\u client.scatter（temp\u dd，broadcast=True）
dask_wait（[temp_dd]）
temp\u dd=dask\u客户端聚集（temp\u dd）
而第二行的批次说明请？1。将拼花地板文件读入变量df
。2.从数据帧中删除缺失的值，df
。3.对于每个df
分区，计算len
（这就是map\u分区的作用）。然后将计算出的值返回给用户（这就是compute
正在做的事情）。在调用compute
之前，所有事情都是“懒惰”的，所以您无法完成任何工作。这是因为在正常情况下，len（df）
将给出数据帧中的行数。当您使用map\u分区时一个数据帧被传递到函数中。
df = dd.read_parquet(fn, gather_statistics=False)
df = df.dropna()
df.map_partitions(len).compute()




[xcode]相关文章推荐



                                                        
如何在Xcode中启用括号匹配？
xcode 
Xcode Can'；NST数据对象的可用内存
xcodememorymemory-leaks 
XCode调试器中的断点
xcodedebugging 
是否有在Xcode中搜索光标下的单词的快捷方式？
xcodesearch 
Xcode '；在'中嵌入对象；菜单项全部被禁用。如何启用？
xcode 
xcode4分析don'；函数具有@try@catch时不工作
xcode 
OSX Xcode-打包依赖项libmysqlclient.18.dylib
xcodemacos 
Xcode 将ObjectiveFlickr添加到项目
xcodexcode4 
Xcode 掌握细节和声音
xcodeios6 
Xcode静态库在错误文件夹中生成
xcode 
Xcode 无法在OSX Mavericks上安装命令行工具
xcodemacosterminal 
开放项目上的Xcode系统崩溃-如何重置Xcode助手编辑器？
xcode 
如何在Xcode 5.1.1中关闭索引
xcode 
Xcode 使用Swift运行Phillips Hue框架SDK
xcodeswiftsdk 
Xcode 在游戏中间交换控制方案
xcode 
Xcode 6-图像Xcassets-图像大小和设备分辨率
xcode 
Xcode-整个UI的黑色主题
xcodemacosuser-interface 
推送更改时发生Xcode 7错误
xcode 
Xcode SQLite与swift，我可以'；无法从我的表查询中获取所有元素
xcodeswiftsqlite 
如何通过配置调试修复Xcode问题生成项目运行程序的目标运行程序
xcodeflutter 
                                       





随机文章推荐



                                                        
Gruntjs 从yeoman/grunt删除组件/任务的正确方法？
gruntjs 
Gruntjs Grunt任务是否可以配置为运行单个Karma测试？
gruntjs 
Gruntjs 如何在为项目提供服务时包含文件夹

我与约曼（yo著名）一起制作了一个著名的美国项目的脚手架
我设立了一个小型工作项目
我试着用“咕噜服务”命令启动它
gruntjs 
Gruntjs 在项目中使用Grunt启动Webdriver
gruntjs 
Gruntjs 如何运行“；服务器端包括” ；用Grunt和Grunt连接？
gruntjs 
Gruntjs 如何在静态站点生成器组装中实现导航
gruntjs 
Gruntjs Grunt服务：www工作但未被c9识别
gruntjs 
Gruntjs 基于输入的Grunt更改目标
gruntjs 
Gruntjs Sails，grunt contrib watch无法使用jshint
gruntjssails.js 
Gruntjs 如何优化所有图像？
诊断
gruntjs 
Gruntjs 在grunt中复制复制的文件
gruntjssails.js 
Gruntjs Grunt-nodemon+；看
gruntjs 
Gruntjs .hbs文件和javascript
gruntjs 
Gruntjs 如何使用gulp browsersync同步所有html文件？
gruntjsgulp 
Gruntjs 如何在.GitLab-CI.yml中的GitLab CI中部署所有现代工具（Ruby、Node.js、Bower、Grunt、Jekyll）
gruntjsgitlab 
Gruntjs grunt contrib uglify不断删除console.log
gruntjs 
Gruntjs grunt contrib复制任务未复制
gruntjs


                                        

                                        
                                        


                                                
                                                        [dask]相关推荐
                                                        
dask.bag，我应该如何在同一个数据上高效地运行多个计算
									Dask
							 
使用分区打开选项运行dask to_拼花地板方法时松开柱
									Dask
							 
检查两个DASK是否相同
									Dask
							 
从CSV延迟加载dask数据帧（内部延迟）
									Dask
							 
自定义图中的Dask机会缓存
									Dask
							 
Dask调度程序退出，输出为'；死亡'；在'；ddf.persist（）'；
									Dask
							 
如何在Dask中为GroupBy添加自定义聚合函数？例如平均值、模式、中位数、第95百分位等
									Dask
							 
搜索使用dask诊断文件系统性能的代码段
									Dask
							 
如何为调度程序以外的其他区域中的dask工作进程配置GCP群集已启动
									Dask
							 
Dask JSONDECODEROR
									Dask
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Loopbackjs
Dotnetnuke
Anaconda
Ravendb
File Io
Crystal Reports
Processing
Webgl
Ms Office
Windows 10
Google Colaboratory
Devexpress
Github
Ssas
Shiny
Path
Bash
Ant
C#
Visual Studio 2013
Ibm Mq
Parse Platform
Sqlalchemy
Authentication
Composer Php
Bots
Usb
Video
Doctrine Orm
C# 4.0
Knockout.js
Azure Data Factory
Notifications
Jpa
Discord.js
Yii
Android
Nativescript
Reporting Services
Gtk
Netty
Dynamic
Combobox
Sharepoint 2007
Dataframe
Perl
Applescript
Mongodb
Url
Ip
Grep
Instagram
Validation
Google Analytics
Gulp
Input
Apache Kafka
Gruntjs
Video Streaming
Database Design
Editor
Google App Maker
Button
Apache Zookeeper
Phpunit
Open Source
Matplotlib
Google Cloud Dataflow
Typo3
Excel Formula
Proxy
Utf 8
Fortran
Shopify
Asp.net Mvc 2
Udp
Google Drive Api
Recursion
Rest
Makefile
Ethereum
Uml
Teamcity
Grails
Swift2
Ssis
Terraform
Google Chrome Devtools
Autocomplete
Gis
Stream
Curl
Wxpython
Ionic Framework
Pdf
Asterisk
Sublimetext2
Blackberry
Visual Studio 2012
Keyboard
Html5 Canvas
Groovy
Mono
Lucene
Windows 7
Soap
Clojure
Ionic2
Web Crawler
Twitter Bootstrap 3
Active Directory
Report
Azure Ad B2c
Vb.net
Math
Octave
Spring Mvc
Numpy
Time
Akka
Signalr
Performance
Ibm Mobilefirst
Angularjs
Apache
Batch File
Web
Http
Xamarin
Unity3d
Linq To Sql
Date
Plot
Character Encoding
Scroll
EmptyTag
Filter
Tensorflow
Ssl
Asp.net Mvc
Redux
Entity Framework 4
Openshift
Safari
Windows Phone
Acumatica
Entity Framework Core
View
Templates
Parsing
Mobile
Download
Reactjs
Markdown
Oauth 2.0
Ldap
Drop Down Menu
Openlayers
Actionscript 3
Ada
Racket
Database
Jupyter Notebook
Tcp
Facebook
Matrix
Winapi
Antlr
Gstreamer
Internationalization
Internet Explorer
Angular6
Entity Framework
Geolocation
Couchdb
Binary
Gnuplot
Ftp
Jasper Reports
Stanford Nlp
Moodle
Jquery Mobile
Computer Vision
Mapbox
Ubuntu
Ignite
Cucumber
Mfc
Methods
Network Programming
Concurrency
Logstash
Unicode
Telegram
Codeigniter
Twitter
Vhdl
Gitlab
Plsql
Ios8
Winforms


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网