Python 从dask数据框保存多个拼花文件_Python_Dask_Parquet - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/348.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 从dask数据框保存多个拼花文件_Python_Dask_Parquet - Fatal编程技术网

Python 从dask数据框保存多个拼花文件

python dask

Python 从dask数据框保存多个拼花文件,python,dask,parquet,Python,Dask,Parquet,我想从一个Dask数据框中保存多个拼花文件，一个拼花文件用于特定列中的所有唯一值。因此，拼花地板文件的数量应等于该列中唯一值的数量例如，给定以下数据帧，我想保存四个拼花地板文件，因为列“a”中有四个唯一的值我不确定在Dask数据帧上循环是否是扩大规模的正确方法（可能unique（）.compute（）会比我的内存大）。此外，我不确定是否必须事先订购如果你有一些建议如何正确地实施这一点或事情要考虑，我会很高兴这不完全是您想要的，但是可以使用的选项上的分区 ddf.to\u拼花地板（“fil

我想从一个Dask数据框中保存多个拼花文件，一个拼花文件用于特定列中的所有唯一值。因此，拼花地板文件的数量应等于该列中唯一值的数量

例如，给定以下数据帧，我想保存四个拼花地板文件，因为列“a”中有四个唯一的值

我不确定在Dask数据帧上循环是否是扩大规模的正确方法（可能

unique（）.compute（）

会比我的内存大）。此外，我不确定是否必须事先订购

如果你有一些建议如何正确地实施这一点或事情要考虑，我会很高兴

这不完全是您想要的，但是可以使用

的选项上的分区
ddf.to\u拼花地板（“file\u parquet”，schema=“推断”，partition\u on=“A”）

请注意，这并不能保证每个分区都有一个您想要的文件，相反，在file\u parquet
中会有子文件夹，其中可能包含多个文件
import pandas as pd
from dask import dataframe as dd

df = pd.DataFrame(
    {
        "A": [1, 1, 2, 3, 1, 3, 6, 6],
        "B": ["A", "L", "C", "D", "A", "B", "A", "B"],
        "C": [1, 2, 3, 4, 5, 6, 7, 8],
    }
)
ddf = dd.from_pandas(df, npartitions=2)

for i in ddf["A"].unique().compute():
    ddf.loc[ddf["A"] == i].to_parquet(f"file_{i}.parquet", schema="infer")




[dask]相关文章推荐



                                                        
KilledWorker异常在Dask中意味着什么？
dask 
dask并行化可以封装在一个类中吗？
dask 
解读daskui
dask 
dask_lightgbm使用的完整训练集？
dask 
                                       





随机文章推荐



                                                        
如何在Kotlin中将Long转换为Int？
kotlin 
如何引用密封在Kotlin中的构造函数？
kotlin 
Java lambda类型推断在Kotlin中未按预期工作
kotlin 
Kotlin 科特林'；s交叉内联关键字
kotlin 
Kotlin警告：类型为的条件分支结果。。。含蓄性是否为任何类型？
kotlin 
kotlin自定义从mutableList获取不可变列表
kotlin 
返回类型不匹配的Kotlin一行程序
kotlin 
Kotlin-为SpannableStringBuilder创建自定义ext函数，在声明start、end和amp；时不使用重复参数；固定盘的flasg（）
kotlin 
具有请求队列的Kotlin服务
kotlinarchitecture 
Kotlin 如何在Quarkus中注册Jackson模块？
kotlin 
可为空的WeakHashMap迭代期间的Kotlin空检查
//我知道由于缺乏平等保障，这里的活动并不理想；请忽略这部分
私有val-mActivities:WeakHashMap=WeakHashMap（）
....
mActivities.put（null，null）
mActivities.filter{（backbackbackentry:Activity？->
//问题：这不会显示任何错误，但在运行时失败
Logger.warn（“$TAG-Activity${backStackEntry.lo
kotlin 
Kotlin：泛型强制转换函数参数
kotlin 
Kotlin协同程序如何取消异步等待（）
kotlin 
Kotlin 有没有办法在Ktor中热加载静态文件？
kotlinintellij-idea 
Kotlin 如何在CoroutineExceptionHandler中捕获特定异常
kotlinexception 
包含'=='；标志将在Kotlin Micronaut中转换为%3D%3D
kotlin 
Kotlin 搜索对象数组
kotlin 
Kotlin 如何结束/关闭可变SharedFlow？
kotlin 
Kotlin 如何在科特林仅显示一小时？显示数据hh:mm:ss但我只想显示hh:mm:ss到hh
kotlin 
Kotlin函数作为val表达式
kotlin


                                        

                                        
                                        


                                                
                                                        [python]相关推荐
                                                        
                                                        
                                                

                                                
                                                        Tags
                                                        
Vaadin
Visual Studio 2012
Heroku
Magento2
Openstack
Websocket
Excel Formula
Youtube Api
Matlab
Mips
Akka
Linux
Fortran
Linq To Sql
Primefaces
Verilog
Amazon Web Services
Aframe
Opengl
Cuda
Operating System
Windows Store Apps
Jestjs
Jdbc
Raspberry Pi
Object
Bison
Mfc
Jsf 2
Mdx
Itext
Mpi
C
Linq
Symfony
Logstash
Menu
Vagrant
Sql Server 2008 R2
Autodesk Forge
Dynamics Crm 2011
Coffeescript
Cookies
Git
Angular6
Soap
Django
Sql
Leaflet
Tags
Smalltalk
Web Services
Umbraco
Eclipse Rcp
Sails.js
Pointers
Python
Build
Triggers
Swift3
Jhipster
Ip
Spring Mvc
Antlr4
Gridview
Function
Mule
Navigation
Dynamic
Makefile
Node.js
Unit Testing
Swift2
Binding
Push Notification
Lambda
Geometry
Plsql
Asp.net Web Api
Ssl
Boost
Eclipse
Compression
Gitlab
Xpages
Templates
Gruntjs
Protocol Buffers
Emacs
Kotlin
Checkbox
Time
Imagemagick
Caching
Sorting
Datetime
Pdf
Assembly
Google Analytics
Plugins
Wix
Vim
Xquery
Chef Infra
Sharepoint 2010
Recursion
Visual Studio Code
Serialization
Tcl
Rdf
Wcf
Youtube
Twitter
Acumatica
Windows Mobile
Asp Classic
Arangodb
Perforce
Passwords
Delphi
Oauth
Uitableview
C++ Cli
Prestashop
Ios7
Rest
Prolog
Coldfusion
Ssis
Actionscript 3
Pagination
Project Management
Windows 10
Z3
Amazon Dynamodb
Artifactory
Logging
Jqgrid
File Io
Database
Uwp
Colors
Selenium Webdriver
Apache Pig
Common Lisp
Paypal
Cmd
Gis
Shiny
Amp Html
Discord.js
Spotify
Maven 2
Haskell
Azure Sql Database
Solr
Salesforce
Jasmine
C# 3.0
Openid
Wxpython
Azure Data Factory
Kentico
Scala
Actionscript
Cloud
Plone
Amazon Cloudformation
Monitoring
Datatables
Cakephp
Codeigniter
Windows Services
Doxygen
Kdb
Jquery Plugins
Mercurial
Gmail
Openshift
Exception Handling
Ipad
Android Ndk
Google Maps Api 3
Jsp
Sbt
Search
Kendo Ui
Ibm Mobilefirst
Http
Nunit
Aurelia
Cocoa
Microsoft Graph Api
Map
Clearcase
Rxjs
Xaml
Neo4j
Vmware
Vb6
Sed


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网