Amazon s3 在s3 pyspark作业中创建单个拼花地板文件_Amazon S3_Pyspark_Parquet - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/amazon-s3/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Amazon s3 在s3 pyspark作业中创建单个拼花地板文件_Amazon S3_Pyspark_Parquet - Fatal编程技术网

Amazon s3 在s3 pyspark作业中创建单个拼花地板文件

amazon-s3 pyspark

Amazon s3 在s3 pyspark作业中创建单个拼花地板文件,amazon-s3,pyspark,parquet,Amazon S3,Pyspark,Parquet,我已经编写了一个pyspark程序，从cassandra读取数据并写入AWSS3。在写入s3之前，我必须进行重新分区（1）或合并（1），因为这会创建一个文件，否则会在s3中创建多个拼花文件。使用重新分区（1）或合并（1）有性能问题，我觉得创建一个大分区对于大数据来说不是一个好的选择。有什么方法可以在s3中创建一个文件，但不会影响性能？coalesce（1）或重新分区（1）会将所有数据放在一个分区上（使用重新分区时，与coalesce相比，使用重新分区时会有一个洗牌步骤）。在这种情况下，只有一

我已经编写了一个pyspark程序，从cassandra读取数据并写入AWSS3。在写入s3之前，我必须进行重新分区（1）或合并（1），因为这会创建一个文件，否则会在s3中创建多个拼花文件。使用重新分区（1）或合并（1）有性能问题，我觉得创建一个大分区对于大数据来说不是一个好的选择。有什么方法可以在s3中创建一个文件，但不会影响性能？

coalesce（1）

或

重新分区（1）

会将所有数据放在一个分区上（使用

重新分区时，与coalesce
相比，使用重新分区时会有一个洗牌步骤）。在这种情况下，只有一个工作人员需要写入您的所有数据，这就是您出现性能问题的原因—您已经解决了
这是使用Spark在S3上编写1个文件的唯一方法。目前，没有其他方法可以使用just Spark
使用Python（或Scala），您可以做一些其他事情。例如，您使用spark编写所有文件，而不更改分区数，然后：

您可以使用python获取文件
将文件连接为一个
你可以在S3上上传一个文件

它适用于CSV，而不适用于非顺序文件类型。
如果您只需要一个输出文件，则可以使用coalesce（1），另一方面，如果您希望最终得到n个大小相同的零件文件，最好是您的文件，则可以使用重新分区（n）磁盘中的输出大小应在128MB到1GB之间，以便spark在下次读取时有效地处理它们。




[pyspark]相关文章推荐



                                                        
Pyspark Pypark使用键计算值的发生率
pyspark 
Pyspark reduce中的意外错误
pyspark 
Pyspark：收集给定数据帧列中的所有键
pyspark 
如何在PySpark Dataframe show中设置显示精度
pyspark 
Pyspark 了解dstream.saveAsTextFiles（）行为
pyspark 
将嵌套列表转换为数据帧：Pyspark
pyspark 
Pyspark Spark：如何将多行转换为具有多列的单行？
pyspark 
将df.show（）的内容保存为pyspark中的字符串
pyspark 
PySpark：合并数据帧，其中一个值（来自第一个数据帧）位于其他两个值（来自第二个数据帧）之间
pyspark 
Pyspark 在固定另一列中的值时，查找数据帧中一列的所有可能组合
pyspark 
pyspark生成特定列的行哈希，并将其添加为新列
pyspark 
如何使用pyspark在jupyter笔记本中引用deltalake表
pysparkjupyter-notebook 
Pyspark 对列列表应用条件的数据帧筛选
pyspark 
Pyspark 如何在EMR笔记本中安装.jar依赖项？
pysparkjupyter-notebookdependencies 
无法在pyspark中导入pyarrow
pyspark 
Pyspark 将大型表从Oracle导入HDFS时出错：'；org.apache.spark.shuffle.FetchFailedException:读取错误或源代码被截断'；
pysparkhive 
Pyspark dataframe：从混合类型列中删除decimal
pyspark 
                                       





随机文章推荐



                                                        
Reporting services Reporting Services—确定矩阵中显示的列数
reporting-services 
Reporting services 在SQL Server Reporting Services中，如何在每个组之后划线？
reporting-services 
Reporting services SSRS中动态查询的替代方案
reporting-servicesssrs-2008 
Reporting services 如何获取运行报表的用户的身份？
reporting-servicesdynamics-crmdynamics-crm-2011 
Reporting services sql查询以获取仅为当前月份运行的计划报告
reporting-services 
Reporting services 向SSRS 2008中的参数控件添加样式
reporting-servicesssrs-2008 
Reporting services SSRS报告突然不起作用
reporting-services 
Reporting services 是否更改下拉参数框的宽度？SSRS 2008 R2
reporting-services 
Reporting services 保持表格和子报表在同一页上
reporting-servicesssrs-2008 
Reporting services SSR显示总值的百分比
reporting-services 
Reporting services 每月报告的SSRS每日订阅
reporting-services 
Reporting services SSRS图表轴
reporting-servicescharts 
Reporting services 在Tablix SSRS 2008中添加分组
reporting-services 
Reporting services SSRS在田间的表达
reporting-services 
Reporting services SSRS箭头指示器
reporting-services 
Reporting services SQL Server SSRS报告：在堆叠柱状图中为零值显示null
reporting-services 
Reporting services SSRS:Nvarchar值未显示在表中
reporting-services 
Reporting services SSRS按多个字段和分组分组
reporting-services 
Reporting services 获得；超出最大请求长度错误“；在SSRS/BI报告中
reporting-servicespowerbi 
Reporting services SSRS-在文本框中串联多个参数值
reporting-services


                                        

                                        
                                        


                                                
                                                        [amazon s3]相关推荐
                                                        
                                                        
                                                

                                                
                                                        Tags
                                                        
Jira
Https
Swing
Processing
Heroku
Jenkins
Jwt
Swift3
Android Ndk
Docker Compose
Ignite
Spring Batch
Smtp
Silverlight
Stream
Gtk
Unity3d
Hybris
Javafx
.net 4.0
Mpi
Openssl
Rss
Search
Kdb
Xaml
Postgresql
Ibm Midrange
Ftp
Build
Netlogo
Ip
Qml
Cors
Udp
Visual Studio 2013
Angular6
Office365
Windows 7
Openstack
Camera
Discord.js
Php
Objective C
Jpa
Intellij Idea
Coding Style
C
String
Ios5
F#
Android Layout
Video
Teamcity
Artificial Intelligence
Cakephp
Playframework 2.0
Twitter Bootstrap 3
For Loop
Amazon Redshift
Browser
Xquery
Email
Installation
Virtual Machine
Webrtc
Passwords
Html
.net Core
Nativescript
Typo3
Android
Coldfusion
Android Fragments
Quickbooks
Notifications
Java
Ipython
Jersey
Maven
Prolog
Dns
Razor
Maps
Mediawiki
Orientdb
Windows Phone
Activerecord
Selenium
Antlr
Drupal
Serialization
Dynamics Crm
Keras
Content Management System
Formatting
Sphinx
Sqlite
Odoo
Network Programming
Awk
Pip
Calendar
Curl
Soap
Time Complexity
Wicket
Playframework
Grid
Asp Classic
Tfs
Parsing
Sip
Hyperledger Fabric
Sqlalchemy
Nsis
Lotus Notes
Acumatica
Model View Controller
Encryption
Makefile
Raspberry Pi
Iis 7
Listview
Hash
Flutter
Apache Spark
Routes
Usb
Stored Procedures
Jestjs
Git
Robotframework
Filesystems
Mfc
Cryptography
Django Models
Visual Studio 2010
Qt
Canvas
Dask
Uitableview
Ffmpeg
Actions On Google
Bootstrap 4
Python
Ruby On Rails
Xmpp
Ms Access
Mapping
Deployment
Lambda
Nservicebus
Magento2
Glassfish
Binding
Reflection
Nginx
Plone
Scala
Sprite Kit
Process
Zsh
Templates
Outlook
Here Api
Netbeans
Sencha Touch
Discord.py
Tinymce
Debian
Types
Activemq
Django
Ant
Shiny
Azure Sql Database
Spring
Doctrine Orm
Amazon Cloudformation
Jetty
Verilog
Sorting
Data Binding
Database Design
Markdown
Google Apps Script
Javascript
Jquery Mobile
Dojo
Date
Actionscript 3
Yaml
Binary
Apache Flex
Gridview
Time
Typescript
Cloud Foundry
Pandas
Xampp


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网