Scala 使用spark将大文件拆分为小文件并保存在不同路径中_Scala_Apache Spark - Fatal编程技术网

Scala 使用spark将大文件拆分为小文件并保存在不同路径中

scala apache-spark

Scala 使用spark将大文件拆分为小文件并保存在不同路径中,scala,apache-spark,Scala,Apache Spark,如何将大文件/RDD/DF拆分为小文件并保存到不同路径例如：如果有一个文件在文本文件中包含用户名（单列），并希望将其拆分为N个文件，然后将这N个文件写入不同的目录 val x=20 val namesRDD=sc.textfile("readPath") val N = namesRDD.count/x 如何将namesRDD拆分为N个文件并将其写入某个“savepath/N/”—即第一个文件写入“savepath/1/”，第二个文件写入“savepath/2/”，依此类推。使用repart

如何将大文件/RDD/DF拆分为小文件并保存到不同路径

例如：如果有一个文件在文本文件中包含用户名（单列），并希望将其拆分为N个文件，然后将这N个文件写入不同的目录

val x=20
val namesRDD=sc.textfile("readPath")
val N = namesRDD.count/x

如何将namesRDD拆分为N个文件并将其写入某个“savepath/N/”—即第一个文件写入“savepath/1/”，第二个文件写入“savepath/2/”，依此类推。

使用

repartitionByRange

可以以这种方式拆分数据

例如：

df.repartitionByRange($"region").write.csv("data/regions")

这将为数据中显示的每个

区域创建一个零件文件。如果您有10个区域，您将有10个不同的零件-
文件
如果要指定自己的名称，则必须使用foreachPartition
应用自己的函数来保存文件
df.repartitionByRange($"region")
  .foreachPartition(region => {
     // custom implementation
  })

使用重新分区将文件/df拆分为N个部分（如果没有列可按range进行重新分区并希望随机拆分）
然后读取这些分区（在分区Df上执行任何操作）
for（我的repartitionByRange是否也可以使用Pyspark？我在2.3 Spark版本中找不到任何方法
df.repartition(N)
  .write.text(storePath)

  for (i <- 0 until N) {
    val parts = f"${i}%04d"
    val splitPath = s"${path}/part-0${partNumber}-*"
    //read data from the `splitPath`
  }




[apache spark]相关文章推荐



                                                        
Apache spark Stanford NLP的Spark分区问题
apache-sparknlpstanford-nlp 
Apache spark 描述spark/show嵌套结构中的扩展表等效项
apache-sparkpyspark 
Apache spark HiveContext:Can'；无法通过JDBC客户端查看临时表
apache-sparkhive 
Apache spark 在apachespark中创建bucket
apache-sparkpyspark 
Apache spark 从源代码生成Apache Zeppelin 0.7在Zeppelin服务器上失败
apache-sparkdocker 
Apache spark 在if语句中创建数据帧
apache-spark 
Apache spark 如何使用支持通用ID类型（int和Long）的Spark ML ALS的实现
apache-spark 
Apache spark 在客户端模式下运行应用程序时，究竟在何处触发读取本地文件
apache-spark 
Apache spark 如何在SparkMetrics中按名称空间过滤输出中的度量？
apache-sparkproperties 
Apache spark 如何在Spark SQL中使用snappy压缩将数据写入配置单元表
apache-spark 
Apache spark Kafka使用Pyspark错误触发流媒体
apache-sparkpysparkapache-kafkajupyter-notebook 
Apache spark 读取流时使用withColumn（）时出现问题
apache-sparkpyspark 
Apache spark Spark-如何仅读取最新（最高）路径？
apache-spark 
Apache spark spark检查点：错误java.io.FileNotFoundException
apache-spark 
Apache spark 是否可以在spark中插入临时表？
apache-spark 
Apache spark 从spark读取gzip拼花文件
apache-spark 
Apache spark 编译错误foreachBatch不是DataStreamWriter的成员，即使它在spark shell上工作
apache-spark 
Apache spark Hive3/Spark 2.3加载覆盖动态分区
apache-sparkpysparkhive 
Apache spark 在mesos Spark Cluster上的框架之间共享资源
apache-spark 
Apache spark 从ORC到配置单元列的自定义列映射
apache-sparkhive 
                                       





随机文章推荐



                                                        
Tomcat 挂毯&x2B；JaxB冲突
tomcatjaxb 
Tomcat cobertura的副作用
tomcatlogging 
Tomcat 远程访问VirtualBox:Can'；无法通过远程桌面连接
tomcatvirtualbox 
tomcat可伸缩性ejb
tomcat 
Tomcat 在应用服务器上运行maven项目
tomcatweb-applicationsmaven 
使用CAS和LDAP的Tomcat j_安全错误
tomcat 
Tomcat 提供静态内容的玻璃鱼
tomcatservletsglassfish 
以编程方式启用GZIP Tomcat 7（嵌入式）
tomcat 
Railo 4/Tomcat/IIS7.5/Coldfusion/CFX文件上传不工作
tomcatcoldfusion 
如何在没有ClassNotFound异常的情况下在ApacheTomcat中配置Impala/Hive2 JDBC驱动程序
tomcathadoopjdbchive 
Tomcat Grails war无法部署java.lang.NoClassDefFoundError，并且SLF4J:Class路径包含多个SLF4J绑定
tomcatgrailsgroovy 
如何在tomcat上进行双向身份验证？
tomcatopenssl 
从外部IP请求Dspace文件时，Apache Tomcat超时
tomcatiis 
Tomcat-仅在某些页面上要求客户端证书，但在所有页面上要求SSL
tomcatssl 
Tomcat不会从具有自签名证书的服务器下载文件
tomcatssl 
apache tomcat的Kerberos SSO异常
tomcat 
我们可以在Tomcat的webapp目录中的相应位置配置要部署的文件夹吗？
tomcatweb-applicationsant 
tomcat连接池未关闭连接？
tomcat 
Tomcat日志模式%b与%b
tomcatlogging 
Tomcat 在systemd services中添加带通配符的读写路径
tomcat


                                        

                                        
                                        


                                                
                                                        [scala]相关推荐
                                                        
Scala lift import net.liftweb返回一个错误"；未找到：净价值“；
									Scala
							 									Import
							 
Scala 选择随机端口上的远程参与者
									Scala
							 									Networking
							 
使用Scala的Datastax Cassandra驱动程序
									Scala
							 
Scala:调用方法时参数数目错误异常
									Scala
							 									Reflection
							 									Methods
							 
Scala 规格2&x27；s验收规范可'；t与'；范围'；
									Scala
							 
Scala 为什么Play拒绝表单报告；无法解析使用此签名应用的方法：缺少参数“；？
									Scala
							 									Playframework
							 
Scala 子参与者终止验证
									Scala
							 									Akka
							 
使用相同类型的参数进行无Scala类型化
									Scala
							 
java.lang.ClassCastException:scala.Long$不能强制转换为java.lang.Long
									Scala
							 
Scala 如何计算烫伤中typedpipe中行中列的频率？
									Scala
							 									Hadoop
							 									Mapreduce
							 
获取scala中的jar系统路径
									Scala
							 
Scala Spark RDD：对一列求和而不创建SQL数据帧
									Scala
							 									Apache Spark
							 
如何在Scala/Spark中的多个元素上实现条件模式匹配？
									Scala
							 									Apache Spark
							 
Scala TreeNode子类如何/在何处实现与产品相关的方法？
									Scala
							 									Apache Spark
							 
Scala 演员图表工具
									Scala
							 									Sbt
							 									Akka
							 
为什么正则表达式模式匹配有时在Scala中不起作用
									Scala
							 
Scala Lightbend示例语法错误
									Scala
							 									Intellij Idea
							 
Scala 是否'；位集'；存储位还是整数？
									Scala
							 
scala保留关键字匹配
									Scala
							 
开发连接到azure CosmosDB的scala spark应用程序
									Scala
							 									Azure
							 									Apache Spark
							 									Azure Cosmosdb
							 
Scala 如何对Spark中groupByKey生成的键进行排序
									Scala
							 									Apache Spark
							 
Scala Spark-如何在数据集中不存在父元素的已定义继承人权限上进行汇总
									Scala
							 									Apache Spark
							 
如何在Scala上编写带限制的过滤器？
									Scala
							 									Filter
							 									Functional Programming
							 
如何在scalafmt中更改选项卡宽度
									Scala
							 
Scalajs的ScalaTest：不执行任何测试
									Scala
							 
在Scala中调用ResultSet.getMetaData会导致java.lang.SecurityException
									Scala
							 									Jdbc
							 
如何使用scala替换txt文件中的特定文本
									Scala
							 									File
							 									Text
							 
Scala 远程Spark作业出错：java.lang.IllegalAccessError:class org.apache.hadoop.hdfs.web.HftpFileSystem
问题
									Scala
							 									Apache Spark
							 									Hadoop
							 
Scala 使用saveToEs将Spark数据帧中的数据保存到Elasticsearch时，如何正确解析时间戳？
									Scala
							 									Apache Spark
							 
Scala 如何定义处理参数化类型数据集的方法？
									Scala
							 									Apache Spark
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Dynamic
Cordova
Google Colaboratory
Parse Platform
Url
Python 2.7
Xmpp
Pytorch
Editor
Entity Framework Core
Sublimetext3
Omnet++
Botframework
Gruntjs
Properties
Macros
C#
Couchdb
Oracle10g
Tree
Sphinx
Soap
Tkinter
Processing
Puppet
Sqlalchemy
Statistics
Octave
Numpy
Networking
Google Analytics
Server
Oracle Apex
Localization
Join
Anaconda
Google Compute Engine
Windows Installer
Compression
Web Scraping
Wicket
Latex
Jupyter Notebook
Input
Yaml
Maven 2
Browser
Solr
Database
Kibana
Mod Rewrite
Next.js
List
System Verilog
Pentaho
Ssas
Qt
Openssl
Actionscript 3
Hyperlink
Asp.net Mvc 4
Smtp
Sequelize.js
Sublimetext2
Embedded
Elixir
String
Ethereum
Ada
Stata
Drop Down Menu
Talend
Azure Service Fabric
Seo
D3.js
Airflow
Webgl
Cocos2d X
Computer Vision
.htaccess
Gremlin
Msbuild
Batch File
Math
Playframework 2.0
Ravendb
Google Drive Api
Azure Active Directory
Proxy
Android
Gmail
Webpack
Influxdb
Sdk
Time
Sonarqube
Boost
Encryption
Tinymce
Rss
Doctrine
Openid
Tabs
Sails.js
Install4j
Inno Setup
Coffeescript
Vba
Windows Phone
Hazelcast
Model View Controller
Sml
Search
Swing
Ruby On Rails 3
Computer Science
Asp.net Mvc 3
Vmware
Geometry
Sas
Indexing
Nunit
Outlook
Snmp
Mongodb
Reflection
Ssl
Lotus Notes
Typescript
Mobile
Plone
Playframework
Aws Lambda
Asp.net Mvc 2
Ssh
Zsh
Stripe Payments
Jsf
Amazon Ec2
Django Rest Framework
Akka
Select
Kendo Ui
Continuous Integration
Postgresql
Animation
Opencv
Spring Integration
Error Handling
Openlayers 3
Firefox
Clearcase
F#
Session
Kentico
Google Chrome Extension
Data Structures
Audio
Chef Infra
Windows 10
Docusignapi
Sed
Uwp
Clang
Discord.py
Windbg
Jvm
.net Core
Ipython
Oop
Ibm Mq
Ibm Mobilefirst
Xamarin.ios
Redux
Visual Studio 2010
Keycloak
Dynamics Crm 2011
Mariadb
Jekyll
Graph
Filter
Flutter
Internet Explorer 8
Facebook Graph Api
Database Design
Twitter
Dependencies
Prometheus
Rust
Apache Flink
Templates
Cobol
Kubernetes
Vector
Amazon Redshift
Google Maps
Xslt
Polymer
Operating System
Command Line
Orientdb


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网