Spark读取多个CSV文件，每个文件一个分区_Csv_Apache Spark_Apache Spark Sql - Fatal编程技术网

Spark读取多个CSV文件，每个文件一个分区

csv apache-spark

Spark读取多个CSV文件，每个文件一个分区,csv,apache-spark,apache-spark-sql,Csv,Apache Spark,Apache Spark Sql,假设我在同一个目录中有多个CSV文件，这些文件都共享相同的模式 /tmp/data/myfile1.csv、/tmp/data/myfile2.csv、/tmp/data.myfile3.csv、/tmp/datamyfile4.csv 我希望将这些文件读入Spark数据帧或RDD，并且希望每个文件都是数据帧的一部分。我怎样才能做到这一点？我可以想到两个选择： 1）使用输入文件名不要试图直接控制分区，而是将输入文件的名称添加到数据帧中，并将其用于需要执行的任何分组/聚合操作。这可能是您最好的选

假设我在同一个目录中有多个CSV文件，这些文件都共享相同的模式

/tmp/data/myfile1.csv、/tmp/data/myfile2.csv、/tmp/data.myfile3.csv、/tmp/datamyfile4.csv

我希望将这些文件读入Spark数据帧或RDD，并且希望每个文件都是数据帧的一部分。我怎样才能做到这一点？

我可以想到两个选择：

1）使用输入文件名
不要试图直接控制分区，而是将输入文件的名称添加到数据帧中，并将其用于需要执行的任何分组/聚合操作。这可能是您最好的选择，因为它更符合spark的并行处理意图，您可以告诉它要做什么，并让它知道如何做。您可以使用如下代码执行此操作：
SQL:
或Python：

from pyspark.sql.functions import input_file_name newDf = df.withColumn("filename", input_file_name())
2）Gzip您的CSV文件

Gzip不是可拆分的压缩格式。这意味着加载Gzip文件时，每个文件都将是它自己的分区。
有没有办法将每个CSV文件分别读取到分区中？在我的用例中，我想利用这一点，为每个分区生成一个行号，因为在我的输入CSV文件中没有排序列。
from pyspark.sql.functions import input_file_name newDf = df.withColumn("filename", input_file_name())

[apache spark]相关文章推荐

Apache spark 当我尝试将RDD输出到HDFS时，为什么saveAsTextFile挂起？ apache-spark

Apache spark 如何在ApacheSpark（PySpark 1.4.1）中可视化/绘制决策树？ apache-spark plot

Apache spark 链接数据帧函数调用 apache-spark

Apache spark 将模型分数应用于Spark DataFrame-Python apache-spark machine-learning pyspark

Apache spark 在chronos中运行spark submit apache-spark pyspark

Apache spark 用Python触发红移 apache-spark amazon-redshift

Apache spark 重启spark流媒体应用程序的最佳方式是什么？ apache-spark

Apache spark Spark:rdd.countApprox（）与rdd.count（）的比较 apache-spark

Apache spark 火花性能优化 apache-spark

Apache spark 如果只有一个map reduce作业，map reduce是否提供与spark相同的性能？ apache-spark mapreduce

Apache spark 在Beam Spark runner中注册Kryo序列化的自定义类 apache-spark

Apache spark 错误TransportClientFactory:启动客户端时发生异常 apache-spark pyspark

Apache spark SnappyData-snappy作业-无法运行jar文件 apache-spark

Apache spark pyspark数据帧中的字符串到数组转换句柄 apache-spark pyspark

Apache spark pysaprk saveAsTextFile写入多个文件，但数据仅全部写入一个文件 apache-spark pyspark

Apache spark Databricks Spark CREATE TABLE永远需要100万个小XML文件 apache-spark

Apache spark 找不到解释器 apache-spark pyspark

Apache spark Pyspark：将月份级记录转换为基于单个列的季度级记录 apache-spark pyspark

Apache spark var hFile=sc.textFile（"；hdfs://localhost:9000/ex1/cen.csv"；）输入路径不存在错误 apache-spark hadoop

Apache spark 基于密集秩减去两行的列值 apache-spark pyspark

随机文章推荐

Twitter bootstrap 3 引导3多个导航栏菜单 twitter-bootstrap-3

Twitter bootstrap 3 引导模式窗口不显示'；即使使用数据解除标记也无法关闭 twitter-bootstrap-3

Twitter bootstrap 3 Bootstrap3：如何编译和下载960px的自定义宽度？如何更新？ twitter-bootstrap-3

Twitter bootstrap 3 引导3未对齐的左边缘 twitter-bootstrap-3 html

Twitter bootstrap 3 带两个列表的引导导航栏中心 twitter-bootstrap-3

Twitter bootstrap 3 带砌体插件的引导 twitter-bootstrap-3

Twitter bootstrap 3 在我的案例中如何加载引导js文件？ twitter-bootstrap-3 gruntjs

Twitter bootstrap 3 PSD至Wordpress（基础或引导） twitter-bootstrap-3 zurb-foundation

Twitter bootstrap 3 如何防止分页条跳到右栏的顶部？ twitter-bootstrap-3 pagination asp.net-mvc-5

Twitter bootstrap 3 引导式导航栏响应怪异 twitter-bootstrap-3

Twitter bootstrap 3 如果汉堡坏了，我如何更改引导程序3以使用另一个符号/图标？ twitter-bootstrap-3

Twitter bootstrap 3 在Ubuntu中安装较少的编译器并设置引导工作流 twitter-bootstrap-3 less

Twitter bootstrap 3 如何隐藏/显示表中的列？ twitter-bootstrap-3

Twitter bootstrap 3 如何在引导表中添加水平滚动条？ twitter-bootstrap-3

Twitter bootstrap 3 Flask，带modal的bootstrap 3应用程序；逃生钥匙导致管道破裂 twitter-bootstrap-3 flask

Twitter bootstrap 3 mp4视频侧面的黑线-iPhone twitter-bootstrap-3

Twitter bootstrap 3 按钮是否可以用于引导下拉列表而不是锚定 twitter-bootstrap-3

Twitter bootstrap 3 boostrapvalidator文本区域验证始终为绿色 twitter-bootstrap-3

Twitter bootstrap 3 引导表导出：图标未显示 twitter-bootstrap-3

Twitter bootstrap 3 使用引导将列设为右填充和左填充0 twitter-bootstrap-3

[csv]相关推荐

Groovy分割CSV
Csv Groovy

Csv Python中字符串集的一个字符更改
Csv Python 2.7

如何在配置单元中将查询输出导出为csv
Csv Hadoop Hive

Csv 如何将被拒绝的行重定向到另一个文件？
Csv Vbscript

我的CSV文件的列名是yyyy格式的年份。如何使用“引用”引用这些列&引用；d.columnName中的运算符？
Csv D3.js

开始使用ServiceStack.Text CSV
Csv

使用批处理文件并排合并多个csv文件
Csv Batch File Merge

在CSV中保存JMeter响应
Csv Jmeter

Csv 通过Apache Spark从AWS S3加载数据
Csv Amazon Web Services Amazon S3 Apache Spark

neo4j导入工具/csv文件
Csv Emacs

无法从.csv文件导入发票数据
Csv Openerp

Csv awk删除字段（如果其他列匹配）
Csv Vim Awk

Csv 如何为谷歌日历准备ics文件
Csv Calendar Google Calendar Api

Csv 如何使用awk从文件中删除引号
Csv Awk

无法使用D3从.csv文件读取数据
Csv D3.js

Csv 使用SQOOP进行数据摄取
Csv

GoCSV：将2个csv列连接到单个结构成员中
Csv Go

CSV文件处理-SAS
Csv Import Sas

Csv 如何匿名化来自多个不同方面的数据库以获得聚合结果
Csv Cryptography

无法将CSV文件加载到Neo4j中
Csv Neo4j

Neo4j CSV导入数据类型错误
Csv Neo4j

使用批处理在csv中自动求和列
Csv Batch File

Csv 在Neo4j中更新数据
Csv Import Neo4j

NiFi使用MergeRecord合并CSV文件
Csv Apache Nifi

如何将csv数据加载到salesforce？
Csv Salesforce

使用Ansible更新csv文件
Csv Ansible

Csv jq输出中的unescape反斜杠
Csv

从csv文件创建包含3列的txt文件
Csv Unix

Csv 匹配模式并创建新文件
Csv Awk Grep

Csv 使用awk获取正确的列并定义要使用的分隔符和分隔符？
Csv Awk Grep

Tags

Openerp Datetime Testng Anaconda Cron Mips Video Responsive Design Import Apache Nativescript Gruntjs Nunit Testing Seo Dependencies Kernel Calendar Oracle11g Telegram Xpath Mysql Netlogo Xmpp Air Powerbi Talend Swiftui Redis Resharper Sqlite Ada Nlp Recursion Phpstorm Lucene Phantomjs Html5 Canvas D Opencv Domain Driven Design Rally Coding Style Ftp Junit Statistics Google Sheets Nginx Facebook Google Bigquery C++ Cli Project Management Ffmpeg Amazon S3 Postgresql Perforce Nestjs Grep Compiler Construction Entity Framework Core Netbeans Url Rewriting Java 8 Server Rxjs Winapi C++ Apache Flink Hazelcast Matplotlib Zend Framework2 Cmd Vector Phpmyadmin Instagram Antlr List Cuda Compiler Errors Subsonic Bots Log4net Wolfram Mathematica Xslt Julia Ssas Websphere Cocoa Jira Internationalization Ionic2 Sublimetext2 Command Line Angularjs Continuous Integration Antlr4 Security Scikit Learn Apache Nifi Robotframework Scheme Uwp Gnuplot Meteor Spring Batch Documentation Magento Kentico Sugarcrm Qt Raspberry Pi Algorithm Canvas Windows Services Awk Actionscript 3 Mercurial Ip Keras Asp.net Core Sprite Kit Parse Platform Pagination Url Svn Amp Html Kendo Ui Version Control Email Orchardcms Express Sml Jsf 2 Checkbox Xsd Sockets Rss Couchdb Object Batch File Sails.js Machine Learning R Highcharts Ruby On Rails 4 Dart Random Karate Spring Mvc Mod Rewrite Netty Gstreamer Xml Wpf Ember.js Appium Apache Kafka Pointers Tcl Google Analytics C# 3.0 Ipad Flask Joomla Cakephp Flash Amazon Web Services Google Calendar Api Asp.net Mvc 4 Join Hbase Ios5 Formatting Terminal Windows Angular Material Xpages Mapbox Marklogic Composer Php Razor Google Api Localization Uiview Webrtc Orientdb Merge Apache Spark Automation Swagger Silverstripe Redirect Audio Visual Studio 2015 Mobile Rabbitmq Scroll Types Apache2 Struts2 Json

Copyright © 2024. All Rights Reserved by - Fatal编程技术网