Apache spark 转换标题和列数据，以“"|&引用；在pyspark中，使用特定的标题名称和数据行将其分成单独的列_Apache Spark_Pyspark - Fatal编程技术网

Apache spark 转换标题和列数据，以“"|&引用；在pyspark中，使用特定的标题名称和数据行将其分成单独的列

apache-spark pyspark

Apache spark 转换标题和列数据，以“"|&引用；在pyspark中，使用特定的标题名称和数据行将其分成单独的列,apache-spark,pyspark,Apache Spark,Pyspark,我在pyspark中读到了一个txt文件，用于家庭作业，其中运算符“|”分隔了3列数据。如何在适当的数组中分隔这3列？这就是我迄今为止所取得的成就： +---------------------+ |bid|gender|department| +---------------------+ | 1|M|Informatics| | 2|M|Low| +---------------------+ 正如您所看到的，页眉已创建，但未作为列和数据分隔。请尝试将

我在pyspark中读到了一个txt文件，用于家庭作业，其中运算符“|”分隔了3列数据。如何在适当的数组中分隔这3列？这就是我迄今为止所取得的成就：

+---------------------+
|bid|gender|department|
+---------------------+
|      1|M|Informatics|
|              2|M|Low|
+---------------------+

正如您所看到的，页眉已创建，但未作为列和数据分隔。

请尝试将分隔符
选项指定为|
，并在pyspark中读取为.csv
文件

示例：

df=spark.read.option("header","true").option("delimiter","|").csv("<path_to_csv_file>")
df.show()
#+---+------+-----------+
#|bid|gender| department|
#+---+------+-----------+
#|  1|     M|Informatics|
#|  2|     M|        Low|
#+---+------+-----------+

#Save dataframe as file
df.write.mode("either overwrite/append ").option("header","true").save("location")

#writing to hive table
df.write.saveAsTable("<db>.<table_name>")

正如您所见，我需要两种方法：-（任何地方都可以找到如何保存此df？请检查答案的

更新部分！




[pyspark]相关文章推荐



                                                        
Pyspark Spark-WARN LoadSnappy:未加载Snappy本机库
pyspark 
通过PySpark中的复合键执行sortByKey（）
pyspark 
Pyspark Pypark运行错误
pyspark 
Pyspark pypsark：跨行获取最小值或最大值？
pyspark 
以纯文本形式保存具有复杂模式的pyspark数据帧以供测试
pyspark 
如何在pyspark sql中通过循环日期来提取数据？
pyspark 
Pyspark SparkSubmit可以在本地运行吗？
pyspark 
PySpark：使用第一个值“复制行”；空"；
pyspark 
Pyspark 串联数组Pypark
pyspark 
如何解决pyspark中sql函数的安全问题
pysparkgoogle-bigquery 
Pyspark：如何将数据帧中的字符串数组转换为时间戳数组
pyspark 
RDkit函数的Pyspark字符串与==比较引发错误
pyspark 
当X不在Y中时，Pyspark F
pyspark 
Pyspark pysaprk中的Dropna给出0个结果
pyspark 
Pyspark指定变量的对象类型
pyspark 
您好，有人使用pyspark将hana数据卸载到hive中吗？？我面临巨大数据的内存问题。plz建议
pyspark 
Pyspark 以Pypark计算抵押付款
pyspark 
仅在第一个实例上拆分pyspark列
pyspark 
跨列组合值以及pyspark和旋转
pyspark 
Pyspark Spark SQL库
pyspark 
                                       





随机文章推荐



                                                        
Vhdl 意外的勾号错误
vhdl 
Vhdl 是否有与Verilog'；s@（*），即自动过程灵敏度列表
vhdl 
Vhdl 通过了解Xilinx综合报告减少延迟
vhdl 
Vhdl 将n位的标准逻辑向量向右或向左移位
vhdl 
在结构VHDL ROM中，如何使多个字线驱动输出？
vhdl 
Vhdl 如何在v/hdl编程测试台上写入不同时钟周期的输入值？
vhdl 
Vhdl 灵敏度列表中的哪个信号触发该过程
vhdl 
将带时钟的VHDL测试台和32位ALU更改为不带时钟的
vhdl 
测试台中的VHDL mux 8:1错误
vhdl 
Vhdl Verilog代码翻译
vhdlverilog 
VHDL生成恒定信号
vhdl 
Vhdl 处理范围的本地信号
vhdl 
Vhdl Vivado没有'；t确认测试台文件的更改
vhdl 
如何将不同的组件实例（在testbench中）绑定到VHDL中的不同体系结构？
vhdl 
VHDL-库不起作用
vhdl 
Vhdl 全局静态错误（modelsim vs quartus）
vhdl 
Vhdl 基于时钟的8位素数检测器
vhdl 
VHDL中的2:1 Mux-信号不改变值
vhdl 
while循环创建的合成中的VHDL错误
vhdl 
使用测试台模拟VHDL计数器，给出'；未初始化'；对于输出，这是如何解决的？
vhdl


                                        

                                        
                                        


                                                
                                                        [apache spark]相关推荐
                                                        
Apache spark 每个节点（物理机器）运行多个Spark实例有什么好处？
									Apache Spark
							 
Apache spark 如何通过SimpleConsumer在Kafka中获得消息的大小（元数据），而无需获取请求？
									Apache Spark
							 									Apache Kafka
							 
Apache spark Swift报文（MT*）
									Apache Spark
							 
Apache spark 在Spark sc中，newAPIHadoopRDD正在读取2.7 GB的数据，其中包含5个分区
									Apache Spark
							 									Hbase
							 
Apache spark DataFrame:将列中的数组转换为RDD[array[String]]
									Apache Spark
							 									Dataframe
							 
Apache spark 是否可以从群集模式下提交的Spark应用程序获取输出？
									Apache Spark
							 									Pyspark
							 
Apache spark 为什么spark shell会出现“故障”；“在这个时候是出乎意料的吗？”；？
									Apache Spark
							 
Apache spark 输出spark中的空文件
									Apache Spark
							 
Apache spark pyspark位与vs安培与运算符
									Apache Spark
							 									Pyspark
							 
Apache spark 通过spark将前5行写入hdfs文件
									Apache Spark
							 
Apache spark Spark Streaming:java.lang.NoClassDefFoundError:kafka/api/TopicMetadataRequest
									Apache Spark
							 									Apache Kafka
							 
Apache spark 如何将spark数据帧写入ORC存储中的配置单元表
									Apache Spark
							 									Dataframe
							 									Hive
							 
Apache spark Spark读取驱动程序中的orc文件而不是执行器中的文件
									Apache Spark
							 									Amazon S3
							 
Apache spark sparksql窗口函数导致数据分布出现倾斜
									Apache Spark
							 
Apache spark 特定列Spark 1.6除外
									Apache Spark
							 									Dataframe
							 
Apache spark 通过mapPartitions返回的JDBC查询输出
									Apache Spark
							 
Apache spark 随机获取spark流中的LeaseExpiredException
									Apache Spark
							 									Hadoop
							 
Apache spark 使用pyspark计算groupBy的总计数百分比
									Apache Spark
							 									Pyspark
							 
Apache spark 使用spark.shuffle.service.enabled属性启动辅助进程
									Apache Spark
							 
Apache spark 在Spark Scala中将数据帧内的数据字段从任何格式转换为固定格式
									Apache Spark
							 
Apache spark Spark scala分区数据帧用于大型交叉连接
									Apache Spark
							 									Dataframe
							 
Apache spark 在pyspark中设置log4j属性
									Apache Spark
							 									Pyspark
							 									Log4j
							 
Apache spark \“CASE\”、“WHEN\”、“THEN\”、“ELSE\”、“END\”、“JOIN\”、“CROSS\”、“OUTER\”、“INNER\”、“LEFT\”、“SEMI\”、“RIGHT\”、“FULL\”、“NATURAL\”、“ON\”、“PIVOT\”、“LATERAL\”、“WINDOW\”、“OVER\”、“perior\”、“PARTITION\”、“RANGE\”、“RANGE\”、“ROWS\”、“UNBOUNDED\”、“UNBOUNDED\”、“FOLLOWING\”、“AFT
									Apache Spark
							 									Pyspark
							 
Apache spark 如何计算pyspark dataframe每列中的null、na和nan值
									Apache Spark
							 									Pyspark
							 
Apache spark Spark在db上运行过滤器，而不是在Spark数据帧上运行
									Apache Spark
							 									Pyspark
							 
Apache spark 将Dataset中的嵌套json字符串转换为Spark Scala中的Dataset/Dataframe
									Apache Spark
							 
Apache spark 为什么Spark Shuffle溢出（内存）比Shuffle读取大小大得多？洗牌溢出（磁盘）是什么？
									Apache Spark
							 
Apache spark Spark:repartitionByRange创建多个文件
									Apache Spark
							 
Apache spark 如何在spark ui中解释阶段的详细信息图
									Apache Spark
							 
Apache spark Pyspark：读取拼花文件——检查文件总数和文件大小？
									Apache Spark
							 									Pyspark
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Aws Lambda
Notepad++
Discord.js
Instagram
Mapreduce
Sublimetext2
Cmake
Arangodb
Jasper Reports
Django Rest Framework
Timer
Twitter
Macros
Iphone
Ibm Mobilefirst
Spring Batch
Apache Flex
Playframework 2.0
Sparql
Mysql
Objective C
Unicode
Jestjs
Windows 8
Compiler Errors
Pagination
Marklogic
Eclipse Plugin
Openstack
Primefaces
Javafx
Tableau Api
Tcp
Playframework
Sml
Blazor
Plot
Visual Studio 2010
Io
Bots
Arduino
Mediawiki
Testing
Oracle Apex
Numpy
Blackberry
Statistics
Sap
Coldfusion
Jakarta Ee
Prometheus
Angularjs
Powerbi
Windows Installer
Asterisk
Layout
Google Maps Api 3
Mule
Yii
.net Core
Google Drive Api
Fortran
Openssl
Html5 Canvas
Google Api
Asp.net Mvc 3
Rabbitmq
Pascal
Oracle
Matlab
Jms
Monitoring
Active Directory
Gps
Url Rewriting
Debugging
Actions On Google
C++
Grid
Terminal
Svg
Vagrant
Web Crawler
Ckeditor
Visual Studio 2017
Windows Store Apps
Report
Recursion
Scikit Learn
Scripting
Cuda
Amazon Dynamodb
Xamarin.android
Flash
Xsd
Stata
Oracle11g
Automated Tests
Azure Sql Database
Spotify
Netbeans
Latex
Checkbox
Visual Studio
Binding
Jetty
Firefox Addon
Winforms
Jqgrid
Compiler Construction
Zsh
Facebook Graph Api
Go
Google Visualization
Scroll
Nsis
Nosql
Vb6
Haskell
Websphere
Tomcat
Laravel
Identityserver4
Windows Phone 8.1
Actionscript 3
Ruby
Enums
Command Line
Log4j
Assembly
Opengl Es
Material Ui
Asp.net Core
Functional Programming
Download
Coffeescript
Discord.py
Sbt
Seo
Grep
Ios7
Cmd
Netlogo
Navigation
Triggers
Uml
Keyboard
Sas
Logic
Ip
Lambda
Youtube Api
Merge
Abap
Rdf
Mapbox
Indexing
Maven
Virtualbox
Tfs
Push Notification
Kdb
Azure Data Factory
Amazon Ec2
Graph
Printing
Colors
Winapi
Ms Access
Cron
Function
Reporting Services
C# 3.0
Sugarcrm
Unity3d
Canvas
Iframe
Openshift
Akka
Python 3.x
Pentaho
Random
Flask
Openerp
Mpi
Twilio
Google Chrome
Emacs
Dask
Google Apps Script
Postgresql
Exchange Server
Ipython
Datetime
Scala
Air
Xamarin
Smalltalk
Localization
Arm
Selenium


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网