Scala 在ApacheSpark1.3中向数据帧追加一列_Scala_Apache Spark_Dataframe - Fatal编程技术网

Scala 在ApacheSpark1.3中向数据帧追加一列

scala apache-spark dataframe

Scala 在ApacheSpark1.3中向数据帧追加一列,scala,apache-spark,dataframe,Scala,Apache Spark,Dataframe,向数据框中添加列是否可能？最有效的整洁方法是什么更具体地说，列可以用作现有数据帧的行ID 在一个简化的例子中，从文件中读取而不是标记它，我可以想到如下（在Scala中），但它完成时出现了错误（在第3行），而且无论如何看起来并不是最好的路径： var dataDF = sc.textFile("path/file").toDF() val rowDF = sc.parallelize(1 to DataDF.count().toInt).toDF("ID") dataDF = dataDF.

向数据框中添加列是否可能？最有效的整洁方法是什么

更具体地说，列可以用作现有数据帧的行ID

在一个简化的例子中，从文件中读取而不是标记它，我可以想到如下（在Scala中），但它完成时出现了错误（在第3行），而且无论如何看起来并不是最好的路径：

var dataDF = sc.textFile("path/file").toDF() 
val rowDF = sc.parallelize(1 to DataDF.count().toInt).toDF("ID") 
dataDF = dataDF.withColumn("ID", rowDF("ID"))

我发布这个问题已经有一段时间了，似乎其他人也希望得到答案。下面是我发现的

因此，最初的任务是将带有行标识符的列（基本上是一个序列

1到numRows

）附加到任何给定的数据帧，这样就可以跟踪行的顺序/存在（例如，在采样时）。这可以通过以下方式实现：

sqlContext.textFile(file).
zipWithIndex().
map(case(d, i)=>i.toString + delimiter + d).
map(_.split(delimiter)).
map(s=>Row.fromSeq(s.toSeq))

关于向任何数据框追加任何列的一般情况：

Spark API中与此功能“最接近”的是

withColumn

和

WithColumnRename

。根据，前者通过添加列返回新的数据帧。在我看来，这是一个有点混乱和不完整的定义。这两种功能都只能在

此

数据帧上运行，即给定两个数据帧

df1

和

df2

，列为

col

：

val df = df1.withColumn("newCol", df1("col") + 1) // -- OK
val df = df1.withColumn("newCol", df2("col") + 1) // -- FAIL

因此，除非能够将现有数据帧中的列转换为所需的形状，否则不能使用

withColumn

或

withColumnRenamed

附加任意列（独立或其他数据帧）

正如上面所评论的，解决方案可能是使用

连接

——这将非常混乱，尽管可能——使用

zipWithIndex

将如上所述的唯一键连接到两个数据帧或列可能会起作用。虽然效率是

很明显，在数据框中添加列对于分布式环境来说不是一个简单的功能，可能根本就没有非常高效、简洁的方法。但我认为，即使有性能警告，仍然有这个核心功能可用是非常重要的。

我发布这个问题已经有一段时间了，似乎其他一些人也希望得到答案。下面是我发现的

因此，最初的任务是将带有行标识符的列（基本上是一个序列

1到numRows

）附加到任何给定的数据帧，这样就可以跟踪行的顺序/存在（例如，在采样时）。这可以通过以下方式实现：

sqlContext.textFile(file).
zipWithIndex().
map(case(d, i)=>i.toString + delimiter + d).
map(_.split(delimiter)).
map(s=>Row.fromSeq(s.toSeq))

关于向任何数据框追加任何列的一般情况：

Spark API中与此功能“最接近”的是

withColumn

和

WithColumnRename

。根据，前者通过添加列返回新的数据帧。在我看来，这是一个有点混乱和不完整的定义。这两种功能都只能在

此

数据帧上运行，即给定两个数据帧

df1

和

df2

，列为

col

：

val df = df1.withColumn("newCol", df1("col") + 1) // -- OK
val df = df1.withColumn("newCol", df2("col") + 1) // -- FAIL

因此，除非能够将现有数据帧中的列转换为所需的形状，否则不能使用

withColumn

或

withColumnRenamed

附加任意列（独立或其他数据帧）

正如上面所评论的，解决方案可能是使用

连接

——这将非常混乱，尽管可能——使用

zipWithIndex

将如上所述的唯一键连接到两个数据帧或列可能会起作用。虽然效率是

很明显，在数据框中添加列对于分布式环境来说不是一个简单的功能，可能根本就没有非常高效、简洁的方法。但我认为，即使有性能警告，这个核心功能仍然是非常重要的。

我从上面的答案中得到了帮助。但是，如果我们想更改

数据帧

，我发现它是不完整的，并且当前的API在

Spark 1.6

中几乎没有什么不同。

zipWithIndex（）

返回

（行，长）

的

元组，该元组包含每一行和相应的索引。我们可以根据需要使用它创建新的行

val rdd = df.rdd.zipWithIndex()
             .map(indexedRow => Row.fromSeq(indexedRow._2.toString +: indexedRow._1.toSeq))
val newstructure = StructType(Seq(StructField("Row number", StringType, true)).++(df.schema.fields))
sqlContext.createDataFrame(rdd, newstructure ).show

我希望这会有帮助。
我从上面的答案中得到了帮助。但是，如果我们想更改数据帧
，我发现它是不完整的，并且当前的API在Spark 1.6中几乎没有什么不同。
zipWithIndex（）
返回（行，长）
的元组，该元组包含每一行和相应的索引。我们可以根据需要使用它创建新的行

val rdd = df.rdd.zipWithIndex()
             .map(indexedRow => Row.fromSeq(indexedRow._2.toString +: indexedRow._1.toSeq))
val newstructure = StructType(Seq(StructField("Row number", StringType, true)).++(df.schema.fields))
sqlContext.createDataFrame(rdd, newstructure ).show

我希望这会有所帮助。
不确定它是否在spark 1.3中工作，但在spark 1.5中我使用With Column：
import sqlContext.implicits._
import org.apache.spark.sql.functions._


df.withColumn("newName",lit("newValue"))

当我需要使用一个和dataframe的现有列不相关的值时，我会使用它
这与@NehaM的答案类似，但更简单
不确定它在spark 1.3中是否有效，但在spark 1.5中我使用With列：
import sqlContext.implicits._
import org.apache.spark.sql.functions._


df.withColumn("newName",lit("newValue"))

当我需要使用一个和dataframe的现有列不相关的值时，我会使用它
这与@NehaM的答案类似，但更简单，您可以使用下面的方法为数据帧中的每一行获取不同的id
df.withColumn("ID", row_number() over Window.orderBy("any column name in the dataframe"))

您还可以使用单调地\u递增\u id
，与
df.withColumn("ID", monotonically_increasing_id())

还有一些。
您可以使用下面的方法为数据帧中的每一行获取不同的id
df.withColumn("ID", row_number() over Window.orderBy("any column name in the dataframe"))

您还可以使用单调地\u递增\u id
，与
df.withColumn("ID", monotonically_increasing_id())

还有一些。
您找到解决方案了吗？错误是什么？这似乎是API中正确的方法。@Chet，withColumn
应该使用相同的数据帧-也就是说，您可以使用dataDF=dataDF.withColumn（“ID”，dataDF（“ID”）.map（…）
只使用此
数据帧的列，而不使用其他列




[apache spark]相关文章推荐



                                                        
Apache spark Spark：从频率值获取累积频率
apache-spark 
Apache spark 如何加快RDD重新计算？
apache-spark 
Apache spark 如何在PySpark ALS中使用长用户ID
apache-sparkpyspark 
Apache spark 如何将rdd数据插入pyspark中的数据帧？
apache-sparkpyspark 
Apache spark 如何调试/获取SparkR Java后端故障日志？
apache-spark 
Apache spark Spark Streaming-如何在迭代器上的分区内使用reduceByKey
apache-sparkapache-kafka 
Apache spark 为什么可以'；我不能加载PySpark随机分类器模型吗？
apache-sparkpyspark 
Apache spark 为订单担保评分，同时为订单框架评分
apache-spark 
Apache spark SPARK KUDU复杂更新语句是否可以直接或通过Impala JDBC驱动程序？
apache-spark 
Apache spark Pyspark：在数据帧的不同组上应用kmeans
apache-sparkpyspark 
Apache spark 检查点后未使用新的spark.sql.shuffle.partitions值
apache-spark 
Apache spark 无法从Spark测试S3支持的Hbase
apache-sparkamazon-s3hbase 
Apache spark 获取PySpark中列的名称/别名
apache-sparkpyspark 
Apache spark 使用spark重试Oracle连接
apache-spark 
Apache spark 调用Spark中的Doc2Vec和逻辑回归机器学习的输入向量
apache-spark 
Apache spark 选择子实体时，Spark返回空值数组
apache-spark 
Apache spark Spark SQL-以字符串形式获取配置单元表的列名
apache-sparkhive 
Apache spark 筛选PYSPARK中不包含字符串的行
apache-sparkpyspark 
Apache spark 正在尝试在PySpark DataFrame中创建具有最大时间戳的列
apache-sparkpyspark 
Apache spark 为什么缓存小火花RDD需要大量内存分配？
apache-sparkhadoop 
                                       





随机文章推荐



                                                        
如何根据发票Odoo v8的状态字段隐藏编辑按钮窗体？
odoo 
Odoo 变量在qweb报表中不可访问？
odoo 
带向导的Odoo11自定义报告
odoo 
Odoo 如何在网站上只显示登录用户
odoo 
Odoo 添加约束以阻止用户在导入具有生成的外部id的数据时更新某些字段
odoo 
打印pdf时qweb报告odoo 8中的Wkhtmltopdf错误
odoo 
Odoo Qweb报告标题重叠正文
odoo 
关于dbfilter未捕获Odoo 13上的正确数据库
odoo 
Odoo 如何扩展搜索记录以同时查看自定义的多个字段？
odoo 
Odoo 采购/交付时自动仓库间转运的路线和规则
odoo


                                        

                                        
                                        


                                                
                                                        [scala]相关推荐
                                                        
Scala 应该怎样做才能拥有'；价值'；在枚举中？
									Scala
							 
Scala 如何修剪字符串的结尾空白？
									Scala
							 
Scala 延迟计算的索引序列类型
									Scala
							 									Collections
							 
Scala模式匹配中的自动取消装箱
									Scala
							 
Scala中是否有groupBy的迭代版本？
									Scala
							 
Scala 读取Casbah MongoDB查询的结果
									Scala
							 									Mongodb
							 
Scala 如何创建一个Playframework 2.0表单，其中包含一个条件必需的字段？
									Scala
							 									Validation
							 									Playframework
							 									Playframework 2.0
							 
Scala web框架'；安全
									Scala
							 									Playframework 2.0
							 
scala类型标记和类型别名
									Scala
							 									Reflection
							 									Types
							 
根据Scala语言规范，包是AnyRef值并具有类型。这有什么意义？
									Scala
							 
ScalaCheck有序阵列生成器
									Scala
							 
Scala 如何为Iterable编写while（）循环<；对象>；在斯卡拉？
									Scala
							 
Scala 如何使用内部队列反应流订户处理未完成消息？
									Scala
							 									Akka
							 
Scala Spark 1.5.1，MLLib随机森林概率
									Scala
							 									Apache Spark
							 
Scala Play 2.5.X：对象播放中的当前方法已被弃用：这是对应用程序的静态引用，请改用DI
									Scala
							 									Playframework
							 
Scala 如何为行组分配连续数字以创建唯一键
									Scala
							 									Apache Spark
							 
使用Scala从多元正态分布生成随机样本？
									Scala
							 									Math
							 									Statistics
							 
Scala-java8-compat_2.12:0.8.0的Scala版本警告
									Scala
							 									Maven
							 
Scala SBT未解决与Akka的关系
									Scala
							 									Dependencies
							 									Sbt
							 									Akka
							 
Scala 在spark standalone cluster中处理来自hdfs的数据时块丢失异常
									Scala
							 									Hadoop
							 									Apache Spark
							 
Scala 将循环的输出写入数据帧
									Scala
							 									Apache Spark
							 
Scala 我可以向现有类添加新构造函数吗？
									Scala
							 
Scala 计算日期与其上一个日期之间的差值
									Scala
							 
Scala 为什么我的源产生的缓冲区大于缓冲区大小？
									Scala
							 									Akka
							 
scala，如何计算目录中的文件夹数？
									Scala
							 									Directory
							 
Scala Akka HTTP客户端EntityStreamSizeException
									Scala
							 									Akka
							 
Scala 根据Apache Spark中的条件为点击流数据生成会话id
									Scala
							 									Apache Spark
							 
Scala 如何编辑行值中的符号
									Scala
							 									Dataframe
							 
无法在Scala中编译和运行多个文件
									Scala
							 									Command Line
							 									Compilation
							 
Scala 高级类型参数中下划线的使用规则
									Scala
							 									Generics
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Dynamic
Cordova
Google Colaboratory
Parse Platform
Url
Python 2.7
Xmpp
Pytorch
Editor
Entity Framework Core
Sublimetext3
Omnet++
Botframework
Gruntjs
Properties
Macros
C#
Couchdb
Oracle10g
Tree
Sphinx
Soap
Tkinter
Processing
Puppet
Sqlalchemy
Statistics
Octave
Numpy
Networking
Google Analytics
Server
Oracle Apex
Localization
Join
Anaconda
Google Compute Engine
Windows Installer
Compression
Web Scraping
Wicket
Latex
Jupyter Notebook
Input
Yaml
Maven 2
Browser
Solr
Database
Kibana
Mod Rewrite
Next.js
List
System Verilog
Pentaho
Ssas
Qt
Openssl
Actionscript 3
Hyperlink
Asp.net Mvc 4
Smtp
Sequelize.js
Sublimetext2
Embedded
Elixir
String
Ethereum
Ada
Stata
Drop Down Menu
Talend
Azure Service Fabric
Seo
D3.js
Airflow
Webgl
Cocos2d X
Computer Vision
.htaccess
Gremlin
Msbuild
Batch File
Math
Playframework 2.0
Ravendb
Google Drive Api
Azure Active Directory
Proxy
Android
Gmail
Webpack
Influxdb
Sdk
Time
Sonarqube
Boost
Encryption
Tinymce
Rss
Doctrine
Openid
Tabs
Sails.js
Install4j
Inno Setup
Coffeescript
Vba
Windows Phone
Hazelcast
Model View Controller
Sml
Search
Swing
Ruby On Rails 3
Computer Science
Asp.net Mvc 3
Vmware
Geometry
Sas
Indexing
Nunit
Outlook
Snmp
Mongodb
Reflection
Ssl
Lotus Notes
Typescript
Mobile
Plone
Playframework
Aws Lambda
Asp.net Mvc 2
Ssh
Zsh
Stripe Payments
Jsf
Amazon Ec2
Django Rest Framework
Akka
Select
Kendo Ui
Continuous Integration
Postgresql
Animation
Opencv
Spring Integration
Error Handling
Openlayers 3
Firefox
Clearcase
F#
Session
Kentico
Google Chrome Extension
Data Structures
Audio
Chef Infra
Windows 10
Docusignapi
Sed
Uwp
Clang
Discord.py
Windbg
Jvm
.net Core
Ipython
Oop
Ibm Mq
Ibm Mobilefirst
Xamarin.ios
Redux
Visual Studio 2010
Keycloak
Dynamics Crm 2011
Mariadb
Jekyll
Graph
Filter
Flutter
Internet Explorer 8
Facebook Graph Api
Database Design
Twitter
Dependencies
Prometheus
Rust
Apache Flink
Templates
Cobol
Kubernetes
Vector
Amazon Redshift
Google Maps
Xslt
Polymer
Operating System
Command Line
Orientdb


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网