Apache spark 如何在spark中组合两列数据集_Apache Spark_Apache Spark Dataset - Fatal编程技术网

Apache spark 如何在spark中组合两列数据集

apache-spark

Apache spark 如何在spark中组合两列数据集,apache-spark,apache-spark-dataset,Apache Spark,Apache Spark Dataset,我有这样一个spark数据集： > df.show() +------+------+ | No1 | No2 | +------+------+ | 001 | null | | 002 | 002 | | 003 | 004 | | null | 005 | +------+------+ 我想得到一个新的列No3，它包含列No1和No2中的值，条件是复制No1，如果它有一个值，否则如果它为null，则使用No2中的值如何执行此操作？您可以检查No1列是否为null

我有这样一个spark数据集：

> df.show()
+------+------+
| No1  | No2  |
+------+------+
| 001  | null |
| 002  | 002  |
| 003  | 004  |
| null | 005  |
+------+------+

我想得到一个新的列No3，它包含列No1和No2中的值，条件是复制No1，如果它有一个值，否则如果它为null，则使用No2中的值

如何执行此操作？

您可以检查

No1

列是否为

null

。如果其

null

则从

No2

import org.apache.spark.sql.functions._

val data = spark.sparkContext.parallelize(Seq(
  ("001", null),
  ("002", "002"),
  ("003", "004"),
  (null, "005")
)).toDF("No1", "No2")

val resultDf = data.withColumn("No3", when($"No1".isNull, $"No2").otherwise($"No1"))

resultDf.show

输出：

+----+----+---+
|No1 |No2 |No3|
+----+----+---+
|001 |null|001|
|002 |002 |002|
|003 |004 |003|
|null|005 |005|
+----+----+---+

希望这有帮助

我想你要找的是联合

import org.apache.spark.sql.functions._ val data = spark.sparkContext.parallelize(Seq( ("001", null), ("002", "002"), ("003", "004"), (null, "005") )).toDF("No1", "No2") val resultDf = data.withColumn("No3", coalesce($"No1", $"No2")) resultDf.show

import org.apache.spark.sql.functions._ val data = spark.sparkContext.parallelize(Seq( ("001", null), ("002", "002"), ("003", "004"), (null, "005") )).toDF("No1", "No2") val resultDf = data.withColumn("No3", coalesce($"No1", $"No2")) resultDf.show

[hash]相关文章推荐

Hash 在实践中忽略SHA碰撞的可能性是否安全？ hash

Hash 获取Google文档的哈希值？ hash

Hash 如果有人获得了salt密钥的访问权限，那么salt密码是否毫无意义？非服务器盐渍？ hash passwords

Hash 哈希unix卷影文件的密码 hash

Hash 数字签名中哈希函数的确定 hash

Hash 弱和强滚动校验和 hash synchronization

Hash 是否有任何SHA-256 javascript实现通常被认为是可信的？ hash javascript

Hash 为什么要有好的盐？ hash passwords

Hash 如何使用“跳过行”#&引用；Fortran 90中的符号？ hash fortran

Hash docker如何管理docker图像分叉的哈希？ hash docker

Hash 符合PCI的信用卡号哈希 hash

Hash Gulp rev使用生成的哈希替换文件 hash gulp

Hash 如何在golang中动态切换哈希算法？ hash go

Hash SAS哈希合并--较小的数据集作为哈希对象 hash merge sas

Hash 将文件块哈希值组合到文件指纹 hash

Hash 短小写字符串的标识哈希代码 hash

Hash 理解命令行OpenSSL DGST Sha256命令 hash command-line openssl

Hash 具有自适应哈希函数的哈希表 hash

Hash 比较/同步XDB时间跨度 hash synchronization influxdb

Hash 如何拥有自定义的时间戳和哈希sha256，并将它们转换成带锈的字符串？ hash rust

随机文章推荐

什么'；在ABAP运算符中？=的含义是什么？ abap

Abap 不向数据库写入代码的动态代码生成和执行 abap

Abap 从主程序隐藏外部子屏幕字段 abap

500 SAP内部服务器错误ABAP abap

Abap 编辑选择屏幕失败 abap

Abap 更改SAP Note 303453的实施-用于在STO中确定装运数据的用户出口 abap

Abap 使用SAPUI5创建身份验证页面 abap sapui5

ABAP导出到内存，使用文本字段文字的过时缩写形式 abap

Abap 税务代码MWSKZ的哪个BAdI/用户退出触发器？ abap

AS ABAP 7.52 SP01开发者版：DBA无法登录数据库 abap

Abap 正确的消息服务器端口（msserv）？ abap

Abap 使用cl_salv_表显示数据时发生意外的数据库提交 abap

Abap 如何从另一个系统获取数据 abap

Abap 在值的左侧和右侧使用相同的itab会导致空表。为什么？ abap

[apache spark]相关推荐

Apache spark callJMethod（sqlContext，“parquetFile”路径）中出错：无效的jobj 1。如果重新启动SparkR，则需要重新执行Spark操作
Apache Spark

Apache spark Spark sql:无法实例化org.apache.hadoop.hive.metastore.HiveMetaStoreClient
Apache Spark Hive

Apache spark 如果Spark计算时间大于批处理间隔，会发生什么情况
Apache Spark

Apache spark 使用数据帧从Informix到Spark的JDBC
Apache Spark

Apache spark ROC下的区域得分不好，但精确回忆下的区域得分高？
Apache Spark

Apache spark 为什么我的spark流媒体应用程序没有显示任何输出
Apache Spark Pyspark

Apache spark 使用Spark 1.6.1 Hadoop 2.7.2的Google Dataproc中带空记录的动画流
Apache Spark Pyspark

Apache spark Spark RDD foreachPartition到S3
Apache Spark Amazon S3

Apache spark HDP2.3.2上spark-Oozie工作流需要spark-assembly-1.5.2.-hadoop2.7.jar
Apache Spark

Apache spark 我可以在Macbook Pro上同时安装两个pyspark版本（1.6.1和2.0）吗？
Apache Spark Pyspark

Apache spark 如何针对Spark数据帧并行化/分发查询/计数？
Apache Spark

Apache spark spark可以高效地查找一组列的最频繁值
Apache Spark

Apache spark 如何在spark RDD中展平json数组
Apache Spark

Apache spark 为什么即使指定了所有值，Spark SQL也会为字符串列启用nullable？
Apache Spark

Apache spark 如果Spark广播联接太大，会发生什么情况？
Apache Spark

Apache spark Spark/Python-未使用集群中的从机
Apache Spark Pyspark

Apache spark 使用virtualenv在纱线/火花簇模式下运行python
Apache Spark Pyspark

Apache spark 强制ApacheToreScala内核添加来自本地repo的依赖项
Apache Spark

Apache spark 在Kubernetes上的Spark 2.3下运行时，Cassandra连接器出现故障
Apache Spark Cassandra Kubernetes

Apache spark 了解计划树字符串表示法
Apache Spark

Apache spark 是否警告客户端：相同的路径资源file:///tmp/programs95923.zip 多次添加到分布式缓存问题？
Apache Spark Pyspark

Apache spark 正向填充多列可重用函数代码
Apache Spark Pyspark

Apache spark 判断数据管道组件性能的最佳方法是什么？
Apache Spark Hadoop Cluster Computing

Apache spark 替换深层嵌套架构Spark数据帧中的值
Apache Spark Pyspark

Apache spark 创建Spark作业的时间非常长，数据帧上有许多过滤条件
Apache Spark Pyspark

Apache spark 将数据帧保存到表-Pyspark中的性能
Apache Spark Pyspark Hive

Apache spark 删除Spark数据帧-PySpark中的空白时出错
Apache Spark Pyspark

Apache spark 当我将event_timestamp列从字符串转换为timestamp时，PySpark（3.0.0版）to_timestamp返回null
Apache Spark Pyspark

Apache spark Spark有状态结构化流：mapGroupsWithState中的状态变得太大
Apache Spark

Apache spark 无法在pyspark中导入s3fs
Apache Spark Amazon S3 Pyspark Filesystems

Tags

Redirect Xaml Transactions Protractor Enums Azure Ad B2c Marklogic Compression C++11 Resharper Lucene Oracle11g Google Maps Api 3 Time Blazor Hive Ruby On Rails Spring Batch Function Php Dialogflow Es Ionic2 Io Ruby On Rails 3.1 Jupyter Notebook Reflection Openid List Websphere Time Complexity Amazon Redshift Angular6 Linkedin Continuous Integration Plone Jquery Mvvm Vue.js Linq To Sql Heroku Inno Setup Lotus Notes File Upload Log4j Drop Down Menu Tableau Api Ldap Drupal 6 Sdk D Github Calendar Mapbox Visual Studio Code Xamarin.ios Selenium Webdriver Openlayers 3 Html Composer Php Keyboard Search Angular Sprite Kit Seo Unit Testing Rally Ant Autocomplete Button Firefox Kibana Ada Rx Java Jwt Oauth Spring Microservices Parse Platform Phantomjs Boost React Native Arm Filesystems Logic Dataframe Oracle Apex Excel Formula Windows Phone Exchange Server Url Rewriting Git Date Ssl Blackberry Mono Character Encoding Authentication Apache Nifi Delphi Neural Network Exception Handling Shiny Youtube Z3 Reporting Services Curl Mapping Common Lisp Selenium Windows Cypress System Verilog Asterisk Entity Framework Model View Controller Sitecore Ibm Midrange Collections Typo3 Outlook Stored Procedures Lua Speech Recognition Cassandra Single Sign On Scala Compiler Errors Grep Download Validation Applescript Liferay Drupal Chef Infra Networking Compilation Tsql Rest Vb6 Docker Notepad++ Ionic Framework Jestjs Ip Ios7 Yocto Css Keycloak Svn Chart.js Primefaces Charts Interface Air Aurelia Google Apps Script Struct Sqlalchemy Javafx 2 Socket.io Wso2 String Matrix Javascript Qt Webview Indexing Regex Stata Actionscript Jekyll Mediawiki Fortran Bluetooth Openerp Coding Style Syntax Django Rest Framework Gdb Macos Ssas Mpi Here Api Layout C# 3.0 C++ Cli Asp.net Intellij Idea Scrapy Monitoring Awk Embedded Python 2.7 Log4net Nativescript Compiler Construction Encoding Sql Server Mqtt Hybris Datetime

Copyright © 2024. All Rights Reserved by - Fatal编程技术网