忽略空值的不同列的平均值，Spark Scala_Scala_Apache Spark_Apache Spark Sql - Fatal编程技术网

忽略空值的不同列的平均值，Spark Scala

scala apache-spark

忽略空值的不同列的平均值，Spark Scala,scala,apache-spark,apache-spark-sql,Scala,Apache Spark,Apache Spark Sql,我有一个具有不同列的数据帧，我试图做的是忽略空值的差异列的平均值。例如： +--------+-------+---------+-------+ | Baller | Power | Vision | KXD | +--------+-------+---------+-------+ | John | 5 | null | 10 | | Bilbo | 5 | 3 | 2 | +--------+-------+---------+

我有一个具有不同列的数据帧，我试图做的是忽略空值的差异列的平均值。例如：

+--------+-------+---------+-------+
| Baller | Power | Vision  | KXD   |
+--------+-------+---------+-------+
| John   |   5   |    null |   10  |
| Bilbo  |   5   |    3    |    2  |
+--------+-------+---------+-------+

输出必须是：

+--------+-------+---------+-------+-----------+ | Baller | Power | Vision | KXD | MEAN | +--------+-------+---------+-------+-----------+ | John | 5 | null | 10 | 7.5 | | Bilbo | 5 | 3 | 2 | 3,33 | +--------+-------+---------+-------+-----------+
我在做什么：

val a_cols = Array(col("Power"), col("Vision"), col("KXD")) val avgFunc = a_cols.foldLeft(lit(0)){(x, y) => x+y}/a_cols.length val avg_calc = df.withColumn("MEAN", avgFunc)
但是我得到了空值：

+--------+-------+---------+-------+-----------+ | Baller | Power | Vision | KXD | MEAN | +--------+-------+---------+-------+-----------+ | John | 5 | null | 10 | null | | Bilbo | 5 | 3 | 2 | 3,33 | +--------+-------+---------+-------+-----------+

您可以分解列并按+平均值进行分组，然后使用Baller列连接回原始数据帧：

val result = df.join( df.select( col("Baller"), explode(array(col("Power"), col("Vision"), col("KXD"))) ).groupBy("Baller").agg(mean("col").as("MEAN")), Seq("Baller") ) result.show +------+-----+------+---+------------------+ |Baller|Power|Vision|KXD| MEAN| +------+-----+------+---+------------------+ | John| 5| null| 10| 7.5| | Bilbo| 5| 3| 2|3.3333333333333335| +------+-----+------+---+------------------+

你的spark版本是什么？嗨！我的版本是2.2.1

[apache spark]相关文章推荐

Apache spark 在spark中的海量数据上运行reduceByKey apache-spark

Apache spark 如何在executor中获取spark广播变量？火花芯 apache-spark

Apache spark 访问Amazon EMR中的Azure blob存储 apache-spark amazon-s3

Apache spark 如何将MapPartitionsRDD转换为数据帧？ apache-spark pyspark

Apache spark 默认情况下，spark中的缓存内存限制是多少？ apache-spark pyspark

Apache spark 如何为齐柏林飞艇配置Livy/spark？ apache-spark

Apache spark 在Spark中将数据转换为拼花地板 apache-spark

Apache spark 为什么Eclipse会给出；对象sql不是包org.apache.spark的成员；？ apache-spark

Apache spark 如何缓存sql查询产生的数据帧 apache-spark

Apache spark PySpark:DataFrame-将结构转换为数组 apache-spark pyspark

Apache spark 将Spark数据帧写入CSV apache-spark

Apache spark 生产环境中的Hive vs Spark apache-spark hive

Apache spark 将列从字符串转换为填充pyspark中不同月份的日期 apache-spark pyspark

Apache spark 多处理/池是否有利于Pyspark处理时间 apache-spark pyspark

Apache spark 如何使用Arthren rest api向spark提交作业？我想使用ThreadRESTAPI将作业提交给spark apache-spark

Apache spark Spark Cassandra write Dataframe，如何在插入期间查找数据库中已经存在的键 apache-spark cassandra

Apache spark 如何将具有常量值的新日期列添加到Spark数据帧（使用PySpark）？ apache-spark

Apache spark 火花中的广播变量是否移动到纱线中的每个执行器或节点管理器？ apache-spark

Apache spark Can'；t使用Spark独立启动作业 apache-spark cluster-computing

Apache spark 无法反序列化批次中具有不同项数的PairRDD apache-spark pyspark jupyter-notebook

随机文章推荐

无法使用AppleScript将发布文件夹复制到桌面 applescript

Applescript 简单脚本未按预期工作 applescript

Applescript子程序的问题 applescript

Applescript 循环文件夹中的视频文件以获取视频长度 applescript

Applescript Can'；似乎无法使用regxp和can'；我不明白为什么 applescript

Applescript 将当前URL更改为JavaScript的脚本 applescript

如何使用AppleScript打开联系人首选项 applescript

用于创建子文件夹和移动文件的Applescript，带有部分名称 applescript

Applescript 如何将当前活动窗口的ContentsChanged设置为true（关闭按钮中的黑点）？ applescript

Applescript延迟问题 applescript

Applescript 文件名为'；找不到 applescript

Applescript ASObjc运行程序shell脚本进度 applescript

Applescript dyld:未加载库：/usr/lib/libnetsnmp.25.dylib applescript

使用applescript更改TextWrangler中的配色方案？ applescript

AppleScript重复循环可以'；如果不关闭脚本，则无法重新执行 applescript

Applescript-在系统对话框视图中键入（例如：保存、加载） applescript

使用Applescript将名字与姓氏合并 applescript

Applescript 如何返回最前面/凸起/聚焦终端窗口的tty？ applescript

Iterm2使用Applescripts启用广播输入快捷方式 applescript

使用AppleScript更新Notes应用程序中的备注 applescript

[scala]相关推荐

如何克隆'；s代理与Scala'；谁是演员？
Scala Concurrency Clojure

Scala 将额外参数传递给foldRight
Scala

Scala %和%%操作员在设置SBT依赖项时做什么？
Scala Sbt

Scala 如何使用Lift framework创建自定义菜单？
Scala View

Scala 打滑应用-连接泄漏
Scala Playframework

Scala中带尾函数的Max元素
Scala Recursion Functional Programming

如何使用复杂条件对Scala中的字符串进行排序？
Scala Sorting

Scala-抽象类型和隐式参数解析
Scala Reflection

Scala 避免泛型类中的降级
Scala

Scala 使用具有更高种类类型的上下文绑定？
Scala

Scala 访问基类的受保护成员
Scala Inheritance

Scalaz读卡器到读卡器
Scala

Scala中的Scala Try/Catch块未能捕获异常
Scala Exception

没有实例的Scala类值
Scala Class

Scala 统计子列表列表中的唯一值
Scala Apache Spark

scala中的类型擦除和继承
Scala Inheritance

Scala Spark正在复制工作
Scala Hadoop Apache Spark

Scala sparksql：使用sqlapi设置avro模式选项
Scala Apache Spark

Scala：如何在伴生对象中定义构造函数参数的默认值？
Scala

Netezza与Spark/Scala JDBC的连接
Scala Apache Spark Jdbc

Scala 大型文本文件的高效迭代
Scala

如何使用if-else表达式在scala中指定不同的变量名
Scala If Statement

如何有效地多次运行scala程序？
Scala Sbt

Scala 斯莱克：我有一个简单的左撇子。。。为什么？
Scala

Scala 是否将惰性值作为函数或方法参数传递而不进行计算？
Scala

“如何修复”；错误：未找到：键入CosmosDBSourceProvider"；在databricks scala中，从cosmos db读取数据流
Scala Apache Spark Azure Cosmosdb

Scala 如何将字节数组验证为ipv6地址？
Scala

Scala Akka经典vs Akka类型
Scala Akka

Scala泛型中断重新分配到var
Scala Generics

Scala Spark INFO Spark.MapOutputRackerMasterEndpoint:要求发送随机播放0的地图输出位置需要很长时间
Scala Apache Spark

Tags

Telegram Ipython Dart Android Pandas Rust Silverlight 4.0 Ethereum Azure Active Directory Windows Plone Sql Server 2008 Ibm Midrange Ruby On Rails 3.2 Notepad++ Apache Ant Jira Text Data Binding Oracle11g Pycharm Polymer Exchange Server Recursion Ms Office Linq Winforms Session Module Signalr Smalltalk Ipad Video Streaming Webpack Tfs Iphone View Generics Uwp Ios6 Python 2.7 Html Redux Swing Service Image Processing Azure Ad B2c Fonts C Sql Loopbackjs Domain Driven Design Spring Security Sql Server 2008 R2 Fiware Utf 8 Google Colaboratory Actionscript Dynamic Plot Dojo Protractor Redirect Openstack Macos Unit Testing Language Agnostic Twig Visual C++ Properties Jestjs Cocos2d Iphone Google Cloud Firestore Twitter Bootstrap Log4net Git Mdx Ssrs 2008 Backbone.js Wxpython Drupal Puppet Karate Enums Liferay Sql Server 2012 Datatables Lisp Ember.js Api Sitecore Cassandra Optimization Weblogic Debugging Methods Assembly Project Management Dotnetnuke Installation Azure Functions Button Class Localization Coffeescript Wix Validation Jenkins Curl Netsuite Qml D3.js Jakarta Ee Asp Classic Path Linux Kernel Twilio Debian Zurb Foundation Cloud Foundry Gatsby Mqtt Directory Asp.net Web Api Matrix Udp Lucene Process Firefox Three.js Testing Teamcity Gwt Migration Serial Port Geolocation Aem D Phpunit Django Rest Framework Uitableview Gradle Asp.net Mvc 3 Ansible Qt4 Amazon Web Services Sml Asterisk Entity Framework 4 Web Services Bazel Stanford Nlp Symfony Jsf 2 Directx Rspec Redis Sonarqube Latex Sip Cakephp Java Soap Xsd Blackberry Jqgrid Cobol Mule Internet Explorer Plugins Shiny Asp.net Mvc 2 Pointers Orchardcms Struct Testng Objective C Firebase Fluent Nhibernate Scroll Mod Rewrite Robotframework Floating Point Mysql Vbscript Asp.net Core Mvc Timer Cocoa .net 4.0 Kernel Google Maps Matplotlib Eclipse Plugin Java 8 If Statement Io Axapta Mono Nginx Model

Copyright © 2024. All Rights Reserved by - Fatal编程技术网