Scala 用类标签的平均值填充数据集，导致筛选操作崩溃_Scala_Apache Spark - Fatal编程技术网

Scala 用类标签的平均值填充数据集，导致筛选操作崩溃

scala apache-spark

Scala 用类标签的平均值填充数据集，导致筛选操作崩溃,scala,apache-spark,Scala,Apache Spark,我有一个包含数值的csv文件 val row = withoutHeader.map{ line => { val arr = line.split(',') for (h <- 0 until arr.length){ if(arr(h).trim == ""){ val abc = avgrdd.filter {case ((x,y),z) => x == h && y == arr(dependent_col_inde

我有一个包含数值的csv文件

val row = withoutHeader.map{
  line => {
  val arr = line.split(',')
  for (h <- 0 until arr.length){
     if(arr(h).trim == ""){
        val abc = avgrdd.filter {case ((x,y),z) => x == h && y == arr(dependent_col_index).toDouble} //crashing here
    arr(h) = //imputing with the value above    
     }
  }
  arr.mkString(",")
  }
}

谢谢

您正试图在另一个RDD转换中执行RDD转换。请记住，不能在另一个RDD转换中使用RDD，这将导致错误

处理方法如下：

将不带标头的源RDD

转换为相应类型的成对RDD
（在您的示例中为Long）。缓存它


在无标题的顶部计算avgrdd
。这应该是成对的RDD

将不带标题的RDD和avgrdd连接在一起-这样，每行都有一个结构

在结果顶部执行map
，将缺少的Value
替换为AvgValue
另一个选项可能是在步骤3中将RDD分成两部分（一部分-缺少值的RDD，第二部分-缺少值的RDD），将avgrdd
仅与只包含缺少值的RDD连接，然后在这两部分之间进行并集。如果缺少一小部分值，则速度会更快
col1,dependent_col_index
4,1
8,0
 ,1
21,1
21,0
 ,1
25,1
 ,0
34,1

mean for class 1 is 84/4 = 21 and for class 0 is 29/2 = 14.5

Required Output
4,1
8,0
21,1
21,1
21,0
21,1
25,1
14.5,0
34,1




[apache spark]相关文章推荐



                                                        
Apache spark 我们可以防止Apache Spark转换的惰性吗？
apache-spark 
Apache spark 了解spark sbt插件
apache-spark 
Apache spark 使用配置单元上下文运行查询时发生Spark配置单元异常：org.apache.Spark.sql.AnalysisException
apache-sparkhive 
Apache spark 使用RDD的Spark流上下文
apache-sparkstreaming 
Apache spark 如何在Spark streaming中异步在流数据定义的表上运行SQL查询？
apache-spark 
Apache spark Kubernetes/Mesos中的流动纱线簇
apache-sparkdockerkubernetes 
Apache spark 配置单元执行引擎--Spark--NoClassDefFoundError-SparkCounters
apache-sparkhive 
Apache spark 如何理解测试日志和诊断？
apache-spark 
Apache spark 以字符串开头的Spark数据框搜索列
apache-spark 
Apache spark 如何在Spark数据帧中使用条件连接？
apache-spark 
Apache spark Spark SVD不可复制
apache-spark 
Apache spark ClassNotFoundException:com.fasterxml.jackson.annotation.JsonMerge启动Spark时
apache-spark 
Apache spark 使用Spark编写拼花文件，如何为各个列启用字典
apache-spark 
Apache spark 在临时视图上链接spark sql查询？
apache-spark 
Apache spark 如何使用循环sparksql以编程方式将记录附加到配置单元表？
apache-sparkpysparkhive 
Apache spark Kubernetes sport以群集模式提交--包未按预期工作
apache-sparkkubernetes 
Apache spark spark shuffle内存错误：无法分配直接内存
apache-sparkjvm 
Apache spark Cassandra error org.apache.Spark.unsafe.types.UTF8String中的Spark读取数据不是字符串架构的有效外部类型
apache-sparkcassandra 
Apache spark Spark结构化流媒体作业中的java.io.FileNotFoundException
apache-sparkpyspark 
Apache spark spark从oozie action发出午餐并从控制台成功时失败
apache-spark 
                                       





随机文章推荐



                                                        
Express Jade：如何包含javascript文件
express 
如何在没有模板引擎的情况下创建Express站点？
express 
如何使用javascript从render express方法在客户端获取数据？
express 
expressjs:service静态文件忽略缓存buster
express 
Express res.json（）在尝试显示数据时不起作用
express 
dyld:将gm模块与ExpressJS一起使用时未加载库
expressimagemagick 
Express 在其他企业和用户之间创建贝宝定期付款
expresspaypal 
Express 使用node.js、node-mailer和nodemailer-mailgun传输发送模板电子邮件
express 
Express 当我点击链接时，为什么我的react/webpack应用程序会刷新？
expressreactjswebpack 
Express 获取：从获取响应获取cookie
expresscookies 
Node Express-multer导致控制器调用失败，反之亦然
express 
Express 如何在Angular 4 Universal中添加缓存控制和ETag标头？
expresscaching 
Can'；t同时运行express server和Vue应用程序
expressvue.js 
Express 我可以使用'；这'；快速车把中的运算符作为同一快速车把中的数组索引？
express 
UI5路由实现：Express.js与UI5路由功能
expressroutessapui5 
Express 如何让Sendgrid发送确认电子邮件？
expressjwt 
Express PassportJs身份验证操作允许双方（来宾和登录用户）
express 
我编写了一个类似于教程中解释的代码，但它不起作用。描述中包含的错误
let express=require（“express”）
让我们使用ourApp=express（）
ourApp.get（'/'，函数（req，res）{
res.send(
`
世界上最高的山叫什么名字？
点击这里提交`
) }) 
ourApp.post（'/answer'，函数（req，res）{
如果（要求主体正确==“珠穆朗玛峰”）
res.send（“这是一个正确的答案”）
} ) 
我们的应用程序。听（3000）
express 
Express 如果重新加载页面，会话将过期
express 
如何在Express中使用JPG数据字符串进行响应？
router.get（“/photos”），函数（req，res）{
//获取图像
var image_request=等待axios({
方法：“获取”，
url:“https://i.stack.imgur.com/HQzUc.jpg"
});
console.log（“发送图像”）；
日志（映像请求头）；
res.set（'Content-Type'，image_request.headers[“Content-Type”]）；
res.set（
express


                                        

                                        
                                        


                                                
                                                        [scala]相关推荐
                                                        
Scala 什么是“点名”？
									Scala
							 									Scheme
							 
为什么Scala中的生产者-消费者解决方案不起作用？
									Scala
							 
另一个Scala CanBuildFrom问题：一个集合充实操作符，它包装了另一个不同类型的集合
									Scala
							 
Scala通用宏
									Scala
							 									Generics
							 									Macros
							 
远程语法糖不适用于Scala中的BigInt
									Scala
							 									Import
							 
Scala反射：如何迁移到2.11版
									Scala
							 									Reflection
							 
如何使用Scala使用JavaFX创建组合框？
									Scala
							 									Javafx
							 
Scala 如何设置Akka演员只在特定时间段运行？
									Scala
							 									Akka
							 
Scala 参数化类型的类上的flatMap无法编译
									Scala
							 
软超时使用Scala^Z3使Scala程序的主实例崩溃
									Scala
							 									Z3
							 
Scala：如何模式匹配内部case类的封闭对象？
									Scala
							 
Scala 类扩展特征迭代器中的重写方法map和flatMap
									Scala
							 									Inheritance
							 									Collections
							 
如何编写单行scala代码？
									Scala
							 
Scala Spark leftOuterJoin问题-leftOuterJoin不是org.apache.Spark.rdd.rdd[（String，String）]的成员
									Scala
							 									Apache Spark
							 
Scala Akka（JVM）在ActorSystem之前初始化记录器
									Scala
							 									Logging
							 									Akka
							 
Scala Apache PDFBox，可装箱-HTML有序/无序列表显示不正确
									Scala
							 
Scala Spark历史服务器
									Scala
							 									Apache Spark
							 									Logging
							 									Intellij Idea
							 
Scala 为什么在val上使用没有参数列表的方法
									Scala
							 
Scala：在模式匹配中有没有一种比较值的优雅方法？
									Scala
							 
Scala 如何计算RDD[Long]的标准偏差和平均值？
									Scala
							 									Apache Spark
							 
Scala Meta：对版本感到困惑
									Scala
							 
Scala-如何按引用对元素进行分组？
									Scala
							 									List
							 
在Scala中，与累加器相比，增加foldLeft中的作用域值会产生什么影响
									Scala
							 
将分钟转换为小时scala
									Scala
							 
Scala 将SPARK数据帧插入配置单元管理的Acid表不工作，HDP 3.0
									Scala
							 									Apache Spark
							 									Hive
							 
Scala 让Slick使用表中定义的实体来填充SQL查询和响应
									Scala
							 
Scala 在Spark中强制立即缓存最有效的方法是什么？
									Scala
							 									Apache Spark
							 									Caching
							 
带过滤柱的Scala
									Scala
							 									Apache Spark
							 
Scala 如何转换sbt 0.12“<<；=“地图案例”；至sbt 1.x
									Scala
							 									Sbt
							 
Scala存在型怪异行为
									Scala
							 									Class
							 									Inheritance
							 									Types
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Racket
Soap
Jqgrid
Jaxb
Winforms
Chart.js
Cloud
Spotify
Clearcase
Cygwin
Sql Server
Zsh
Sap
Ignite
Openshift
Sed
Raspberry Pi
Mips
Jsf
Openlayers
Actionscript
Debugging
Telegram
Gnuplot
Grafana
Logstash
Keras
Crystal Reports
Triggers
Sharepoint 2007
Asp.net Mvc
Printing
Automation
Dictionary
Menu
Tfs
Utf 8
Ocaml
Keyboard
Breeze
Apache Camel
Vagrant
Testing
Arrays
Enums
Twig
Text
Scheme
Android Emulator
Rxjs
Html
Delphi
Symfony
Google Analytics
Merge
Machine Learning
Asp.net Core Mvc
Usb
Tcl
C++ Cli
Magento2
Centos
Yii2
Apache Flink
Apache Nifi
Routes
Asp.net Mvc 4
Curl
C++
Google Cloud Platform
Sdk
Safari
Liferay
Hazelcast
Installation
Amazon Redshift
Memory Management
Python
Templates
Single Sign On
Streaming
String
Netty
Jdbc
Cakephp
Coffeescript
Seo
Doctrine Orm
Parameters
Bootstrap 4
Xamarin.android
Email
Acumatica
Webpack
Junit
Azure Data Factory
Material Ui
Makefile
Jquery
Activemq
Pascal
Graphviz
Pandas
Google Drive Api
Migration
C# 3.0
D3.js
Image Processing
Jestjs
Xna
Svg
Jboss
Woocommerce
Dynamics Crm
Asp.net Mvc 2
C# 4.0
Apache Kafka
Database
Azure Functions
Karate
Passwords
Lotus Notes
Sparql
Ruby On Rails
Excel
Drupal 6
Clang
Report
Wolfram Mathematica
Gmail
Webgl
Atom Editor
Reactjs
Graphics
Lucene
Azure Sql Database
Cron
Google Colaboratory
Unicode
Encryption
Xamarin
Joomla
Ravendb
Couchdb
Localization
Wcf
Sprite Kit
Http
Meteor
Sql Server 2008
Codeigniter
Postgresql
Nestjs
System Verilog
Exception
Telerik
Glsl
Playframework
Rdf
Cuda
Swift
Rest
Smtp
R
Youtube Api
Shiny
Kdb
Mfc
Biztalk
Hbase
Jasper Reports
Aurelia
Xamarin.ios
Dataframe
Core Data
Silverlight 4.0
Firefox
Google Plus
Nsis
Arduino
Pdf
Random
Paypal
Couchbase
Applescript
Sonarqube
Gtk
Date
Oracle
Workflow
Exception Handling
Spring Boot
Responsive Design
Puppet
Azure Service Fabric
Ionic Framework
Intellij Idea
Perforce
Ansible
Backbone.js
Sorting


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网