Python 计算pyspark rdd中包含缺失值的列的平均值和中值_Python_Numpy_Lambda_Pyspark - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/323.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 计算pyspark rdd中包含缺失值的列的平均值和中值_Python_Numpy_Lambda_Pyspark - Fatal编程技术网

Python 计算pyspark rdd中包含缺失值的列的平均值和中值

python numpy lambda pyspark

Python 计算pyspark rdd中包含缺失值的列的平均值和中值,python,numpy,lambda,pyspark,Python,Numpy,Lambda,Pyspark,我正在使用PySpark。rdd有一个包含浮点值的列，其中缺少一些行。缺少的行只是空字符串“” 现在，我想将列的平均值和中位数写在空字符串的位置，但是如何计算平均值呢因为rdd.mean（）函数不能处理包含空字符串的浮动列 import numpy as np def replaceEmpty(x): if x=='': x = np.nan return x def fillNA(x): mu = np.nanmean(np.array(x))

我正在使用PySpark。rdd有一个包含浮点值的列，其中缺少一些行。缺少的行只是空字符串“”

现在，我想将列的平均值和中位数写在空字符串的位置，但是如何计算平均值呢
因为rdd.mean（）函数不能处理包含空字符串的浮动列

import numpy as np def replaceEmpty(x): if x=='': x = np.nan return x def fillNA(x): mu = np.nanmean(np.array(x)) if x==np.nan: x = mu return x data = data.map(lambda x: replaceEmpty(x)) data = data.map(lambda x: fillNA(x))
但这种方法并没有真正起作用
最终使用以下方法解决了此问题：
我使用了sqlContext而不是SparkContext。以前，我使用的是：

data = sc.textFile('all_data_col5.txt')
我改为：

data = sqlContext.read.format('com.databricks.spark.csv').options(header=True, inferSchema=False).schema(df_schema).load('all_data_col5.csv')
因为，sqlContext似乎有更多的功能来处理NA值

[numpy]相关文章推荐

Numpy 将方程式的txt文件格式化为相同格式，然后在Python中操纵它们进行线性代数计算 numpy formatting matplotlib

Numpy 在较大阵列中偏移遮罩 numpy matplotlib

numpy连接维度不匹配 numpy

Numpy matplotlib pyplot并排图形 numpy matplotlib

Numpy 恢复的TensorFlow模型每次恢复时都会意外更改权重 numpy tensorflow

Tensorflow tf.reforme（）的行为似乎与numpy.reforme（）不同 numpy tensorflow

Numpy 连续RNG种子是否产生独立的随机数？ numpy random

Numpy 尝试将变量序列馈送至keras LSTMs VALUERROR时：检查输入时出错？ numpy keras

Numpy 一条不应该穿过墙壁的小路 numpy path

Numpy 将数据放在pagelocked地址而不复制 numpy optimization

Numpy 在Symphy中计算和绘制参数方程 numpy

Numpy ValueError:轮廓级别必须增加-如何绘制3个特征数据 numpy matplotlib

基于ROI将numpy阵列剪切并调整大小为新形状 numpy

Numpy 如何用python的Spars方法将两个稀疏矩阵相乘？ numpy

将Fortran数组转换为numpy数组 numpy fortran

将空行插入或附加到numpy数组 numpy

随机文章推荐

Gulp 吞咽（'；数据'；）如何将数据传递到下一个管道 gulp

为什么'；不能使用gulp connect进行实时重新加载工作？ gulp

基于Gulp中的正则表达式重命名文件 gulp

如何在Gulp任务中重命名已编译的sass文件 gulp

使用gulp注入bower依赖项-相对路径问题 gulp

Gulp 吞咽量角器将跳过的测试报告为失败 gulp protractor

Gulp 如何从两个或多个其他任务中运行一个“吞咽”任务并使管道通过 gulp

Gulp：如何将参数从手表传递到任务 gulp

Gulp 吞咽-删除本地插件 gulp

Gulp BrowserSync notify false无法正常工作 gulp

如何将pixi.js与gulp和网页包（包括FXAA）一起使用 gulp webpack

Gulp 极小值不求参数 gulp

gulp 4多个SPA任务组合，包括串联和并联 gulp

Gulp 无法在Visual Studio代码中进行自动标记编译 gulp visual-studio-code markdown

Gulp 服务器端的实时重新加载 gulp

gulp useref不适用于gulp merge gulp

gulp：当我运行任何命令（gulpwatch或gulp）时，显示这个错误 gulp

Gulp 以下任务未完成：发球、sass。您忘记发出异步完成的信号了吗？ gulp

[python]相关推荐

Tags

Service Notifications Mapreduce Raspberry Pi Class Ag Grid Webrtc Ocaml Pyspark Eclipse Rcp Scheme Uml Cucumber Network Programming Soap Deep Learning Exception Handling Go Internet Explorer 8 Windows Phone Nuget Windows Phone 7 Sharepoint Memory Leaks Embedded File Rdf Deployment Biztalk F# Pytorch Editor Codenameone Openshift Corda Google Cloud Dataflow Amp Html Terminal Asp.net Mvc 4 Kotlin Image Gitlab Vue.js Utf 8 Opencart Django Qt4 Blackberry Svg Three.js List Core Data Database Design Opencv Postgresql Jquery Ui Dependency Injection Ipython Wcf Asp.net Mvc Rx Java Google Chrome Devtools Google Analytics Uitableview Intellij Idea Cocos2d X Racket Google App Maker Computer Vision Api Bots Validation Sbt Php Scikit Learn Redis C# 4.0 Selenium Octave Karate Phantomjs Video Streaming Directory Entity Framework 4 Stream Apache Flink Entity Framework Core Browser Asp.net Mvc 3 Appium Logging C# Mobile Android Emulator Navigation Salesforce Hybris Crystal Reports Filter Networking Ftp Mono Sapui5 Windows Store Apps Machine Learning Razor Windows Udp Interface Google Sheets Amazon Dynamodb Unix Variables Mvvm Windows Services Dll Jetty Stata Scala Liferay Jaxb Datatables Google Apps Script Ruby On Rails 3.1 Parse Platform Hibernate Stored Procedures Coq Stanford Nlp Google Api Routing Single Sign On Web Gis Less Antlr Module Cloud Foundry Quickbooks Twilio Nginx Angular Material Express String Flask Logic Spring Cloud Android Ndk Curl Woocommerce Sap Gwt Android Fragments Dynamic Asp Classic Tomcat Laravel 5 D Jenkins Ada Sugarcrm Winforms Cakephp Asynchronous Wso2 Xamarin.android Linux Charts Ssis Tcl Functional Programming Design Patterns Debian Javascript .htaccess Matrix Kentico Calendar Parallel Processing Electron Playframework Memory Meteor Moodle Titanium Zend Framework Vhdl Azure Data Factory Webview Macos Akka Ms Access Gtk Join Ionic2 Azure Functions Http Vmware Junit Dictionary Jestjs

Copyright © 2024. All Rights Reserved by - Fatal编程技术网