Python 如何在pyspark中汇总未知数据帧中最后一列的所有值_Python_Apache Spark_Pyspark_Apache Spark Sql - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何在pyspark中汇总未知数据帧中最后一列的所有值_Python_Apache Spark_Pyspark_Apache Spark Sql - Fatal编程技术网

Python 如何在pyspark中汇总未知数据帧中最后一列的所有值

python apache-spark pyspark

Python 如何在pyspark中汇总未知数据帧中最后一列的所有值,python,apache-spark,pyspark,apache-spark-sql,Python,Apache Spark,Pyspark,Apache Spark Sql,我是数据科学的新手，我正在使用Google Colab进行一个简单的自我项目。我从something.csv文件中获取了一个数据，该文件的列用####加密，因此我不知道列的名称。我想将该.csv文件最后一列的所有值相加下面是我使用pyspark解决它的尝试 df = spark.read.csv('something.csv', header=True) 现在我想对“col”列中的值求和。我搜索了其他stackoverflow帖子，但不知道如何求和。使用.agg（sum（））获取最后一列的所

我是数据科学的新手，我正在使用Google Colab进行一个简单的自我项目。我从

something.csv

文件中获取了一个数据，该文件的列用

####

加密，因此我不知道列的名称。我想将该.csv文件最后一列的所有值相加

下面是我使用pyspark解决它的尝试

df = spark.read.csv('something.csv', header=True)

现在我想对“col”列中的值求和。我搜索了其他stackoverflow帖子，但不知道如何求和。

使用

.agg（sum（））

获取最后一列的所有值之和示例： df.show() #+---+-------------+---+ #| id| Name| va| #+---+-------------+---+ #| 1| 'Gary'| 5| #| 1| 'Danny'| 4| #| 2| 'Kevin'| 3| #| 2|'Christopher'| 2| #+---+-------------+---+ #lastcolumn last_col=df[df.columns[len(df.columns)-1]] #get sum of last column df.agg(sum(last_col)).show() #or df.agg(sum(*[df.columns[-1]])).show() #+-------+ #|sum(va)| #+-------+ #| 14| #+-------+ from pyspark.sql.functions import expr expression = '+'.join(cols_list) df = df.withColumn('col', expr(expression))

[apache spark]相关文章推荐

随机文章推荐

Dotnetnuke dot net nuke 5管理员帐户需要更多电子邮件 dotnetnuke

什么'；正如DotNetNuke文档中所建议的那样，从UNC共享运行IIS web应用程序有什么不好？ dotnetnuke

Dotnetnuke DNN模块没有'；在视图模式下不包括css/js dotnetnuke

Dotnetnuke 显示模块在除管理员页面DNN7之外的所有站点页面中 dotnetnuke

Dotnetnuke DNN 7中的自定义错误处理？ dotnetnuke

未找到方法：'；DotNetNuke.Entities.Portals.PortalAliasCollection DotNetNuke.Entities.Portals.portalaliascocontroller.GetPortalAliases（） dotnetnuke

Dotnetnuke 从不同的门户DNN获取2sxc应用程序数据 dotnetnuke

Dotnetnuke 在DNN中，如何在Javascript文件中获取基本URL dotnetnuke

[python]相关推荐

每当我将Python代码放入Django模板时出现语法错误
Python Django Templates

在Windows上安装python的最佳方法是什么
Python Python 3.x Installation

Python 字符串未按预期转换为浮点
Python Floating Point

Python Scikit分类比较/排名
Python Scikit Learn

Python 在给定源代码的情况下，如何使用CFFI调用现有的C函数？
Python C Unit Testing

Python 如果条件为true，则创建具有相邻列表元素的元组列表
Python List Python 3.x

Python:convert'；自1990年以来的天数'；更新时间对象
Python Datetime

Python 复制和合并不包括某些扩展名的目录
Python Windows

Python 如何以干净高效的方式在pytorch中获得小批量？
Python Numpy Machine Learning Deep Learning Pytorch

Python pandas.io.json.json_使用非常嵌套的json进行规范化
Python Json Python 3.x Pandas

Python Can'；t通过pip安装Django 2.0
Python Django

Python 如何将numpy数组映像转换为字节？
Python Python 3.x Numpy Opencv Google Cloud Platform

Python np.log（）和np.diff（）的逆运算是什么？
Python Arrays Python 3.x Pandas Numpy

Python 如何覆盖django rest框架（DRF）中的响应类？
Python Django Django Rest Framework

Python jupyter实验室中的plot.ly脱机模式不显示绘图
Python

Python 如何在Django中自定义默认身份验证登录表单？
Python Django

Python将根据分组删除重复的行
Python Pandas Dataframe

PYTHON：如何以最具PYTHON风格的方式将两个词典合并到一个列表中
Python List Dictionary

无法理解python decorator函数
Python Function

Python plotly_连接标记，带线内标签
Python

Python 多标头数据帧中的dropna（）
Python Pandas

Python Selenium隐式等待时间是不可变的吗？
Python Selenium

Python 验证数据时出现ValueError错误
Python Validation

Python列表理解有时很慢
Python Optimization

通过Python将不同大小列表的字典写入CSV
Python Csv

Python 转移表中重复序列的计数
Python Arrays Pandas Numpy

Python 具有多输出形状的Tensorflow子类keras
Python Tensorflow Keras

Python 连接递归列表和字符串时出错（后缀到中缀）
Python Python 3.x List Recursion

Python 在数据帧列表上执行.loc（作为reindex），并将结果存储为新数据帧
Python Pandas

Python中的Spacy正则表达式短语匹配器
Python Regex

Tags

Jmeter Continuous Integration Windows 7 Maven Quickbooks Git Mfc Arrays Mediawiki Process Swift Bots .net 4.0 Magento2 Raspberry Pi Robotframework Hibernate Lucene Svg Types Windows Phone 8 Linkedin Sdk Visual Studio 2012 Netbeans Validation Android Fragments Mqtt Sockets Installation Clearcase Protocol Buffers Lua File Io Openlayers Gis Wcf Mdx Phpmyadmin Orm Asp.net Core Mvc C# 4.0 Mvvm Java 8 Material Ui Google Plus Actionscript Codenameone Sip Next.js Umbraco Extjs Configuration Network Programming Osgi Migration Google Cloud Dataflow Dependencies Notifications For Loop Orchardcms Racket Webview Bootstrap 4 Vba Corda Ip Airflow Xcode Jpa Multithreading Zurb Foundation Ide Ajax Prometheus Visual C++ Odoo Binary Dart Blackberry Windows 10 Hybris Python 3.x Eclipse Plugin Visual Studio 2013 Pycharm Ckeditor Netty Rest D3.js Directory Ios8 Nativescript Polymer Performance Coldfusion Responsive Design Layout Microsoft Graph Api Ipython Libgdx Dll Dataframe Apache Pig Dojo Entity Framework Core Webrtc Nlp Google Maps Cocos2d X Openlayers 3 Silverlight Reporting Services Xslt Ios Nservicebus Gdb Algorithm Drupal Browser Llvm Authentication Wxpython Design Patterns Actions On Google Keyboard Powerbi Nsis Apache Spark Css Artifactory Url Latex Sql Gnuplot Silverstripe Hazelcast Ocaml Workflow Teradata Login Unity3d Oracle Apex Xamarin.ios Date Extjs4 Jetty Matrix Jqgrid Serialization Here Api Pyspark Asp.net Mvc 4 Cordova Google App Maker File Debian Serial Port Mapbox Ms Word Jsf Service Azure Ad B2c Listview X86 Cobol Passwords Geolocation Jquery Coding Style Anaconda Kentico Monitoring Parallel Processing Join Vector Pascal Three.js Testng Numpy Cookies Navigation Database Design Nuget Ada Mpi Jquery Mobile Binding Gruntjs Sml Chart.js Time Complexity Kubernetes Cmd List Macros Android Emulator Bazel Memory Management Angular6 Jsp

Copyright © 2024. All Rights Reserved by - Fatal编程技术网