Apache spark 将函数应用于Spark中csv的单个列_Apache Spark_Pyspark_Spark Dataframe - Fatal编程技术网

Apache spark 将函数应用于Spark中csv的单个列

apache-spark pyspark

Apache spark 将函数应用于Spark中csv的单个列,apache-spark,pyspark,spark-dataframe,Apache Spark,Pyspark,Spark Dataframe,使用Spark，我正在读取csv，并希望将函数应用于csv上的列。我有一些代码可以工作，但它非常粗糙。正确的方法是什么我的代码 SparkContext().addPyFile("myfile.py") spark = SparkSession\ .builder\ .appName("myApp")\ .getOrCreate() from myfile import myFunction df = spark.read.csv(sys.argv[1], heade

使用Spark，我正在读取csv，并希望将函数应用于csv上的列。我有一些代码可以工作，但它非常粗糙。正确的方法是什么

我的代码

SparkContext().addPyFile("myfile.py")
spark = SparkSession\
    .builder\
    .appName("myApp")\
    .getOrCreate()
from myfile import myFunction

df = spark.read.csv(sys.argv[1], header=True,
    mode="DROPMALFORMED",)
a = df.rdd.map(lambda line: Row(id=line[0], user_id=line[1], message_id=line[2], message=myFunction(line[3]))).toDF()

我希望能够在列名上调用函数，而不是将每一行映射到

行

，然后在

行[index]

上调用函数

我使用的是Spark 2.0.1版

您可以简单地将用户定义的函数（

udf

）与带列的

组合使用：
from pyspark.sql.types import IntegerType
from pyspark.sql.functions import udf

udf_myFunction = udf(myFunction, IntegerType()) # if the function returns an int
df = df.withColumn("message", udf_myFunction("_3")) #"_3" being the column name of the column you want to consider

这将在数据框df
中添加一个新列，其中包含myFunction（第[3]行）的结果




[pyspark]相关文章推荐



                                                        
使用pyspark配置单元上下文连接两个表
pyspark 
DataProcPySparkOperator群集区域和区域问题
pysparkairflow 
pyspark将数据帧写入hbase，整数值以字节形式加载
pysparkhbase 
将列追加到pyspark数据帧
pyspark 
Pyspark 如何将csv/txt文件加载到AWS粘合作业中
pyspark 
将具有嵌套结构的数组与PySpark数据框中的其他列一起转换为字符串列
pyspark 
如何在pyspark中获得确定性随机排序？
pyspark 
Pyspark Pypark can'；t将浮点转换为浮点：-/
pyspark 
pyspark SVD特征向量与PCA特征向量之间的差异意味着什么？
pyspark 
Pyspark 应用该模型后转换数据帧的Pypark提取概率
pyspark 
pyspark中列的规格化或缩放
pyspark 
如何使用Expr检查pyspark中整个列是否包含值
pyspark 
Pyspark 基于上一行/当前行的Pypark排名
pyspark 
如何在pyspark中安装kafka模块
pysparkapache-kafka 
Pyspark Pypark将索引列传递给元素_at（）
pyspark 
pyspark-不支持操作异常：空集合
pyspark 
Pyspark 在简化的示例中，显示udf showString错误
pyspark 
Pyspark -------------+--------------+--------------+
|登录|第1页|第2页|第5页|
|第1页|第2页|第5页|第3页|
|第2页|第2页|第5页|第3页|
|第2页|第5页|第3页|第2页|
|第5页|第3页|第2页|退出|
|第3页|第2页|退出|退出|
|第2页|第2页|退出|退出|
|第2页|退出|退出|退出|
+-----+--------------+--------------+--------------+
pyspark 
Pyspark 无效的参数：请求失败：不支持通配符表
pysparkgoogle-bigquery 
Pyspark “如何克服火花”；设备上没有剩余空间”；AWS粘合作业中出错
pyspark 
                                       





随机文章推荐



                                                        
C# 3.0 C#中接口的伪多重继承及其扩展方法？
c#-3.0 
C# 3.0 使用lambda（C#3.0）对循环进行转换
c#-3.0 
C# 3.0 在文本文件中所做的更改（以编程方式）不会反映出来
c#-3.0 
C# 3.0 基于n-gram技术的单词预测引擎
c#-3.0


                                        

                                        
                                        


                                                
                                                        [apache spark]相关推荐
                                                        
Apache spark 避免"；“任务不可序列化”；在类中使用嵌套方法
									Apache Spark
							 
Apache spark Spark：我们如何在其他会话中访问内存表。
									Apache Spark
							 
Apache spark 如何从多台机器获取火花流的输入？
									Apache Spark
							 									Pyspark
							 
Apache spark Google云数据流的备用管道运行程序
									Apache Spark
							 									Google Cloud Dataflow
							 									Apache Flink
							 
Apache spark 在pyspark中使用缓冲区收集RDD
									Apache Spark
							 									Pyspark
							 
Apache spark 为什么我的spark应用突然比以前慢了很多？
									Apache Spark
							 									Pyspark
							 
Apache spark 在spark数据帧中合并时间戳列的最有效方法
									Apache Spark
							 									Dataframe
							 									Pyspark
							 
Apache spark 使用Cypher可视化强连接组件结果
									Apache Spark
							 									Neo4j
							 
Apache spark 基于case语句的PySpark连接
									Apache Spark
							 									Pyspark
							 
Apache spark 如何在pyspark中将密集向量的RDD转换为数据帧？
									Apache Spark
							 									Pyspark
							 
Apache spark 获取数据帧的当前分区数
									Apache Spark
							 									Dataframe
							 
Apache spark pyspark.sql.DataFrameWriter.saveAsTable（）的格式
									Apache Spark
							 									Pyspark
							 
Apache spark Spark dataframe saveAsTable未截断配置单元表中的数据
									Apache Spark
							 
Apache spark 如何基于RDD列的子集有效地选择RDD上不同的行`
									Apache Spark
							 
Apache spark 任务和分区之间的关系是什么？
									Apache Spark
							 
Apache spark Spark SQL是否使用重复表达式优化查询？
									Apache Spark
							 									Pyspark
							 
Apache spark 使用spark streaming将每个Kafka消息保存在hdfs中
									Apache Spark
							 									Apache Kafka
							 
Apache spark 为什么apache spark的保存功能包含一个包含多个子文件的文件夹？
									Apache Spark
							 
Apache spark Spark RDD：根据文本文件格式进行分区
									Apache Spark
							 									Hadoop
							 
Apache spark 火花1.5.2左外接头不工作
									Apache Spark
							 
Apache spark 如何更新ORC流媒体接收器中的现有条目？
									Apache Spark
							 
Apache spark 根据现有列中的值将Spark数据帧划分为选定数量的分区
									Apache Spark
							 
Apache spark Spark 2.2连接失败，数据集庞大
									Apache Spark
							 									Join
							 									Cluster Computing
							 
Apache spark 在PySpark中计算事务数据中的天数，但从第二天早上6点到第二天早上6点
									Apache Spark
							 									Pyspark
							 
Apache spark 使用自定义模式读取数据
									Apache Spark
							 
Apache spark Apache Spark SQL读写Cassandra TTL
									Apache Spark
							 									Cassandra
							 
Apache spark Pyspark仅从结构的数组中读取一个元素
									Apache Spark
							 									Pyspark
							 
Apache spark 使用dataframe.schema与dataframe.printSchema（）比较pyspark架构
									Apache Spark
							 									Types
							 									Pyspark
							 
Apache spark ApacheSpark-映射、过滤和获取（1）
									Apache Spark
							 									Pyspark
							 
Apache spark Spark工人不断退出
									Apache Spark
							 									Pyspark
							 									Jupyter Notebook
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Active Directory
Backbone.js
Nhibernate
Xslt
Wso2
Xamarin
Silverlight 4.0
Firefox
Google Bigquery
Couchdb
Extjs4
Extjs
Reactjs
Tree
Kibana
Grafana
Tomcat
Dask
Laravel 5
Protractor
Dependencies
Asp.net Web Api
Sitecore
For Loop
Salesforce
Compilation
Acumatica
Julia
Bison
Haskell
Object
Nuget
Nest
Libgdx
Soap
Css
Oop
Devexpress
Mapreduce
Mfc
Plot
Svg
Ruby
Compiler Errors
Perforce
Jestjs
Joomla
Signalr
Adobe
Frameworks
Git
Xml
Jms
Phpunit
Amazon Dynamodb
Ffmpeg
Sml
Printing
Javafx
Google App Engine
Paypal
Doctrine Orm
3d
Multithreading
Tsql
Dynamics Crm
Symfony
Internet Explorer
Activerecord
Corda
Directory
Razor
Azure Service Fabric
Uitableview
Clearcase
Linker
Cocoa Touch
Jasmine
C# 3.0
Single Sign On
Memory
Vagrant
Awk
Markdown
Gstreamer
C++
Yii2
Testng
Gdb
Apache Camel
Firefox Addon
Yocto
Automated Tests
Qt
Url Rewriting
Mpi
Apache Zookeeper
Oracle Apex
Wcf
Drupal
Curl
Plugins
Blockchain
Scripting
Mapping
Python Sphinx
Mvvm
Jhipster
Windows 10
Stata
Parallel Processing
Office Js
Outlook
Dictionary
Html
Breeze
Facebook
Less
Jsf
Mongoose
Xaml
Compression
Karate
Exchange Server
Cloud Foundry
Zurb Foundation
Amazon S3
Jdbc
Logic
Mediawiki
Firebase
Linq
Z3
Big O
Migration
Replace
Encoding
Material Ui
Selenium Webdriver
Fortran
Discord.py
Dll
Bots
Asp.net Core
Twitter
Pine Script
Kdb
Ionic2
Django Models
Sdk
Antlr4
Drupal 6
Configuration
Ag Grid
Meteor
Arm
Performance
Statistics
Language Agnostic
R
Http
Kotlin
C++ Cli
Content Management System
Algorithm
Validation
Excel Formula
Terraform
Cookies
Dynamic
Serialization
Pentaho
Design Patterns
Sql Server 2008 R2
Netbeans
Security
Math
Drupal 7
Robotframework
Workflow
Xsd
Directx
Optimization
Hash
Text
Azure
Vim
Tabs
Parsing
Influxdb
Qt4
Struct
Compiler Construction
Protocol Buffers
Google Cloud Storage
Routes
Odoo
Lucene
Node.js
Objective C
.net


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网