Apache spark 将函数应用于Spark中csv的单个列

Apache spark 将函数应用于Spark中csv的单个列,apache-spark,pyspark,spark-dataframe,Apache Spark,Pyspark,Spark Dataframe,使用Spark,我正在读取csv,并希望将函数应用于csv上的列。我有一些代码可以工作,但它非常粗糙。正确的方法是什么 我的代码 SparkContext().addPyFile("myfile.py") spark = SparkSession\ .builder\ .appName("myApp")\ .getOrCreate() from myfile import myFunction df = spark.read.csv(sys.argv[1], heade

使用Spark,我正在读取csv,并希望将函数应用于csv上的列。我有一些代码可以工作,但它非常粗糙。正确的方法是什么

我的代码

SparkContext().addPyFile("myfile.py")
spark = SparkSession\
    .builder\
    .appName("myApp")\
    .getOrCreate()
from myfile import myFunction

df = spark.read.csv(sys.argv[1], header=True,
    mode="DROPMALFORMED",)
a = df.rdd.map(lambda line: Row(id=line[0], user_id=line[1], message_id=line[2], message=myFunction(line[3]))).toDF()
我希望能够在列名上调用函数,而不是将每一行映射到
,然后在
行[index]
上调用函数


我使用的是Spark 2.0.1版

您可以简单地将用户定义的函数(
udf
)与带列的
组合使用:

from pyspark.sql.types import IntegerType
from pyspark.sql.functions import udf

udf_myFunction = udf(myFunction, IntegerType()) # if the function returns an int
df = df.withColumn("message", udf_myFunction("_3")) #"_3" being the column name of the column you want to consider
这将在数据框
df
中添加一个新列,其中包含
myFunction(第[3]行)的结果