无法理解Spark中的UDF，尤其是Java中的UDF_Java_Apache Spark_Dataset_User Defined Functions

无法理解Spark中的UDF，尤其是Java中的UDF

java apache-spark

无法理解Spark中的UDF，尤其是Java中的UDF,java,apache-spark,dataset,user-defined-functions,Java,Apache Spark,Dataset,User Defined Functions,我正在尝试根据另一列的值在Spark数据集中创建一个新列。另一列的值在json文件中作为键进行搜索，并返回其值，即用于新列的值下面是我尝试过的代码，但它不起作用，我也不确定UDF是如何工作的。在这种情况下，如何使用withColumn或udf添加列 Dataset<Row> df = spark.read().format("csv").option("header", "true").load("file path"); Object obj = new JSON

我正在尝试根据另一列的值在Spark数据集中创建一个新列。另一列的值在json文件中作为键进行搜索，并返回其值，即用于新列的值

下面是我尝试过的代码，但它不起作用，我也不确定UDF是如何工作的。在这种情况下，如何使用withColumn或udf添加列

Dataset<Row> df = spark.read().format("csv").option("header", "true").load("file path");
        Object obj = new JSONParser().parse(new FileReader("json path"));
        JSONObject jo = (JSONObject) obj;

        df = df.withColumn("cluster", functions.lit(jo.get(df.col("existing col_name")))));

Dataset df=spark.read（）.format（“csv”）.option（“header”，“true”）.load（“文件路径”）；
Object obj=new JSONParser（）.parse（新文件读取器（“json路径”）；
JSONObject jo=（JSONObject）obj；
df=df.withColumn（“cluster”，functions.lit（jo.get（df.col（“现有col_名称”））；

任何帮助都将不胜感激。提前谢谢

Spark允许您使用udf函数创建自定义用户定义函数（udf）

下面是如何定义自定义项的scala片段

val obj = new JSONParser().parse(new FileReader("json path"));
val jo = obj.asInstanceOf[JSONObject];

def getJSONObject(key: String) = {
   jo.get(key)
}

定义函数后，可以将其转换为自定义项，如下所示：

 val getObject = udf(getJSONObject _)

使用UDF有两种方法

df.withColumn（“cluster”），lit（getObject（col（“existing\u col\u name”）））

如果您使用的是spark sql，那么在使用它之前必须在sqlContext中注册udf

spark.sqlContext.udf.register（“get\u对象”，getJSONObject）

然后你就可以把它当作

spark.sql（“从某些表中选择获取对象（现有列”）

其中，使用哪一个是完全主观的。