无法理解Spark中的UDF,尤其是Java中的UDF
我正在尝试根据另一列的值在Spark数据集中创建一个新列。另一列的值在json文件中作为键进行搜索,并返回其值,即用于新列的值 下面是我尝试过的代码,但它不起作用,我也不确定UDF是如何工作的。在这种情况下,如何使用withColumn或udf添加列无法理解Spark中的UDF,尤其是Java中的UDF,java,apache-spark,dataset,user-defined-functions,Java,Apache Spark,Dataset,User Defined Functions,我正在尝试根据另一列的值在Spark数据集中创建一个新列。另一列的值在json文件中作为键进行搜索,并返回其值,即用于新列的值 下面是我尝试过的代码,但它不起作用,我也不确定UDF是如何工作的。在这种情况下,如何使用withColumn或udf添加列 Dataset<Row> df = spark.read().format("csv").option("header", "true").load("file path"); Object obj = new JSON
Dataset<Row> df = spark.read().format("csv").option("header", "true").load("file path");
Object obj = new JSONParser().parse(new FileReader("json path"));
JSONObject jo = (JSONObject) obj;
df = df.withColumn("cluster", functions.lit(jo.get(df.col("existing col_name")))));
Dataset df=spark.read().format(“csv”).option(“header”,“true”).load(“文件路径”);
Object obj=new JSONParser().parse(新文件读取器(“json路径”);
JSONObject jo=(JSONObject)obj;
df=df.withColumn(“cluster”,functions.lit(jo.get(df.col(“现有col_名称”));
任何帮助都将不胜感激。提前谢谢 Spark允许您使用udf函数创建自定义用户定义函数(udf) 下面是如何定义自定义项的scala片段
val obj = new JSONParser().parse(new FileReader("json path"));
val jo = obj.asInstanceOf[JSONObject];
def getJSONObject(key: String) = {
jo.get(key)
}
定义函数后,可以将其转换为自定义项,如下所示:
val getObject = udf(getJSONObject _)
使用UDF有两种方法
df.withColumn(“cluster”),lit(getObject(col(“existing\u col\u name”)))
spark.sqlContext.udf.register(“get\u对象”,getJSONObject)
然后你就可以把它当作
spark.sql(“从某些表中选择获取对象(现有列”)
其中,使用哪一个是完全主观的。Spark允许您使用udf函数创建自定义用户定义函数(udf) 下面是如何定义自定义项的scala片段
val obj = new JSONParser().parse(new FileReader("json path"));
val jo = obj.asInstanceOf[JSONObject];
def getJSONObject(key: String) = {
jo.get(key)
}
定义函数后,可以将其转换为自定义项,如下所示:
val getObject = udf(getJSONObject _)
使用UDF有两种方法
df.withColumn(“cluster”),lit(getObject(col(“existing\u col\u name”)))
spark.sqlContext.udf.register(“get\u对象”,getJSONObject)
然后你就可以把它当作
spark.sql(“从某些表中选择获取对象(现有列”)
其中,使用哪一个完全是主观的。谢谢@Constantine。从您的示例中,我能够更好地理解UDF。以下是我的java代码:
Object obj = new JSONParser().parse(new FileReader("json path"));
JSONObject jo = (JSONObject) obj;
spark.udf().register("getJsonVal", new UDF1<String, String>() {
@Override
public String call(String key) {
return (String) jo.get(key.substring(0, 5));
}
}, DataTypes.StringType);
df = df.withColumn("cluster", functions.callUDF("getJsonVal", df.col("existing col_name")));
df.show(); // SHOWS NEW CLUSTER COLUMN
objectobj=newjsonparser().parse(新文件读取器(“json路径”);
JSONObject jo=(JSONObject)obj;
spark.udf(){
@凌驾
公共字符串调用(字符串键){
return(String)jo.get(key.substring(0,5));
}
},DataTypes.StringType);
df=df.withColumn(“cluster”,functions.callUDF(“getJsonVal”,df.col(“现有col_名称”));
df.show();//显示新的群集列
谢谢@Constantine。从您的示例中,我能够更好地理解UDF。以下是我的java代码:
Object obj = new JSONParser().parse(new FileReader("json path"));
JSONObject jo = (JSONObject) obj;
spark.udf().register("getJsonVal", new UDF1<String, String>() {
@Override
public String call(String key) {
return (String) jo.get(key.substring(0, 5));
}
}, DataTypes.StringType);
df = df.withColumn("cluster", functions.callUDF("getJsonVal", df.col("existing col_name")));
df.show(); // SHOWS NEW CLUSTER COLUMN
objectobj=newjsonparser().parse(新文件读取器(“json路径”);
JSONObject jo=(JSONObject)obj;
spark.udf(){
@凌驾
公共字符串调用(字符串键){
return(String)jo.get(key.substring(0,5));
}
},DataTypes.StringType);
df=df.withColumn(“cluster”,functions.callUDF(“getJsonVal”,df.col(“现有col_名称”));
df.show();//显示新的群集列
Yup的可能副本的可能副本。。这看起来很好:)很乐意帮忙。。这看起来很好:)很乐意帮忙