Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/315.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
无法理解Spark中的UDF,尤其是Java中的UDF_Java_Apache Spark_Dataset_User Defined Functions - Fatal编程技术网

无法理解Spark中的UDF,尤其是Java中的UDF

无法理解Spark中的UDF,尤其是Java中的UDF,java,apache-spark,dataset,user-defined-functions,Java,Apache Spark,Dataset,User Defined Functions,我正在尝试根据另一列的值在Spark数据集中创建一个新列。另一列的值在json文件中作为键进行搜索,并返回其值,即用于新列的值 下面是我尝试过的代码,但它不起作用,我也不确定UDF是如何工作的。在这种情况下,如何使用withColumn或udf添加列 Dataset<Row> df = spark.read().format("csv").option("header", "true").load("file path"); Object obj = new JSON

我正在尝试根据另一列的值在Spark数据集中创建一个新列。另一列的值在json文件中作为键进行搜索,并返回其值,即用于新列的值

下面是我尝试过的代码,但它不起作用,我也不确定UDF是如何工作的。在这种情况下,如何使用withColumn或udf添加列

Dataset<Row> df = spark.read().format("csv").option("header", "true").load("file path");
        Object obj = new JSONParser().parse(new FileReader("json path"));
        JSONObject jo = (JSONObject) obj;

        df = df.withColumn("cluster", functions.lit(jo.get(df.col("existing col_name")))));
Dataset df=spark.read().format(“csv”).option(“header”,“true”).load(“文件路径”);
Object obj=new JSONParser().parse(新文件读取器(“json路径”);
JSONObject jo=(JSONObject)obj;
df=df.withColumn(“cluster”,functions.lit(jo.get(df.col(“现有col_名称”));

任何帮助都将不胜感激。提前谢谢

Spark允许您使用udf函数创建自定义用户定义函数(udf)

下面是如何定义自定义项的scala片段

val obj = new JSONParser().parse(new FileReader("json path"));
val jo = obj.asInstanceOf[JSONObject];

def getJSONObject(key: String) = {
   jo.get(key)
}
定义函数后,可以将其转换为自定义项,如下所示:

 val getObject = udf(getJSONObject _)
使用UDF有两种方法

  • df.withColumn(“cluster”),lit(getObject(col(“existing\u col\u name”)))

  • 如果您使用的是spark sql,那么在使用它之前必须在sqlContext中注册udf

    spark.sqlContext.udf.register(“get\u对象”,getJSONObject)

    然后你就可以把它当作

    spark.sql(“从某些表中选择获取对象(现有列”)


  • 其中,使用哪一个是完全主观的。

    Spark允许您使用udf函数创建自定义用户定义函数(udf)

    下面是如何定义自定义项的scala片段

    val obj = new JSONParser().parse(new FileReader("json path"));
    val jo = obj.asInstanceOf[JSONObject];
    
    def getJSONObject(key: String) = {
       jo.get(key)
    }
    
    定义函数后,可以将其转换为自定义项,如下所示:

     val getObject = udf(getJSONObject _)
    
    使用UDF有两种方法

  • df.withColumn(“cluster”),lit(getObject(col(“existing\u col\u name”)))

  • 如果您使用的是spark sql,那么在使用它之前必须在sqlContext中注册udf

    spark.sqlContext.udf.register(“get\u对象”,getJSONObject)

    然后你就可以把它当作

    spark.sql(“从某些表中选择获取对象(现有列”)


  • 其中,使用哪一个完全是主观的。

    谢谢@Constantine。从您的示例中,我能够更好地理解UDF。以下是我的java代码:

            Object obj = new JSONParser().parse(new FileReader("json path"));
            JSONObject jo = (JSONObject) obj;
    
            spark.udf().register("getJsonVal", new UDF1<String, String>() {
                @Override
                public String call(String key) {
                    return  (String) jo.get(key.substring(0, 5));
                }
            }, DataTypes.StringType);
    
            df = df.withColumn("cluster", functions.callUDF("getJsonVal", df.col("existing col_name")));
            df.show(); // SHOWS NEW CLUSTER COLUMN
    
    objectobj=newjsonparser().parse(新文件读取器(“json路径”);
    JSONObject jo=(JSONObject)obj;
    spark.udf(){
    @凌驾
    公共字符串调用(字符串键){
    return(String)jo.get(key.substring(0,5));
    }
    },DataTypes.StringType);
    df=df.withColumn(“cluster”,functions.callUDF(“getJsonVal”,df.col(“现有col_名称”));
    df.show();//显示新的群集列
    
    谢谢@Constantine。从您的示例中,我能够更好地理解UDF。以下是我的java代码:

            Object obj = new JSONParser().parse(new FileReader("json path"));
            JSONObject jo = (JSONObject) obj;
    
            spark.udf().register("getJsonVal", new UDF1<String, String>() {
                @Override
                public String call(String key) {
                    return  (String) jo.get(key.substring(0, 5));
                }
            }, DataTypes.StringType);
    
            df = df.withColumn("cluster", functions.callUDF("getJsonVal", df.col("existing col_name")));
            df.show(); // SHOWS NEW CLUSTER COLUMN
    
    objectobj=newjsonparser().parse(新文件读取器(“json路径”);
    JSONObject jo=(JSONObject)obj;
    spark.udf(){
    @凌驾
    公共字符串调用(字符串键){
    return(String)jo.get(key.substring(0,5));
    }
    },DataTypes.StringType);
    df=df.withColumn(“cluster”,functions.callUDF(“getJsonVal”,df.col(“现有col_名称”));
    df.show();//显示新的群集列
    
    Yup的可能副本的可能副本。。这看起来很好:)很乐意帮忙。。这看起来很好:)很乐意帮忙