Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/392.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 根据Spark中的值列表筛选rdd_Java_Apache Spark - Fatal编程技术网

Java 根据Spark中的值列表筛选rdd

Java 根据Spark中的值列表筛选rdd,java,apache-spark,Java,Apache Spark,我想根据Spark中的值列表应用过滤器。以下是我获取列表的方式: DataFrame df = sqlContext.read().json("../sample.json"); df.groupBy("token").count().show(); Tokens = df.select("token").collect(); for(int i = 0; i < Tokens.length; i++){ Syst

我想根据Spark中的值列表应用过滤器。以下是我获取列表的方式:

DataFrame df = sqlContext.read().json("../sample.json");

        df.groupBy("token").count().show();

        Tokens = df.select("token").collect();
        for(int i = 0; i < Tokens.length; i++){
            System.out.println(Tokens[i].get(0)); // Need to apply filter for Token[i].get(0)
        }
DataFrame df=sqlContext.read().json(“../sample.json”);
df.groupBy(“令牌”).count().show();
Tokens=df.select(“token”).collect();
for(int i=0;i
我希望应用过滤器的Rdd是:

JavaRDD<String> file = context.textFile(args[0]);
JavaRDD file=context.textFile(args[0]);
我想出了一种用java进行过滤的方法:

private static final Function<String, Boolean> Filter =
            new Function<String, Boolean>() {
                @Override
                public Boolean call(String s) {
                    return s.contains("Set");
                }
            };
专用静态最终函数过滤器=
新函数(){
@凌驾
公共布尔调用(字符串s){
返回s.contains(“集合”);
}
};

我该怎么办呢?

也许我没有完全理解你的问题。如果您已经创建了一个列表,并且希望使用该列表过滤您的文件rdd,那么您是否可以不简单地使用
filter
功能

file.filter(str -> list.contains(str))

也许我没有完全理解你的问题。如果您已经创建了一个列表,并且希望使用该列表过滤您的文件rdd,那么您是否可以不简单地使用
filter
功能

file.filter(str -> list.contains(str))