Java 根据Spark中的值列表筛选rdd
我想根据Spark中的值列表应用过滤器。以下是我获取列表的方式:Java 根据Spark中的值列表筛选rdd,java,apache-spark,Java,Apache Spark,我想根据Spark中的值列表应用过滤器。以下是我获取列表的方式: DataFrame df = sqlContext.read().json("../sample.json"); df.groupBy("token").count().show(); Tokens = df.select("token").collect(); for(int i = 0; i < Tokens.length; i++){ Syst
DataFrame df = sqlContext.read().json("../sample.json");
df.groupBy("token").count().show();
Tokens = df.select("token").collect();
for(int i = 0; i < Tokens.length; i++){
System.out.println(Tokens[i].get(0)); // Need to apply filter for Token[i].get(0)
}
DataFrame df=sqlContext.read().json(“../sample.json”);
df.groupBy(“令牌”).count().show();
Tokens=df.select(“token”).collect();
for(int i=0;i
我希望应用过滤器的Rdd是:
JavaRDD<String> file = context.textFile(args[0]);
JavaRDD file=context.textFile(args[0]);
我想出了一种用java进行过滤的方法:
private static final Function<String, Boolean> Filter =
new Function<String, Boolean>() {
@Override
public Boolean call(String s) {
return s.contains("Set");
}
};
专用静态最终函数过滤器=
新函数(){
@凌驾
公共布尔调用(字符串s){
返回s.contains(“集合”);
}
};
我该怎么办呢?也许我没有完全理解你的问题。如果您已经创建了一个列表,并且希望使用该列表过滤您的文件rdd,那么您是否可以不简单地使用
filter
功能
file.filter(str -> list.contains(str))
也许我没有完全理解你的问题。如果您已经创建了一个列表,并且希望使用该列表过滤您的文件rdd,那么您是否可以不简单地使用
filter
功能
file.filter(str -> list.contains(str))