Java 如何为每个RDD Spark流式处理
我有一个CSV文件queries.txt,我读取的文件如下:Java 如何为每个RDD Spark流式处理,java,foreach,apache-spark,hashmap,Java,Foreach,Apache Spark,Hashmap,我有一个CSV文件queries.txt,我读取的文件如下: JavaRDD<String> distFile = sc.textFile("queries.txt"); javarddistfile=sc.textFile(“querys.txt”); querys.txt文件的架构为: Uniq_Id、、、…csv中的一些数值 我需要为每一行创建一个HashMap,它的键是querys.txt文件(Uniq_Id)的第一列,值是HashMap文件中的其他列 例如。(这不是一个
JavaRDD<String> distFile = sc.textFile("queries.txt");
javarddistfile=sc.textFile(“querys.txt”);
querys.txt文件的架构为:
Uniq_Id、、、…csv中的一些数值
我需要为每一行创建一个HashMap,它的键是querys.txt文件(Uniq_Id)的第一列,值是HashMap文件中的其他列
例如。(这不是一个真实的例子,也不是一个有效的例子,我只是想传达其本质)
HashMap totalMap=newhashmap();
对于(inti=0;i我想这就是您要寻找的,但是这个示例不解析CSV行本身
JavaRDD<String> distFile = sc.textFile("queries.txt");
HashMap totalMap = new HashMap<Integer, NumericValues>();
distFile.foreach(new VoidFunction<String>(){
public void call(String line) {
totalMap.put(yourCSVParser(line)); //this is dummy function call
}});
javarddistfile=sc.textFile(“querys.txt”);
HashMap totalMap=新的HashMap();
distFile.foreach(新的VoidFunction(){
公共作废调用(字符串行){
totalMap.put(yourCSVParser(line));//这是一个伪函数调用
}});
我想这就是您要查找的内容,但是这个示例没有解析CSV行本身
JavaRDD<String> distFile = sc.textFile("queries.txt");
HashMap totalMap = new HashMap<Integer, NumericValues>();
distFile.foreach(new VoidFunction<String>(){
public void call(String line) {
totalMap.put(yourCSVParser(line)); //this is dummy function call
}});
javarddistfile=sc.textFile(“querys.txt”);
HashMap totalMap=新的HashMap();
distFile.foreach(新的VoidFunction(){
公共作废调用(字符串行){
totalMap.put(yourCSVParser(line));//这是一个伪函数调用
}});