Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何在Java Spark MLLib中使用映射和缩减合并文本文件?_Java_Apache Spark_Svm_Yarn_Apache Spark Mllib - Fatal编程技术网

如何在Java Spark MLLib中使用映射和缩减合并文本文件?

如何在Java Spark MLLib中使用映射和缩减合并文本文件?,java,apache-spark,svm,yarn,apache-spark-mllib,Java,Apache Spark,Svm,Yarn,Apache Spark Mllib,我有一个非常大的数据集存储在Hadoop(纱线集群)上,我想用它来训练支持向量机分类器。 从数据集中的每个数据点提取特征,并以格式保存。 Spark MLLib可以使用(JavaSparkContext上下文,字符串目录)读取这些文件。 每个文件都有一行以换行符结尾的双精度字符。该线表示要素的值 我想把所有这些文件连接成一个JavaRDD。 我可以将.textFile(“../*”)与某种.join或.union语句一起使用吗? 我不明白该怎么做 你能帮忙吗? 我想更多的人希望知道如何有效地做到

我有一个非常大的数据集存储在Hadoop(纱线集群)上,我想用它来训练支持向量机分类器。 从数据集中的每个数据点提取特征,并以格式保存。 Spark MLLib可以使用(JavaSparkContext上下文,字符串目录)读取这些文件。 每个文件都有一行以换行符结尾的双精度字符。该线表示要素的值

我想把所有这些文件连接成一个JavaRDD。 我可以将.textFile(“../*”)与某种.join或.union语句一起使用吗? 我不明白该怎么做

你能帮忙吗?
我想更多的人希望知道如何有效地做到这一点。

SparkContext.textFile(“/path/to/file/*”)将读取所有匹配的文件,并为您表示一个大型RDD


我认为
MLUtils.LoadLibSVMFile(sc,“/path/to/file/*”)
将为您加载所有功能。你试过了吗?

你说得对:)MLUtils.LoadLibSVMFile(sc,“/path/to/file/*”)确实加载了我需要的所有功能。你可能还知道我在哪里可以找到Spark的RBF内核版本,或者一些人,我们可以用他们对线性内核进行这样的扩展。我想人们已经有了。我希望你有耐心:)谢谢你的链接!我有耐心,但也想贡献我的知识:)但它是用Scala编写的,所以我可能无法在Java中使用它?(我正在用Java编写代码)是的,你可以。您可以在一个项目中混合使用Java和Scala,许多IDE可以分别识别和编译。您可能知道SVMModel.predict()的输出意味着什么吗?如下所示,这些价值观对我来说毫无意义。文件也丢失了…*-18.841544889249917 0.0 168.32916035523283 1.0 420.67763915879794 1.0 -974.1942589201286 0.0 71.73602841256813 1.0 233.13636224524993 1.0 -1000.5902168199027 0.0