如何在Java Spark MLLib中使用映射和缩减合并文本文件？_Java_Apache Spark_Svm_Yarn_Apache Spark Mllib

如何在Java Spark MLLib中使用映射和缩减合并文本文件？

java apache-spark

如何在Java Spark MLLib中使用映射和缩减合并文本文件？,java,apache-spark,svm,yarn,apache-spark-mllib,Java,Apache Spark,Svm,Yarn,Apache Spark Mllib,我有一个非常大的数据集存储在Hadoop（纱线集群）上，我想用它来训练支持向量机分类器。从数据集中的每个数据点提取特征，并以格式保存。 Spark MLLib可以使用（JavaSparkContext上下文，字符串目录）读取这些文件。每个文件都有一行以换行符结尾的双精度字符。该线表示要素的值我想把所有这些文件连接成一个JavaRDD。我可以将.textFile（“../*”）与某种.join或.union语句一起使用吗？我不明白该怎么做你能帮忙吗？我想更多的人希望知道如何有效地做到

我有一个非常大的数据集存储在Hadoop（纱线集群）上，我想用它来训练支持向量机分类器。从数据集中的每个数据点提取特征，并以格式保存。 Spark MLLib可以使用（JavaSparkContext上下文，字符串目录）读取这些文件。每个文件都有一行以换行符结尾的双精度字符。该线表示要素的值

我想把所有这些文件连接成一个JavaRDD。我可以将.textFile（“../*”）与某种.join或.union语句一起使用吗？我不明白该怎么做

你能帮忙吗？

我想更多的人希望知道如何有效地做到这一点。

SparkContext.textFile（“/path/to/file/*”）将读取所有匹配的文件，并为您表示一个大型RDD

我认为

MLUtils.LoadLibSVMFile（sc，“/path/to/file/*”）

将为您加载所有功能。你试过了吗？

你说得对：）MLUtils.LoadLibSVMFile（sc，“/path/to/file/*”）确实加载了我需要的所有功能。你可能还知道我在哪里可以找到Spark的RBF内核版本，或者一些人，我们可以用他们对线性内核进行这样的扩展。我想人们已经有了。我希望你有耐心：）谢谢你的链接！我有耐心，但也想贡献我的知识：）但它是用Scala编写的，所以我可能无法在Java中使用它？（我正在用Java编写代码）是的，你可以。您可以在一个项目中混合使用Java和Scala，许多IDE可以分别识别和编译。您可能知道SVMModel.predict（）的输出意味着什么吗？如下所示，这些价值观对我来说毫无意义。文件也丢失了…*-18.841544889249917 0.0 168.32916035523283 1.0 420.67763915879794 1.0 -974.1942589201286 0.0 71.73602841256813 1.0 233.13636224524993 1.0 -1000.5902168199027 0.0