Apache spark 如何在Spark中矢量化一组文档_Apache Spark

Apache spark 如何在Spark中矢量化一组文档

apache-spark

Apache spark 如何在Spark中矢量化一组文档,apache-spark,Apache Spark,我是Apache Spark的新手。我有一堆文本文档，我想把它们转换成稀疏的TF矢量文档。也就是说，我想生成一个矩阵，其中列显示单词（术语），行描述文档，每个元素是文档中术语（按列显示）的术语频率（按行显示）。我注意到类TFHashing做了这样一件事，尽管我不知道如何使用它我想传递一个包含我所有文本文档的文件夹，并获取一个包含稀疏矩阵的文件。此外，Spark是否支持任何形式的n-gram？我的意思是使用2-gram或3-gram来标记术语，例如 ApacheMahout有一个强大的工具，名为

我是Apache Spark的新手。我有一堆文本文档，我想把它们转换成稀疏的TF矢量文档。也就是说，我想生成一个矩阵，其中列显示单词（术语），行描述文档，每个元素是文档中术语（按列显示）的术语频率（按行显示）。我注意到类

TFHashing

做了这样一件事，尽管我不知道如何使用它

我想传递一个包含我所有文本文档的文件夹，并获取一个包含稀疏矩阵的文件。此外，Spark是否支持任何形式的n-gram？我的意思是使用2-gram或3-gram来标记术语，例如

ApacheMahout有一个强大的工具，名为

seq2sparse

，它完成了我提到的所有任务，我正在Spark中寻找类似的东西

我需要将矢量化的输出传递给最近发布的LDA

有一个问题