Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 如何在Spark中矢量化一组文档_Apache Spark - Fatal编程技术网

Apache spark 如何在Spark中矢量化一组文档

Apache spark 如何在Spark中矢量化一组文档,apache-spark,Apache Spark,我是Apache Spark的新手。我有一堆文本文档,我想把它们转换成稀疏的TF矢量文档。也就是说,我想生成一个矩阵,其中列显示单词(术语),行描述文档,每个元素是文档中术语(按列显示)的术语频率(按行显示)。我注意到类TFHashing做了这样一件事,尽管我不知道如何使用它 我想传递一个包含我所有文本文档的文件夹,并获取一个包含稀疏矩阵的文件。此外,Spark是否支持任何形式的n-gram?我的意思是使用2-gram或3-gram来标记术语,例如 ApacheMahout有一个强大的工具,名为

我是Apache Spark的新手。我有一堆文本文档,我想把它们转换成稀疏的TF矢量文档。也就是说,我想生成一个矩阵,其中列显示单词(术语),行描述文档,每个元素是文档中术语(按列显示)的术语频率(按行显示)。我注意到类
TFHashing
做了这样一件事,尽管我不知道如何使用它

我想传递一个包含我所有文本文档的文件夹,并获取一个包含稀疏矩阵的文件。此外,Spark是否支持任何形式的n-gram?我的意思是使用2-gram或3-gram来标记术语,例如

ApacheMahout有一个强大的工具,名为
seq2sparse
,它完成了我提到的所有任务,我正在Spark中寻找类似的东西

我需要将矢量化的输出传递给最近发布的LDA

有一个问题