Facebook fasttext与LDA的比较
嗨,上周Facebook发布了Fasttext,这是一种将单词分类到bucket中的方法。潜在Dirichlet分配也是进行主题建模的另一种方法。我的问题是,有没有人在这两个方面做过正反两方面的比较 我还没有尝试过Fasttext,但根据我的经验,这里有一些关于LDA的赞成和反对意见 专业的Facebook fasttext与LDA的比较,facebook,scala,apache-spark,Facebook,Scala,Apache Spark,嗨,上周Facebook发布了Fasttext,这是一种将单词分类到bucket中的方法。潜在Dirichlet分配也是进行主题建模的另一种方法。我的问题是,有没有人在这两个方面做过正反两方面的比较 我还没有尝试过Fasttext,但根据我的经验,这里有一些关于LDA的赞成和反对意见 专业的 迭代模型,支持ApacheSpark 获取文档语料库并进行主题建模 不仅可以找到文档所谈论的内容,还可以找到相关文档 ApacheSpark社区一直在为此做出贡献。之前他们让它在mllib上工作,现在在ml
如果有人在Fasttext中做过研究,您能否随您的学习进行更新?Fasttext提供的不仅仅是主题建模,它是使用浅层神经网络生成单词嵌入和文本分类的工具。 作者表示,它的性能与更复杂的“深度学习”算法相当,但训练时间明显较低 优点: =>训练自己的fastText模型非常容易
$。/fasttext skipgram-input data.txt-output model
只需提供您的输入和输出文件、要使用的体系结构等等,但如果您希望稍微自定义您的模型,fastText还提供了更改超参数的选项
=>在生成词向量时,fastText会考虑称为字符n-grams的词的子部分,以便类似的词具有相似的向量,即使它们碰巧出现在不同的上下文中。例如,“监督”、“监督”和“监督”都被分配了类似的向量
=>先前训练的模型可用于计算词汇表外单词的单词向量。这是我最喜欢的。即使你的语料库的词汇量是有限的,你也可以得到世界上几乎任何单词的向量
=>fastText还提供了为段落或句子生成向量的选项。通过比较文档向量,可以找到类似的文档
=>还包括预测文本可能标签的选项
=>在维基百科上训练过的大约90种语言的预训练词向量可以在官方repo中找到
缺点:
=>由于fastText是基于命令行的,我在将其合并到项目中时遇到了困难,但这对其他人来说可能不是问题
=>没有内置的方法来查找相似的单词或段落
对于希望阅读更多内容的读者,以下是官方研究论文的链接:
(一)
(二)
并链接至官方回购协议: