Facebook fasttext与LDA的比较_Facebook_Scala_Apache Spark

Facebook fasttext与LDA的比较

facebook scala apache-spark

Facebook fasttext与LDA的比较,facebook,scala,apache-spark,Facebook,Scala,Apache Spark,嗨，上周Facebook发布了Fasttext，这是一种将单词分类到bucket中的方法。潜在Dirichlet分配也是进行主题建模的另一种方法。我的问题是，有没有人在这两个方面做过正反两方面的比较我还没有尝试过Fasttext，但根据我的经验，这里有一些关于LDA的赞成和反对意见专业的迭代模型，支持ApacheSpark 获取文档语料库并进行主题建模不仅可以找到文档所谈论的内容，还可以找到相关文档 ApacheSpark社区一直在为此做出贡献。之前他们让它在mllib上工作，现在在ml

嗨，上周Facebook发布了Fasttext，这是一种将单词分类到bucket中的方法。潜在Dirichlet分配也是进行主题建模的另一种方法。我的问题是，有没有人在这两个方面做过正反两方面的比较

我还没有尝试过Fasttext，但根据我的经验，这里有一些关于LDA的赞成和反对意见

专业的

迭代模型，支持ApacheSpark

获取文档语料库并进行主题建模

不仅可以找到文档所谈论的内容，还可以找到相关文档

ApacheSpark社区一直在为此做出贡献。之前他们让它在mllib上工作，现在在ml库上工作

骗局

停止词需要定义清楚。它们必须与文档的上下文相关。例如：“document”是一个出现频率很高的词，可能在推荐主题列表中排名靠前，但它可能相关，也可能不相关，因此我们需要为此更新stopword

有时分类可能是不相关的。在下面的例子中，很难推断这个桶在说什么

主题：

术语：纪律

术语：学科

术语：notestable

术语：获胜

术语：路径

术语：章节闭合表

术语：元程序

术语：突破

术语：区别

术语：救援

如果有人在Fasttext中做过研究，您能否随您的学习进行更新？

Fasttext提供的不仅仅是主题建模，它是使用浅层神经网络生成单词嵌入和文本分类的工具。作者表示，它的性能与更复杂的“深度学习”算法相当，但训练时间明显较低

优点：

=>训练自己的fastText模型非常容易

$。/fasttext skipgram-input data.txt-output model

只需提供您的输入和输出文件、要使用的体系结构等等，但如果您希望稍微自定义您的模型，fastText还提供了更改超参数的选项

=>在生成词向量时，fastText会考虑称为字符n-grams的词的子部分，以便类似的词具有相似的向量，即使它们碰巧出现在不同的上下文中。例如，“监督”、“监督”和“监督”都被分配了类似的向量

=>先前训练的模型可用于计算词汇表外单词的单词向量。这是我最喜欢的。即使你的语料库的词汇量是有限的，你也可以得到世界上几乎任何单词的向量

=>fastText还提供了为段落或句子生成向量的选项。通过比较文档向量，可以找到类似的文档

=>还包括预测文本可能标签的选项

=>在维基百科上训练过的大约90种语言的预训练词向量可以在官方repo中找到

缺点：

=>由于fastText是基于命令行的，我在将其合并到项目中时遇到了困难，但这对其他人来说可能不是问题

=>没有内置的方法来查找相似的单词或段落

对于希望阅读更多内容的读者，以下是官方研究论文的链接：

(一)

(二)

并链接至官方回购协议：