Facebook fasttext与LDA的比较

Facebook fasttext与LDA的比较,facebook,scala,apache-spark,Facebook,Scala,Apache Spark,嗨,上周Facebook发布了Fasttext,这是一种将单词分类到bucket中的方法。潜在Dirichlet分配也是进行主题建模的另一种方法。我的问题是,有没有人在这两个方面做过正反两方面的比较 我还没有尝试过Fasttext,但根据我的经验,这里有一些关于LDA的赞成和反对意见 专业的 迭代模型,支持ApacheSpark 获取文档语料库并进行主题建模 不仅可以找到文档所谈论的内容,还可以找到相关文档 ApacheSpark社区一直在为此做出贡献。之前他们让它在mllib上工作,现在在ml

嗨,上周Facebook发布了Fasttext,这是一种将单词分类到bucket中的方法。潜在Dirichlet分配也是进行主题建模的另一种方法。我的问题是,有没有人在这两个方面做过正反两方面的比较

我还没有尝试过Fasttext,但根据我的经验,这里有一些关于LDA的赞成和反对意见

专业的

  • 迭代模型,支持ApacheSpark

  • 获取文档语料库并进行主题建模

  • 不仅可以找到文档所谈论的内容,还可以找到相关文档

  • ApacheSpark社区一直在为此做出贡献。之前他们让它在mllib上工作,现在在ml库上工作

  • 骗局

  • 停止词需要定义清楚。它们必须与文档的上下文相关。例如:“document”是一个出现频率很高的词,可能在推荐主题列表中排名靠前,但它可能相关,也可能不相关,因此我们需要为此更新stopword

  • 有时分类可能是不相关的。在下面的例子中,很难推断这个桶在说什么

  • 主题:

  • 术语:纪律

  • 术语:学科

  • 术语:notestable

  • 术语:获胜

  • 术语:路径

  • 术语:章节闭合表

  • 术语:元程序

  • 术语:突破

  • 术语:区别

  • 术语:救援


  • 如果有人在Fasttext中做过研究,您能否随您的学习进行更新?

    Fasttext提供的不仅仅是主题建模,它是使用浅层神经网络生成单词嵌入和文本分类的工具。 作者表示,它的性能与更复杂的“深度学习”算法相当,但训练时间明显较低

    优点:

    =>训练自己的fastText模型非常容易

    $。/fasttext skipgram-input data.txt-output model

    只需提供您的输入和输出文件、要使用的体系结构等等,但如果您希望稍微自定义您的模型,fastText还提供了更改超参数的选项

    =>在生成词向量时,fastText会考虑称为字符n-grams的词的子部分,以便类似的词具有相似的向量,即使它们碰巧出现在不同的上下文中。例如,“监督”、“监督”和“监督”都被分配了类似的向量

    =>先前训练的模型可用于计算词汇表外单词的单词向量。这是我最喜欢的。即使你的语料库的词汇量是有限的,你也可以得到世界上几乎任何单词的向量

    =>fastText还提供了为段落或句子生成向量的选项。通过比较文档向量,可以找到类似的文档

    =>还包括预测文本可能标签的选项

    =>在维基百科上训练过的大约90种语言的预训练词向量可以在官方repo中找到

    缺点:

    =>由于fastText是基于命令行的,我在将其合并到项目中时遇到了困难,但这对其他人来说可能不是问题

    =>没有内置的方法来查找相似的单词或段落

    对于希望阅读更多内容的读者,以下是官方研究论文的链接:

    (一)

    (二)

    并链接至官方回购协议: