Nlp 什么'；LDA对于短文本的缺点是什么？_Nlp_Lda_Topic Modeling

Nlp 什么'；LDA对于短文本的缺点是什么？

nlp

Nlp 什么'；LDA对于短文本的缺点是什么？,nlp,lda,topic-modeling,Nlp,Lda,Topic Modeling,我试图理解为什么潜在Dirichlet分配（LDA）在Twitter这样的短文本环境中表现不佳。我读过“短文本的双项主题模型”这篇论文，但是，我仍然不理解“单词共现的稀疏性” 在我看来，LDA的生成部分对于任何类型的文本都是合理的，但是在短文本中导致不良结果的是抽样过程。我猜LDA基于两个部分为一个单词抽取一个主题：（1）同一文档中其他单词的主题（2）该单词其他出现的主题分配。由于短文的（1）部分不能反映它的真实分布，这导致每个单词的主题分配不好如果您发现了这个问题，请随时发布您的想法，并帮助

我试图理解为什么潜在Dirichlet分配（LDA）在Twitter这样的短文本环境中表现不佳。我读过“短文本的双项主题模型”这篇论文，但是，我仍然不理解“单词共现的稀疏性”

在我看来，LDA的生成部分对于任何类型的文本都是合理的，但是在短文本中导致不良结果的是抽样过程。我猜LDA基于两个部分为一个单词抽取一个主题：（1）同一文档中其他单词的主题（2）该单词其他出现的主题分配。由于短文的（1）部分不能反映它的真实分布，这导致每个单词的主题分配不好

如果您发现了这个问题，请随时发布您的想法，并帮助我理解。

做了一些挖掘，这是一个很好的例子，说明这些方法在分类推文时效果不佳。不幸的是，他们并没有真正深入了解它为什么不起作用

我怀疑有两个原因LDA不能很好地处理短文档

首先，当处理较小的文档时，额外的主题层不会向分类中添加任何内容，而且没有帮助的内容可能会带来伤害。如果你有很短的文档，比如推特，那么很难将文档分解成主题。毕竟，除了推文中的一个主题之外，没有太多的空间。由于主题层对分类的贡献不大，因此它为系统中出现错误留出了空间

其次，从语言上讲，推特用户在推特时更喜欢去掉“不必要的绒毛”。在处理完整文档时，可能会有一些特征——词语、词语搭配等——这些特征可能是特定的、常见的，并且在一种类型中经常重复。然而，在推特上，这些常见的元素首先会被删除，因为有趣的、新的、更令人困惑的是，当绒毛被去除后，剩下的是什么

例如，让我们看看因为我相信无耻的自我推销：

Progressbar.py is a fun little package, though I don't get 
a chance to use it too often. it even does ETAs for you 
https://pypi.python.org/pypi/progressbar …

From a capitalist perspective, the social sciences exist so 
idiot engineers don't waste money on building **** no one needs.

Abstract enough to be reusable, specific enough to be useful.

第一个是关于Python的。如果您正在解析URL，您将得到它，.py也会提供给您。然而，在一个更具表现力的媒介中，我可能会把“Python”这个词放在某个地方。第二个也是与编程相关的，但更多的是在业务端。不过，它甚至一次也没有提到任何特定于编程的东西。最后一个也是与编程相关的，但更多地与编程艺术联系在一起，表达了程序员在编码时面临的一种双重绑定。就功能而言，这和第二个一样困难

在最后两个例子中，如果我没有写一篇微博帖子的话，接下来会有一些对分类器非常有用的例子，或者这些例子本身包含了更多的数据。不过，推特没有空间容纳这类内容，而且推特所属类型的典型内容也被剥离了

最后，我们有两个问题。长度对于LDA来说是一个问题，因为主题增加了额外的、不必要的自由度，而推特对于任何分类器来说都是一个问题，因为在分类中通常有用的特征会被作者选择性地删除。

LDA等概率模型利用统计推断来发现数据的潜在模式。简言之，他们根据观测结果推断模型参数。例如，有一个黑盒子，里面有许多不同颜色的球。你从盒子里画出一些球，然后推断出球的颜色分布。这是一个典型的统计推断过程。统计推断的准确性取决于观察的数量

现在考虑LDA在短文本上的问题。LDA将文档建模为主题的混合体，然后每个单词都从其中一个主题中提取出来。你可以想象一个黑匣子包含了由这样一个模型生成的大量单词。现在您已经看到了一个简短的文档，其中只有几个字。观察结果明显太少，无法推断参数。这就是我们提到的数据稀疏性问题

事实上，除了缺乏观察之外，问题还来自模型的过于复杂。通常，更灵活的模型需要更多的观察来推断。通过降低模型的复杂度，尝试使主题推理更容易。首先，它将整个语料库建模为主题的混合体。因为在语料库上推断主题混合比在短文档上推断主题混合更容易。其次，它假设每个位项都来自一个主题。由于添加了更多的上下文，因此推断位术语的主题也比推断LDA中单个单词的主题更容易

我希望这个解释对你有意义。感谢您提及我们的论文。

同意您的观点，LDA的文档主题层对于短文本是不必要的。还需要进一步的解释，也许是LDA在短文本中出错的过程，或者是理论上的解释？