Nlp 什么';LDA对于短文本的缺点是什么?

Nlp 什么';LDA对于短文本的缺点是什么?,nlp,lda,topic-modeling,Nlp,Lda,Topic Modeling,我试图理解为什么潜在Dirichlet分配(LDA)在Twitter这样的短文本环境中表现不佳。我读过“短文本的双项主题模型”这篇论文,但是,我仍然不理解“单词共现的稀疏性” 在我看来,LDA的生成部分对于任何类型的文本都是合理的,但是在短文本中导致不良结果的是抽样过程。我猜LDA基于两个部分为一个单词抽取一个主题:(1)同一文档中其他单词的主题(2)该单词其他出现的主题分配。由于短文的(1)部分不能反映它的真实分布,这导致每个单词的主题分配不好 如果您发现了这个问题,请随时发布您的想法,并帮助

我试图理解为什么潜在Dirichlet分配(LDA)在Twitter这样的短文本环境中表现不佳。我读过“短文本的双项主题模型”这篇论文,但是,我仍然不理解“单词共现的稀疏性”

在我看来,LDA的生成部分对于任何类型的文本都是合理的,但是在短文本中导致不良结果的是抽样过程。我猜LDA基于两个部分为一个单词抽取一个主题:(1)同一文档中其他单词的主题(2)该单词其他出现的主题分配。由于短文的(1)部分不能反映它的真实分布,这导致每个单词的主题分配不好

如果您发现了这个问题,请随时发布您的想法,并帮助我理解。

做了一些挖掘,这是一个很好的例子,说明这些方法在分类推文时效果不佳。不幸的是,他们并没有真正深入了解它为什么不起作用

我怀疑有两个原因LDA不能很好地处理短文档

首先,当处理较小的文档时,额外的主题层不会向分类中添加任何内容,而且没有帮助的内容可能会带来伤害。如果你有很短的文档,比如推特,那么很难将文档分解成主题。毕竟,除了推文中的一个主题之外,没有太多的空间。由于主题层对分类的贡献不大,因此它为系统中出现错误留出了空间

其次,从语言上讲,推特用户在推特时更喜欢去掉“不必要的绒毛”。在处理完整文档时,可能会有一些特征——词语、词语搭配等——这些特征可能是特定的、常见的,并且在一种类型中经常重复。然而,在推特上,这些常见的元素首先会被删除,因为有趣的、新的、更令人困惑的是,当绒毛被去除后,剩下的是什么

例如,让我们看看因为我相信无耻的自我推销:

Progressbar.py is a fun little package, though I don't get 
a chance to use it too often. it even does ETAs for you 
https://pypi.python.org/pypi/progressbar …

From a capitalist perspective, the social sciences exist so 
idiot engineers don't waste money on building **** no one needs.

Abstract enough to be reusable, specific enough to be useful.
第一个是关于Python的。如果您正在解析URL,您将得到它,.py也会提供给您。然而,在一个更具表现力的媒介中,我可能会把“Python”这个词放在某个地方。第二个也是与编程相关的,但更多的是在业务端。不过,它甚至一次也没有提到任何特定于编程的东西。最后一个也是与编程相关的,但更多地与编程艺术联系在一起,表达了程序员在编码时面临的一种双重绑定。就功能而言,这和第二个一样困难

在最后两个例子中,如果我没有写一篇微博帖子的话,接下来会有一些对分类器非常有用的例子,或者这些例子本身包含了更多的数据。不过,推特没有空间容纳这类内容,而且推特所属类型的典型内容也被剥离了


最后,我们有两个问题。长度对于LDA来说是一个问题,因为主题增加了额外的、不必要的自由度,而推特对于任何分类器来说都是一个问题,因为在分类中通常有用的特征会被作者选择性地删除。

LDA等概率模型利用统计推断来发现数据的潜在模式。简言之,他们根据观测结果推断模型参数。例如,有一个黑盒子,里面有许多不同颜色的球。你从盒子里画出一些球,然后推断出球的颜色分布。这是一个典型的统计推断过程。统计推断的准确性取决于观察的数量

现在考虑LDA在短文本上的问题。LDA将文档建模为主题的混合体,然后每个单词都从其中一个主题中提取出来。你可以想象一个黑匣子包含了由这样一个模型生成的大量单词。现在您已经看到了一个简短的文档,其中只有几个字。观察结果明显太少,无法推断参数。这就是我们提到的数据稀疏性问题

事实上,除了缺乏观察之外,问题还来自模型的过于复杂。通常,更灵活的模型需要更多的观察来推断。通过降低模型的复杂度,尝试使主题推理更容易。首先,它将整个语料库建模为主题的混合体。因为在语料库上推断主题混合比在短文档上推断主题混合更容易。其次,它假设每个位项都来自一个主题。由于添加了更多的上下文,因此推断位术语的主题也比推断LDA中单个单词的主题更容易


我希望这个解释对你有意义。感谢您提及我们的论文。

同意您的观点,LDA的文档主题层对于短文本是不必要的。还需要进一步的解释,也许是LDA在短文本中出错的过程,或者是理论上的解释?