Machine learning 如何消除主题建模噪音?

Machine learning 如何消除主题建模噪音?,machine-learning,nlp,topic-modeling,topic-maps,Machine Learning,Nlp,Topic Modeling,Topic Maps,我正在进行主题建模,其中给定的文本语料库在删除停止词后会以支持词的形式出现大量噪音。这些词的词频较高,但与其他有用的高频词一起使用LDA无助于形成主题词。如何消除这种干扰?LDA算法在输入中不采用tf idf权重,而是采用一袋单词,但是您可以首先根据tf idf分数从语料库中过滤单词,然后将新文本输入LDA程序 最基本的事情是你做一个TF-IDF并清除分数,如果这仍然没有帮助,那么你可以创建特定领域的自定义停止词列表。假设我在一个jobs域中,单词“job”不是一个常规的stopword,但在j

我正在进行主题建模,其中给定的文本语料库在删除停止词后会以支持词的形式出现大量噪音。这些词的词频较高,但与其他有用的高频词一起使用LDA无助于形成主题词。如何消除这种干扰?

LDA算法在输入中不采用tf idf权重,而是采用一袋单词,但是您可以首先根据tf idf分数从语料库中过滤单词,然后将新文本输入LDA程序

最基本的事情是你做一个TF-IDF并清除分数,如果这仍然没有帮助,那么你可以创建特定领域的自定义停止词列表。假设我在一个jobs域中,单词“job”不是一个常规的stopword,但在jobs域中是,或者公司名称是一个stopword,因为它在许多文档中重复出现。因此,建立自定义停止词列表是另一种方法。

根据tf idf分数进行过滤效果不佳?或者只使用一些常用词词典。