Machine learning 单词';s";“促进”;TF-IDF期间(主题建模)

Machine learning 单词';s";“促进”;TF-IDF期间(主题建模),machine-learning,topic-modeling,boosting,Machine Learning,Topic Modeling,Boosting,情况就是这样。假设我们有一个包含来自聊天的消息的数据集,并且我们希望对它进行主题建模(例如,很少有主题) 让我们假设,主题A可能(也应该)由几个单词表示,但我知道(比如说从一些外部来源),所有包含单词word\u to\u boost的消息都应该被预测为A-properties。所有的预处理和单词包都完成了。是否有可能以某种方式“增强”单词word\u to\u boost,建议模型将包含此类单词的所有消息放入A主题?如果是,是否建议这样做 我认为这可能是围绕TF-IDF进行的,但可能有不同的方

情况就是这样。假设我们有一个包含来自聊天的消息的数据集,并且我们希望对它进行主题建模(例如,很少有主题)

让我们假设,主题A可能(也应该)由几个单词表示,但我知道(比如说从一些外部来源),所有包含单词word\u to\u boost的消息都应该被预测为A-properties。所有的预处理和单词包都完成了。是否有可能以某种方式“增强”单词word\u to\u boost,建议模型将包含此类单词的所有消息放入A主题?如果是,是否建议这样做

我认为这可能是围绕TF-IDF进行的,但可能有不同的方法


提前谢谢

这里有很多困惑:

  • 主题建模是无监督的,可以看作是一种聚类任务。因此,根据定义,没有预定义的主题,当然也不能为主题/集群预先分配特定的单词
  • 如果任务涉及预定义的“主题”,那么它就是文本分类:使用一些带注释的数据训练模型
  • 在文本分类中,如果一个单词真的是一个很好的类别指示器,那么模型本身就会很好地利用它。ML方法的全部要点是让模型从数据中学习,否则可以使用基于规则的系统
  • TFIDF是文本分类中常见的权重方案,但手动修改权重也是一个糟糕的想法:为什么要从数据中学习呢

    • 这里有大量的混乱:

      • 主题建模是无监督的,可以看作是一种聚类任务。因此,根据定义,没有预定义的主题,当然也不能为主题/集群预先分配特定的单词
      • 如果任务涉及预定义的“主题”,那么它就是文本分类:使用一些带注释的数据训练模型
      • 在文本分类中,如果一个单词真的是一个很好的类别指示器,那么模型本身就会很好地利用它。ML方法的全部要点是让模型从数据中学习,否则可以使用基于规则的系统
      • TFIDF是文本分类中常见的权重方案,但手动修改权重也是一个糟糕的想法:为什么要从数据中学习呢