Machine learning 单词'；s"；“促进”；TF-IDF期间（主题建模）_Machine Learning_Topic Modeling_Boosting

Machine learning 单词'；s"；“促进”；TF-IDF期间（主题建模）

machine-learning

Machine learning 单词'；s"；“促进”；TF-IDF期间（主题建模）,machine-learning,topic-modeling,boosting,Machine Learning,Topic Modeling,Boosting,情况就是这样。假设我们有一个包含来自聊天的消息的数据集，并且我们希望对它进行主题建模（例如，很少有主题）让我们假设，主题A可能（也应该）由几个单词表示，但我知道（比如说从一些外部来源），所有包含单词word\u to\u boost的消息都应该被预测为A-properties。所有的预处理和单词包都完成了。是否有可能以某种方式“增强”单词word\u to\u boost，建议模型将包含此类单词的所有消息放入A主题？如果是，是否建议这样做我认为这可能是围绕TF-IDF进行的，但可能有不同的方

情况就是这样。假设我们有一个包含来自聊天的消息的数据集，并且我们希望对它进行主题建模（例如，很少有主题）

让我们假设，主题A可能（也应该）由几个单词表示，但我知道（比如说从一些外部来源），所有包含单词word\u to\u boost的消息都应该被预测为A-properties。所有的预处理和单词包都完成了。是否有可能以某种方式“增强”单词word\u to\u boost，建议模型将包含此类单词的所有消息放入A主题？如果是，是否建议这样做

我认为这可能是围绕TF-IDF进行的，但可能有不同的方法

提前谢谢

这里有很多困惑：

主题建模是无监督的，可以看作是一种聚类任务。因此，根据定义，没有预定义的主题，当然也不能为主题/集群预先分配特定的单词
如果任务涉及预定义的“主题”，那么它就是文本分类：使用一些带注释的数据训练模型
在文本分类中，如果一个单词真的是一个很好的类别指示器，那么模型本身就会很好地利用它。ML方法的全部要点是让模型从数据中学习，否则可以使用基于规则的系统
TFIDF是文本分类中常见的权重方案，但手动修改权重也是一个糟糕的想法：为什么要从数据中学习呢

主题建模是无监督的，可以看作是一种聚类任务。因此，根据定义，没有预定义的主题，当然也不能为主题/集群预先分配特定的单词
如果任务涉及预定义的“主题”，那么它就是文本分类：使用一些带注释的数据训练模型
在文本分类中，如果一个单词真的是一个很好的类别指示器，那么模型本身就会很好地利用它。ML方法的全部要点是让模型从数据中学习，否则可以使用基于规则的系统
TFIDF是文本分类中常见的权重方案，但手动修改权重也是一个糟糕的想法：为什么要从数据中学习呢