Machine learning 是否使用(LDA、HDP)自动创建主题?

Machine learning 是否使用(LDA、HDP)自动创建主题?,machine-learning,lda,Machine Learning,Lda,我正在写简历进行分类,我用过LDA。 通过设置N=3,我对简历营销、计算机、沟通三个不同概念的测试结果很好。 现在的问题是,我怎样才能创建一个新的主题,当然,通过将它添加到现有的主题中,为新的简历添加财务或其他概念 事实上,我的目标是每次都产生新的主题,以获得新的概念 我每天都会得到不同的CV和不同的概念,我怀疑选择哪种算法HDP,在线LDA可以用于我的自动分类。LDA或其他主题模型不是分类方法。在监督学习的背景下,它们应该被视为降维/预处理/同义词发现方法:不是将文档表示为一袋单词,而是将其表

我正在写简历进行分类,我用过LDA。 通过设置N=3,我对简历营销、计算机、沟通三个不同概念的测试结果很好。 现在的问题是,我怎样才能创建一个新的主题,当然,通过将它添加到现有的主题中,为新的简历添加财务或其他概念

事实上,我的目标是每次都产生新的主题,以获得新的概念


我每天都会得到不同的CV和不同的概念,我怀疑选择哪种算法HDP,在线LDA可以用于我的自动分类。

LDA或其他主题模型不是分类方法。在监督学习的背景下,它们应该被视为降维/预处理/同义词发现方法:不是将文档表示为一袋单词,而是将其表示为其在主题上的后部。不要假设因为分类任务中有3个类,所以为LDA选择3个主题。主题模型参数应设置为最佳模型,通过困惑度或主题模型的某些其他质量度量来衡量文档,检查David Mimno最近的工作中的其他可能性,然后主题概率/后验参数向量或任何您认为有用的向量应输入到监督学习方法中


你会看到这正是Blei等人在原始LDA论文中所遵循的实验设置。

我测试了LDA_Gibas采样器,通过选择Environment R中的主题数量,对于新文档,当然,对于新词典,我使用了相关主题。我的意思是,对于每个新文档,我都应该固定主题数量,这是我的第一个困难,我以前做过相关主题的测试。如何将相关主题与现有主题进行整合?这是我的第二个困难。为了解决我的问题,我编写了一个融合函数,用于将现有主题与相关主题进行整合,此函数用于将现有主题与相关主题以及其中任何一个主题都不包含的单词进行比较。它将应用于新主题,但这样做并不好!