Nlp 简单二进制文本分类

Nlp 简单二进制文本分类,nlp,text-classification,n-gram,document-classification,latent-semantic-indexing,Nlp,Text Classification,N Gram,Document Classification,Latent Semantic Indexing,我寻求一种最有效、最简单的方法,将800k+学术文章分类为与定义的概念空间(此处:)相关(1)或无关(0) 数据为:标题和摘要(平均值=1300个字符) 可以使用甚至组合任何方法,包括有监督的机器学习和/或通过建立引起一些阈值以供包含的特征等 虽然单靠简单的频率计数是不可靠的,但这些方法可以利用这些数据。潜在的途径可能包括潜在的语义分析,n-grams 生成训练数据可能对多达1%的语料库是现实的,尽管这已经意味着手动编码8000篇文章(1=相关,0=不相关),这是否足够 我非常欣赏具体的想法和一

我寻求一种最有效、最简单的方法,将800k+学术文章分类为与定义的概念空间(此处:)相关(1)或无关(0)

数据为:标题和摘要(平均值=1300个字符)

可以使用甚至组合任何方法,包括有监督的机器学习和/或通过建立引起一些阈值以供包含的特征等

虽然单靠简单的频率计数是不可靠的,但这些方法可以利用这些数据。潜在的途径可能包括潜在的语义分析,n-grams

生成训练数据可能对多达1%的语料库是现实的,尽管这已经意味着手动编码8000篇文章(1=相关,0=不相关),这是否足够

我非常欣赏具体的想法和一些简短的推理,这样我就可以对如何进行做出明智的决定。非常感谢

有几个想法:

  • 运行LDA并获取文档主题和主题词分布(20个主题取决于您的数据集对不同主题的覆盖率)。将相关主题最高且nr%较低的文档的前r%分配为相关,将nr%较低的文档分配为非相关。然后在这些带标签的文档上训练分类器

  • 只需使用一袋单词,检索到与您的查询(您的概念空间)最接近的前r个单词作为相关,而borrom nr%作为不相关,并在它们上面训练一个分类器

  • 如果你有引文,你可以通过标记很少的论文,在网络图上运行标签传播

  • 不要忘记通过将标题词更改为title_word1使标题词与抽象词不同,这样任何分类器都可以对它们施加更多权重

  • 将文章分为100个簇,然后选择,然后手动标记这些簇。根据语料库中不同主题的覆盖率选择100。您还可以为此使用层次聚类

  • 如果相关文档的数量远远少于非相关文档,那么最好的方法是找到概念空间的最近邻居(例如,使用Lucene中实现的信息检索)。然后,您可以手动查看排名结果,直到您觉得文档不再相关


  • 这些方法中的大多数是用于文本分类的自举弱监督方法,关于这些方法,您可以查阅更多文献

    你如何定义相关性?仅考虑1%的训练语料是不合理的。你的语料库有注释吗?我指的是每个文件的相关/无关标签。