Nlp 简单二进制文本分类
我寻求一种最有效、最简单的方法,将800k+学术文章分类为与定义的概念空间(此处:)相关(1)或无关(0) 数据为:标题和摘要(平均值=1300个字符) 可以使用甚至组合任何方法,包括有监督的机器学习和/或通过建立引起一些阈值以供包含的特征等 虽然单靠简单的频率计数是不可靠的,但这些方法可以利用这些数据。潜在的途径可能包括潜在的语义分析,n-grams 生成训练数据可能对多达1%的语料库是现实的,尽管这已经意味着手动编码8000篇文章(1=相关,0=不相关),这是否足够 我非常欣赏具体的想法和一些简短的推理,这样我就可以对如何进行做出明智的决定。非常感谢 有几个想法:Nlp 简单二进制文本分类,nlp,text-classification,n-gram,document-classification,latent-semantic-indexing,Nlp,Text Classification,N Gram,Document Classification,Latent Semantic Indexing,我寻求一种最有效、最简单的方法,将800k+学术文章分类为与定义的概念空间(此处:)相关(1)或无关(0) 数据为:标题和摘要(平均值=1300个字符) 可以使用甚至组合任何方法,包括有监督的机器学习和/或通过建立引起一些阈值以供包含的特征等 虽然单靠简单的频率计数是不可靠的,但这些方法可以利用这些数据。潜在的途径可能包括潜在的语义分析,n-grams 生成训练数据可能对多达1%的语料库是现实的,尽管这已经意味着手动编码8000篇文章(1=相关,0=不相关),这是否足够 我非常欣赏具体的想法和一
这些方法中的大多数是用于文本分类的自举或弱监督方法,关于这些方法,您可以查阅更多文献 你如何定义相关性?仅考虑1%的训练语料是不合理的。你的语料库有注释吗?我指的是每个文件的相关/无关标签。