Nlp 简单二进制文本分类_Nlp_Text Classification_N Gram_Document Classification_Latent Semantic Indexing

Nlp 简单二进制文本分类

nlp

Nlp 简单二进制文本分类,nlp,text-classification,n-gram,document-classification,latent-semantic-indexing,Nlp,Text Classification,N Gram,Document Classification,Latent Semantic Indexing,我寻求一种最有效、最简单的方法，将800k+学术文章分类为与定义的概念空间（此处：）相关（1）或无关（0）数据为：标题和摘要（平均值=1300个字符）可以使用甚至组合任何方法，包括有监督的机器学习和/或通过建立引起一些阈值以供包含的特征等虽然单靠简单的频率计数是不可靠的，但这些方法可以利用这些数据。潜在的途径可能包括潜在的语义分析，n-grams 生成训练数据可能对多达1%的语料库是现实的，尽管这已经意味着手动编码8000篇文章（1=相关，0=不相关），这是否足够我非常欣赏具体的想法和一

我寻求一种最有效、最简单的方法，将800k+学术文章分类为与定义的概念空间（此处：）相关（1）或无关（0）

数据为：标题和摘要（平均值=1300个字符）

可以使用甚至组合任何方法，包括有监督的机器学习和/或通过建立引起一些阈值以供包含的特征等

虽然单靠简单的频率计数是不可靠的，但这些方法可以利用这些数据。潜在的途径可能包括潜在的语义分析，n-grams

生成训练数据可能对多达1%的语料库是现实的，尽管这已经意味着手动编码8000篇文章（1=相关，0=不相关），这是否足够

我非常欣赏具体的想法和一些简短的推理，这样我就可以对如何进行做出明智的决定。非常感谢

有几个想法：

运行LDA并获取文档主题和主题词分布（20个主题取决于您的数据集对不同主题的覆盖率）。将相关主题最高且nr%较低的文档的前r%分配为相关，将nr%较低的文档分配为非相关。然后在这些带标签的文档上训练分类器

只需使用一袋单词，检索到与您的查询（您的概念空间）最接近的前r个单词作为相关，而borrom nr%作为不相关，并在它们上面训练一个分类器

如果你有引文，你可以通过标记很少的论文，在网络图上运行标签传播

不要忘记通过将标题词更改为title_word1使标题词与抽象词不同，这样任何分类器都可以对它们施加更多权重

将文章分为100个簇，然后选择，然后手动标记这些簇。根据语料库中不同主题的覆盖率选择100。您还可以为此使用层次聚类

如果相关文档的数量远远少于非相关文档，那么最好的方法是找到概念空间的最近邻居（例如，使用Lucene中实现的信息检索）。然后，您可以手动查看排名结果，直到您觉得文档不再相关

这些方法中的大多数是用于文本分类的自举或弱监督方法，关于这些方法，您可以查阅更多文献

你如何定义相关性？仅考虑1%的训练语料是不合理的。你的语料库有注释吗？我指的是每个文件的相关/无关标签。