Nlp 利用余弦相似性对文档进行分类_Nlp_Classification_Data Science_Text Mining_Cosine Similarity

Nlp 利用余弦相似性对文档进行分类

nlp

Nlp 利用余弦相似性对文档进行分类,nlp,classification,data-science,text-mining,cosine-similarity,Nlp,Classification,Data Science,Text Mining,Cosine Similarity,我有一套五个不同类别的文件，其中大多数都没有正确标记。目的是在上传时预测文件的正确类别。我使用了余弦相似性和tf-idf来预测文档的类别，其中余弦相似性是最大的。到目前为止，我得到了很好的结果但我真的不确定这在未来会有多好的效果。另外，当文件类别标记正确时，为什么不在构建文档分类器时使用余弦相似性而不是机器学习模型？非常感谢您对我的方法的反馈以及您对问题的回答。用于计算两个n维向量之间的角度。这些向量主要由嵌入产生。它们是产生单词嵌入或固定大小向量的预训练模型余弦相似度主要用于单词产生的向量

我有一套五个不同类别的文件，其中大多数都没有正确标记。目的是在上传时预测文件的正确类别。我使用了余弦相似性和tf-idf来预测文档的类别，其中余弦相似性是最大的。到目前为止，我得到了很好的结果但我真的不确定这在未来会有多好的效果。另外，当文件类别标记正确时，为什么不在构建文档分类器时使用余弦相似性而不是机器学习模型？非常感谢您对我的方法的反馈以及您对问题的回答。

用于计算两个n维向量之间的角度。这些向量主要由嵌入产生。它们是产生单词嵌入或固定大小向量的预训练模型

余弦相似度主要用于单词产生的向量嵌入。如果您正在使用Doc2Vec之类的工具，那么您将获得一个整个文档的向量。这些载体可按以下分类：使用余弦相似性

在您的情况下，您应该尝试使用嵌入层的LSTM文本分类器。1D卷积层也很有用。

此外，参考TF-IDF，它对于依赖于语料库中特定单词的文本分类也很有用。词频越高、文档频率越低的词TF-IDF得分越高。该模型学习根据这些分数对文本进行分类

在大多数情况下，RNN是对文本进行分类的最佳方法。使用预训练嵌入使模型有效

此外，还可以尝试一下Bayes文本分类。它在垃圾邮件分类中非常有用

提示：

您可以相互实现上述方法，创建一个文本分类系统。按照这样的过程,

从Doc2Vec生成嵌入

比较输入与其他文本的相似性，从而确定其类别

在LSTM网络中使用嵌入来产生类概率

应用贝叶斯文本分类

步骤2、3、4给出了三个预测。如果大多数预测是CLASS1，那么我们可以将系统的输出设置为CLASS1

用于计算两个n维向量之间的角度。这些向量主要由嵌入产生。它们是产生单词嵌入或固定大小向量的预训练模型

在您的情况下，您应该尝试使用嵌入层的LSTM文本分类器。1D卷积层也很有用。

在大多数情况下，RNN是对文本进行分类的最佳方法。使用预训练嵌入使模型有效

此外，还可以尝试一下Bayes文本分类。它在垃圾邮件分类中非常有用

提示：

您可以相互实现上述方法，创建一个文本分类系统。按照这样的过程,

从Doc2Vec生成嵌入

比较输入与其他文本的相似性，从而确定其类别

在LSTM网络中使用嵌入来产生类概率

应用贝叶斯文本分类

步骤2、3、4给出了三个预测。如果大多数预测是CLASS1，那么我们可以将系统的输出设置为CLASS1

考虑到Doc2vec将考虑文档的语义性质，如果tfidf+余弦相似性不起作用，Doc2vec+余弦相似性应该是我的下一个方法。尽管如此，我还是会尝试一下，因为朴素贝叶斯是相关的，标签不正确，这是一个无监督的问题（因此，我真的不明白朴素的贝叶斯会有什么表现）.所以我手动标记了几个文件，取出了属于每个类别的10个文件的唯一关键字，将它们添加到一个列表中，然后是word2vec和cosibe相似性。我想到的另一种方法是聚类，但坦率地说，如果余弦相似性很好，并且一定会很好地扩展，我不想涉及机器学习。让我们看看，谢谢你非常感谢您的反馈，非常感谢：）Doc2vec+余弦相似性应该是我的下一个方法，如果考虑到Doc2vec将考虑文档的语义性质，tfidf+余弦相似性不起作用。但就naive bayes而言，Doc2vec肯定会尝试一下，标签不正确，这是一个无监督的问题（所以我真的不知道naive bayes会如何执行）。所以我手动标记了几个文件，取出属于每个类别的10个文件的唯一关键字，将它们添加到列表中，然后是word2vec和cosibe相似性。我想到的另一种方法是聚类，但坦率地说，如果余弦相似性工作得很好并且一定能很好地扩展，我不想涉及机器学习。让我们看看，非常感谢您的反馈，非常感谢：）