Nlp 利用余弦相似性对文档进行分类
我有一套五个不同类别的文件,其中大多数都没有正确标记。目的是在上传时预测文件的正确类别。我使用了余弦相似性和tf-idf来预测文档的类别,其中余弦相似性是最大的。到目前为止,我得到了很好的结果但我真的不确定这在未来会有多好的效果。另外,当文件类别标记正确时,为什么不在构建文档分类器时使用余弦相似性而不是机器学习模型?非常感谢您对我的方法的反馈以及您对问题的回答。用于计算两个n维向量之间的角度。这些向量主要由嵌入产生。它们是产生单词嵌入或固定大小向量的预训练模型 余弦相似度主要用于单词产生的向量 嵌入。如果您正在使用Doc2Vec之类的工具,那么您将获得一个 整个文档的向量。这些载体可按以下分类: 使用余弦相似性 在您的情况下,您应该尝试使用嵌入层的LSTM文本分类器。1D卷积层也很有用。 此外,参考TF-IDF,它对于依赖于语料库中特定单词的文本分类也很有用。词频越高、文档频率越低的词TF-IDF得分越高。该模型学习根据这些分数对文本进行分类 在大多数情况下,RNN是对文本进行分类的最佳方法。使用预训练嵌入使模型有效 此外,还可以尝试一下Bayes文本分类。它在垃圾邮件分类中非常有用 提示: 您可以相互实现上述方法,创建一个文本分类系统。按照这样的过程,Nlp 利用余弦相似性对文档进行分类,nlp,classification,data-science,text-mining,cosine-similarity,Nlp,Classification,Data Science,Text Mining,Cosine Similarity,我有一套五个不同类别的文件,其中大多数都没有正确标记。目的是在上传时预测文件的正确类别。我使用了余弦相似性和tf-idf来预测文档的类别,其中余弦相似性是最大的。到目前为止,我得到了很好的结果但我真的不确定这在未来会有多好的效果。另外,当文件类别标记正确时,为什么不在构建文档分类器时使用余弦相似性而不是机器学习模型?非常感谢您对我的方法的反馈以及您对问题的回答。用于计算两个n维向量之间的角度。这些向量主要由嵌入产生。它们是产生单词嵌入或固定大小向量的预训练模型 余弦相似度主要用于单词产生的向量
步骤2、3、4给出了三个预测。如果大多数预测是CLASS1,那么我们可以将系统的输出设置为CLASS1 考虑到Doc2vec将考虑文档的语义性质,如果tfidf+余弦相似性不起作用,Doc2vec+余弦相似性应该是我的下一个方法。尽管如此,我还是会尝试一下,因为朴素贝叶斯是相关的,标签不正确,这是一个无监督的问题(因此,我真的不明白朴素的贝叶斯会有什么表现).所以我手动标记了几个文件,取出了属于每个类别的10个文件的唯一关键字,将它们添加到一个列表中,然后是word2vec和cosibe相似性。我想到的另一种方法是聚类,但坦率地说,如果余弦相似性很好,并且一定会很好地扩展,我不想涉及机器学习。让我们看看,谢谢你非常感谢您的反馈,非常感谢:)Doc2vec+余弦相似性应该是我的下一个方法,如果考虑到Doc2vec将考虑文档的语义性质,tfidf+余弦相似性不起作用。但就naive bayes而言,Doc2vec肯定会尝试一下,标签不正确,这是一个无监督的问题(所以我真的不知道naive bayes会如何执行)。所以我手动标记了几个文件,取出属于每个类别的10个文件的唯一关键字,将它们添加到列表中,然后是word2vec和cosibe相似性。我想到的另一种方法是聚类,但坦率地说,如果余弦相似性工作得很好并且一定能很好地扩展,我不想涉及机器学习。让我们看看,非常感谢您的反馈,非常感谢:)