Warning: file_get_contents(/data/phpspider/zhask/data//catemap/6/google-chrome/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Nlp 利用余弦相似性对文档进行分类_Nlp_Classification_Data Science_Text Mining_Cosine Similarity - Fatal编程技术网

Nlp 利用余弦相似性对文档进行分类

Nlp 利用余弦相似性对文档进行分类,nlp,classification,data-science,text-mining,cosine-similarity,Nlp,Classification,Data Science,Text Mining,Cosine Similarity,我有一套五个不同类别的文件,其中大多数都没有正确标记。目的是在上传时预测文件的正确类别。我使用了余弦相似性和tf-idf来预测文档的类别,其中余弦相似性是最大的。到目前为止,我得到了很好的结果但我真的不确定这在未来会有多好的效果。另外,当文件类别标记正确时,为什么不在构建文档分类器时使用余弦相似性而不是机器学习模型?非常感谢您对我的方法的反馈以及您对问题的回答。用于计算两个n维向量之间的角度。这些向量主要由嵌入产生。它们是产生单词嵌入或固定大小向量的预训练模型 余弦相似度主要用于单词产生的向量

我有一套五个不同类别的文件,其中大多数都没有正确标记。目的是在上传时预测文件的正确类别。我使用了余弦相似性和tf-idf来预测文档的类别,其中余弦相似性是最大的。到目前为止,我得到了很好的结果但我真的不确定这在未来会有多好的效果。另外,当文件类别标记正确时,为什么不在构建文档分类器时使用余弦相似性而不是机器学习模型?非常感谢您对我的方法的反馈以及您对问题的回答。

用于计算两个n维向量之间的角度。这些向量主要由嵌入产生。它们是产生单词嵌入或固定大小向量的预训练模型

余弦相似度主要用于单词产生的向量 嵌入。如果您正在使用Doc2Vec之类的工具,那么您将获得一个 整个文档的向量。这些载体可按以下分类: 使用余弦相似性

在您的情况下,您应该尝试使用嵌入层的LSTM文本分类器。1D卷积层也很有用。

此外,参考TF-IDF,它对于依赖于语料库中特定单词的文本分类也很有用。词频越高、文档频率越低的词TF-IDF得分越高。该模型学习根据这些分数对文本进行分类

在大多数情况下,RNN是对文本进行分类的最佳方法。使用预训练嵌入使模型有效

此外,还可以尝试一下Bayes文本分类。它在垃圾邮件分类中非常有用

提示:

您可以相互实现上述方法,创建一个文本分类系统。按照这样的过程,

  • 从Doc2Vec生成嵌入
  • 比较输入与其他文本的相似性,从而确定其类别
  • 在LSTM网络中使用嵌入来产生类概率
  • 应用贝叶斯文本分类
  • 步骤2、3、4给出了三个预测。如果大多数预测是CLASS1,那么我们可以将系统的输出设置为CLASS1

    用于计算两个n维向量之间的角度。这些向量主要由嵌入产生。它们是产生单词嵌入或固定大小向量的预训练模型

    余弦相似度主要用于单词产生的向量 嵌入。如果您正在使用Doc2Vec之类的工具,那么您将获得一个 整个文档的向量。这些载体可按以下分类: 使用余弦相似性

    在您的情况下,您应该尝试使用嵌入层的LSTM文本分类器。1D卷积层也很有用。

    此外,参考TF-IDF,它对于依赖于语料库中特定单词的文本分类也很有用。词频越高、文档频率越低的词TF-IDF得分越高。该模型学习根据这些分数对文本进行分类

    在大多数情况下,RNN是对文本进行分类的最佳方法。使用预训练嵌入使模型有效

    此外,还可以尝试一下Bayes文本分类。它在垃圾邮件分类中非常有用

    提示:

    您可以相互实现上述方法,创建一个文本分类系统。按照这样的过程,

  • 从Doc2Vec生成嵌入
  • 比较输入与其他文本的相似性,从而确定其类别
  • 在LSTM网络中使用嵌入来产生类概率
  • 应用贝叶斯文本分类

  • 步骤2、3、4给出了三个预测。如果大多数预测是CLASS1,那么我们可以将系统的输出设置为CLASS1

    考虑到Doc2vec将考虑文档的语义性质,如果tfidf+余弦相似性不起作用,Doc2vec+余弦相似性应该是我的下一个方法。尽管如此,我还是会尝试一下,因为朴素贝叶斯是相关的,标签不正确,这是一个无监督的问题(因此,我真的不明白朴素的贝叶斯会有什么表现).所以我手动标记了几个文件,取出了属于每个类别的10个文件的唯一关键字,将它们添加到一个列表中,然后是word2vec和cosibe相似性。我想到的另一种方法是聚类,但坦率地说,如果余弦相似性很好,并且一定会很好地扩展,我不想涉及机器学习。让我们看看,谢谢你非常感谢您的反馈,非常感谢:)Doc2vec+余弦相似性应该是我的下一个方法,如果考虑到Doc2vec将考虑文档的语义性质,tfidf+余弦相似性不起作用。但就naive bayes而言,Doc2vec肯定会尝试一下,标签不正确,这是一个无监督的问题(所以我真的不知道naive bayes会如何执行)。所以我手动标记了几个文件,取出属于每个类别的10个文件的唯一关键字,将它们添加到列表中,然后是word2vec和cosibe相似性。我想到的另一种方法是聚类,但坦率地说,如果余弦相似性工作得很好并且一定能很好地扩展,我不想涉及机器学习。让我们看看,非常感谢您的反馈,非常感谢:)