Nlp 使用文档相似性将文档指定给类别

Nlp 使用文档相似性将文档指定给类别,nlp,tf-idf,cosine-similarity,Nlp,Tf Idf,Cosine Similarity,我正在用python开发一个NLP项目 我从社交网络中获得“对话”。对话由post_text+comment_text+reply_text(可选comment_text和reply_text)组成 我还有一个类别、参数列表,我想将对话“连接”到一个参数(或者为每个参数获取权重) 对于每个类别,我都使用Wikipediapython包在Wikipedia上获得摘要。所以,它们代表了我的培训文档(对吗?) 现在,我已经写下了一些要遵循的步骤,但也许我错了 每个培训文档都必须转换为向量空间模型。我

我正在用python开发一个NLP项目

我从社交网络中获得“对话”。对话由post_text+comment_text+reply_text(可选comment_text和reply_text)组成

我还有一个类别、参数列表,我想将对话“连接”到一个参数(或者为每个参数获取权重)

对于每个类别,我都使用
Wikipedia
python包在Wikipedia上获得摘要。所以,它们代表了我的培训文档(对吗?)

现在,我已经写下了一些要遵循的步骤,但也许我错了

  • 每个培训文档都必须转换为向量空间模型。我必须删除停止词和常用词。所以,我有一个词汇表
  • 必须将每个对话转换为向量空间模型,并且必须将每个标记分配给其词汇表索引。我可以将所有向量空间模型保存在一个矩阵中
  • 现在,我必须对所有矩阵行执行tf idf(例如)。
    • 在tf-idf中,我必须计算tf,idf和标准化矩阵
  • 因此,每一行代表每个对话的tf idf。现在,我必须执行余弦相似性(例如),以获得每个对话和一个培训文档之间的相似性。我必须迭代它,以获得对话和每个培训文档之间的相似性

你觉得这些步骤怎么样?为了更好地理解这个问题,我需要阅读一些指南/如何阅读/书籍吗?

不必从维基百科获取摘要并匹配相似性,你可以训练一个分类器,给定摘要就可以预测它是哪个文档类别。你可以从维基百科中最简单的一袋单词表示法开始分类,然后分析结果和准确性。在这之后,我们可以采用更复杂的方法,如单词到向量或文档到向量的单词表示,然后训练分类器

在建立分类模型之后,为了给测试文档分配类别,您需要使用分类模型对其进行分类