Nlp 使用文档相似性将文档指定给类别_Nlp_Tf Idf_Cosine Similarity

Nlp 使用文档相似性将文档指定给类别

nlp

Nlp 使用文档相似性将文档指定给类别,nlp,tf-idf,cosine-similarity,Nlp,Tf Idf,Cosine Similarity,我正在用python开发一个NLP项目我从社交网络中获得“对话”。对话由post_text+comment_text+reply_text（可选comment_text和reply_text）组成我还有一个类别、参数列表，我想将对话“连接”到一个参数（或者为每个参数获取权重）对于每个类别，我都使用Wikipediapython包在Wikipedia上获得摘要。所以，它们代表了我的培训文档（对吗？）现在，我已经写下了一些要遵循的步骤，但也许我错了每个培训文档都必须转换为向量空间模型。我

我正在用python开发一个NLP项目

我从社交网络中获得“对话”。对话由post_text+comment_text+reply_text（可选comment_text和reply_text）组成

我还有一个类别、参数列表，我想将对话“连接”到一个参数（或者为每个参数获取权重）

对于每个类别，我都使用

Wikipedia

python包在Wikipedia上获得摘要。所以，它们代表了我的培训文档（对吗？）

现在，我已经写下了一些要遵循的步骤，但也许我错了

每个培训文档都必须转换为向量空间模型。我必须删除停止词和常用词。所以，我有一个词汇表
必须将每个对话转换为向量空间模型，并且必须将每个标记分配给其词汇表索引。我可以将所有向量空间模型保存在一个矩阵中
现在，我必须对所有矩阵行执行tf idf（例如）。
- 在tf-idf中，我必须计算tf，idf和标准化矩阵
因此，每一行代表每个对话的tf idf。现在，我必须执行余弦相似性（例如），以获得每个对话和一个培训文档之间的相似性。我必须迭代它，以获得对话和每个培训文档之间的相似性

你觉得这些步骤怎么样？为了更好地理解这个问题，我需要阅读一些指南/如何阅读/书籍吗？

不必从维基百科获取摘要并匹配相似性，你可以训练一个分类器，给定摘要就可以预测它是哪个文档类别。你可以从维基百科中最简单的一袋单词表示法开始分类，然后分析结果和准确性。在这之后，我们可以采用更复杂的方法，如单词到向量或文档到向量的单词表示，然后训练分类器

在建立分类模型之后，为了给测试文档分配类别，您需要使用分类模型对其进行分类