Python 合并和比较每个文档的文本

Python 合并和比较每个文档的文本,python,python-3.x,pandas,nltk,spacy,Python,Python 3.x,Pandas,Nltk,Spacy,我刚开始学习NLP的工作原理。我现在能做的就是得到每个文档中特定单词的频率。但我要做的是比较这四个文档,我要比较它们的相似性和不同性,并显示相似的单词和每个文档特有的单词 我的文档是使用pandas导入的.csv格式。因为每一行都有自己的感受。老实说,你问的问题很高,在这样的论坛上很难回答(也许不可能)。以下是一些可能有用的想法: 您可以尝试使用[term frequency–inverse document frequency(TFIDF)]()来比较词汇表的异同。这与您当前的词频分析相差不大

我刚开始学习NLP的工作原理。我现在能做的就是得到每个文档中特定单词的频率。但我要做的是比较这四个文档,我要比较它们的相似性和不同性,并显示相似的单词和每个文档特有的单词


我的文档是使用pandas导入的.csv格式。因为每一行都有自己的感受。

老实说,你问的问题很高,在这样的论坛上很难回答(也许不可能)。以下是一些可能有用的想法:

您可以尝试使用[term frequency–inverse document frequency(TFIDF)]()来比较词汇表的异同。这与您当前的词频分析相差不大

要进行更详细的分析,最好用synset之类的词替换文档中的词。这使得在比实际单词本身更高的抽象层次上比较句子含义成为可能。例如,如果您的每个文档都提到“飞机”、“火车”和“汽车”,则存在一种基本的相似性(车辆引用),简单的词语比较无法检测到这种相似性