Python 合并和比较每个文档的文本_Python_Python 3.x_Pandas_Nltk_Spacy

Python 合并和比较每个文档的文本

python python-3.x pandas

Python 合并和比较每个文档的文本,python,python-3.x,pandas,nltk,spacy,Python,Python 3.x,Pandas,Nltk,Spacy,我刚开始学习NLP的工作原理。我现在能做的就是得到每个文档中特定单词的频率。但我要做的是比较这四个文档，我要比较它们的相似性和不同性，并显示相似的单词和每个文档特有的单词我的文档是使用pandas导入的.csv格式。因为每一行都有自己的感受。老实说，你问的问题很高，在这样的论坛上很难回答（也许不可能）。以下是一些可能有用的想法：您可以尝试使用[term frequency–inverse document frequency（TFIDF）]（）来比较词汇表的异同。这与您当前的词频分析相差不大

我刚开始学习NLP的工作原理。我现在能做的就是得到每个文档中特定单词的频率。但我要做的是比较这四个文档，我要比较它们的相似性和不同性，并显示相似的单词和每个文档特有的单词

我的文档是使用pandas导入的.csv格式。因为每一行都有自己的感受。

老实说，你问的问题很高，在这样的论坛上很难回答（也许不可能）。以下是一些可能有用的想法：

您可以尝试使用[term frequency–inverse document frequency（TFIDF）]（）来比较词汇表的异同。这与您当前的词频分析相差不大

要进行更详细的分析，最好用synset之类的词替换文档中的词。这使得在比实际单词本身更高的抽象层次上比较句子含义成为可能。例如，如果您的每个文档都提到“飞机”、“火车”和“汽车”，则存在一种基本的相似性（车辆引用），简单的词语比较无法检测到这种相似性