Python 从消息中获取关键字

Python 从消息中获取关键字,python,nlp,nltk,gensim,text-classification,Python,Nlp,Nltk,Gensim,Text Classification,我的目标是总结文本,不确定我是否做得正确,但计划如下。我有一个叫做train_data的数据帧。每行中的每个单元格都包含消息。现在,我希望使用gensim.summation.keyword包在dataframe列中遍历每个单元格或每条消息,以从每条消息中获取关键字 我知道keyword函数以文本作为输入,我无法将整个df列传递给它,所以我尝试将每个单元格作为文本在keyword函数上迭代,但它似乎不起作用。我错过了什么?这是我的密码 cols = train_data.new_msg for

我的目标是总结文本,不确定我是否做得正确,但计划如下。我有一个叫做train_data的数据帧。每行中的每个单元格都包含消息。现在,我希望使用gensim.summation.keyword包在dataframe列中遍历每个单元格或每条消息,以从每条消息中获取关键字

我知道keyword函数以文本作为输入,我无法将整个df列传递给它,所以我尝试将每个单元格作为文本在keyword函数上迭代,但它似乎不起作用。我错过了什么?这是我的密码

cols = train_data.new_msg
for col in cols:
    cols

train_data['keywords'] = keywords(col)


然后,我计划计算原始消息与新消息的长度(即关键字列),以获得压缩率/比率

要计算原始邮件的长度,是要计算唯一字数,还是要计算长度所需的所有字数????
train_data['keywords'] = train_data['Name of column which contain text'].apply(lambda x: keywords(x).replace('\n', ', '))