Python 使用自然语言处理查找单词关联

Python 使用自然语言处理查找单词关联,python,nltk,Python,Nltk,给定“浪漫”或“地下”这样的词,我想使用python遍历文本数据列表并检索包含这些词和相关词(如“女友”或“墙上的洞”)的条目 有人建议我与NLTK合作来完成这项工作,但我不知道从哪里开始,我对语言处理或语言学一无所知。如果您有任何建议,我们将不胜感激。您没有给我们太多的建议。但是让我们假设你有一段文字。这是我刚从Yelp评论中偷来的一个: 多么美丽的火车站在纽约市中心啊。在我成长的过程中,我在报纸、电影和杂志上看到了令人难忘的GCT照片,所以我很清楚电视台的内部情况。然而,它仍然是一块宝石。在

给定“浪漫”或“地下”这样的词,我想使用python遍历文本数据列表并检索包含这些词和相关词(如“女友”或“墙上的洞”)的条目


有人建议我与NLTK合作来完成这项工作,但我不知道从哪里开始,我对语言处理或语言学一无所知。如果您有任何建议,我们将不胜感激。

您没有给我们太多的建议。但是让我们假设你有一段文字。这是我刚从Yelp评论中偷来的一个:

多么美丽的火车站在纽约市中心啊。在我成长的过程中,我在报纸、电影和杂志上看到了令人难忘的GCT照片,所以我很清楚电视台的内部情况。然而,它仍然是一块宝石。在交通高峰时间站在大厅中央是一种有趣的体验——通勤者在你周围奔波,阳光透过巨大的窗户照射进来,广播系统上的广播声隆隆。这是一次真正的纽约体验

好吧,这里有一大堆词。你想要什么样的词?形容词?副词?NLTK将帮助您“标记”这些词,这样您就可以找到所有广告词:“美丽”、“难忘”、“有趣”、“巨大”、“真实”

现在,你打算用它们做什么?也许你可以加上一些动词和名词,“微笑”听起来不错。但是“公告”就没那么有趣了

无论如何,您可以构建一个关联数据库。这个广告词出现在与这些其他词一起的段落中

也许你可以在你的整个语料库中计算每个单词的频率。也许“餐馆”看起来很多,但“鼠疫洞”相对来说比较少见。所以你可以用这种方式过滤?(只保留“有趣”的单词。)

或者你换一种方式,提取同义词:如果“浪漫”和“女友”经常出现在一起,那么就称它们为“相关词”,并将它们作为搜索引擎的一部分使用


我们不知道你想要完成什么,所以很难提出建议。但是是的,NLTK可以帮助您选择某些词的子组,如果这确实相关的话。

您没有给我们提供太多的信息。但是让我们假设你有一段文字。这是我刚从Yelp评论中偷来的一个:

多么美丽的火车站在纽约市中心啊。在我成长的过程中,我在报纸、电影和杂志上看到了令人难忘的GCT照片,所以我很清楚电视台的内部情况。然而,它仍然是一块宝石。在交通高峰时间站在大厅中央是一种有趣的体验——通勤者在你周围奔波,阳光透过巨大的窗户照射进来,广播系统上的广播声隆隆。这是一次真正的纽约体验

好吧,这里有一大堆词。你想要什么样的词?形容词?副词?NLTK将帮助您“标记”这些词,这样您就可以找到所有广告词:“美丽”、“难忘”、“有趣”、“巨大”、“真实”

现在,你打算用它们做什么?也许你可以加上一些动词和名词,“微笑”听起来不错。但是“公告”就没那么有趣了

无论如何,您可以构建一个关联数据库。这个广告词出现在与这些其他词一起的段落中

也许你可以在你的整个语料库中计算每个单词的频率。也许“餐馆”看起来很多,但“鼠疫洞”相对来说比较少见。所以你可以用这种方式过滤?(只保留“有趣”的单词。)

或者你换一种方式,提取同义词:如果“浪漫”和“女友”经常出现在一起,那么就称它们为“相关词”,并将它们作为搜索引擎的一部分使用


我们不知道你想要完成什么,所以很难提出建议。但是,如果确实相关,NLTK可以帮助您选择特定的词组。

您至少可以尝试解决您的问题,特别是因为NLTK的网页上有一本优秀的介绍性电子书。当你在这期间遇到一些问题时,你可以发布一个更详细的问题,并附上你的代码,我们可以回答“我不知道从哪里开始”-然后你找错了地方,请拿着这个开始学习。试试:嗨,你看到手套或word2vec了吗?你至少可以尝试解决你的问题,特别是因为NLTK的网页上有一本优秀的介绍性电子书。当你在这期间遇到一些问题时,你可以发布一个更详细的问题,并附上你的代码,我们可以回答“我不知道从哪里开始”-然后你就找错了地方,请拿着它学习。试试:嗨,你看到手套或word2vec了吗?