python个人词典中命名实体的识别

python个人词典中命名实体的识别,python,parsing,dictionary,named-entity-recognition,Python,Parsing,Dictionary,Named Entity Recognition,我有一个很大的数据库,里面有很多条目(大部分是电影),只有描述作为信息。ID为1的条目的描述(例如)可能类似于: 《阿甘正传》是一部1994年美国史诗浪漫喜剧电影 温斯顿·格鲁姆1986年的同名小说。这部电影很有趣 导演罗伯特·泽梅基斯,主演汤姆·汉克斯、罗宾·赖特、加里 辛妮丝、米克尔蒂·威廉姆森和莎莉·菲尔德。” 现在我还有一些基本上是字典的txt文档,其结构如下: actors.txt Mickey Mouse Tom Hanks ... directors.txt Donald D

我有一个很大的数据库,里面有很多条目(大部分是电影),只有描述作为信息。ID为1的条目的描述(例如)可能类似于:

《阿甘正传》是一部1994年美国史诗浪漫喜剧电影 温斯顿·格鲁姆1986年的同名小说。这部电影很有趣 导演罗伯特·泽梅基斯,主演汤姆·汉克斯、罗宾·赖特、加里 辛妮丝、米克尔蒂·威廉姆森和莎莉·菲尔德。”

现在我还有一些基本上是字典的txt文档,其结构如下:

actors.txt

Mickey Mouse
Tom Hanks
...

directors.txt

Donald Duck
Robert Zemeckis
...
我想做的是分析每个条目的描述,并解析字典中的命名实体。因此,如果文本包含“Tom Hanks”,我想识别ID为1的条目中有Tom Hanks作为演员,等等。输出应该是这样的:

Actor: Tom Hanks, Actor: Robin Wright, Director: Robert Zemeckis, Distributor: Paramount Pictures.

或者任何易于操作的格式。

您所要做的就是使用SOLR,在其模式中设置一些新的字段类型(如text_actors),这些字段类型链接到适当的字典,编写适当的模式,然后导入数据库。据我所知,这可以帮助您开发一个可搜索的数据库,从中可以查询所有结果并填充您自己的数据库