Python 名称实体解析算法

Python 名称实体解析算法,python,algorithm,machine-learning,nlp,Python,Algorithm,Machine Learning,Nlp,我试图建立一个实体解析系统,在这里我的实体 (i) General named entities, that is organization, person, location,date, time, money, and percent. (ii) Some other entities like, product, title of person like president,ceo, etc. (iii) Corefererred entities like, pronoun, dete

我试图建立一个实体解析系统,在这里我的实体

(i) General named entities, that is organization, person, location,date, time, money, and percent.
(ii) Some other entities like, product, title of person like president,ceo, etc. 
(iii) Corefererred entities like, pronoun, determiner phrase,synonym, string match, demonstrative noun phrase, alias, apposition. 

从各种文献和其他参考文献中,我已经定义了它的范围,因为我不考虑每个实体超出其实体范畴的歧义。也就是说,我正在攻读牛津大学的牛津 与牛津的地点不同,前一个词是组织实体的第一个词,第二个词是地点实体

我的任务是构造一个解析算法,在这里我将提取 并解决实体问题

所以,我首先要设计一个实体提取器。 第二,如果我试着把我从 像这样的各种文献,他们都在努力研究 一种基于决策树的算法,具有距离, i-代词,j-代词,字符串匹配,定名词 短语,指示名词短语,数字一致性特征, 语义类一致性、性别一致性、专有名称、别名、同位语 等等

该算法使用隐马尔可夫模型(HMM)提取特征,是一种很好的算法

我可以用HMM设计出一个实体识别系统。 现在,我正试图找出一个共指和一个实体 分辨率系统。我试着去感受,而不是用那么多 如果我使用带注释的语料库并直接使用 基于HMM的tagger,旨在解决关系提取问题,如

*"Obama/PERS is/NA delivering/NA a/NA lecture/NA in/NA Washington/LOC, he/PPERS knew/NA it/NA was/NA going/NA to/NA be/NA
small/NA as/NA it/NA may/NA not/NA be/NA his/PoPERS speech/NA as/NA Mr. President/APPERS"

where, PERS-> PERSON
       PPERS->PERSONAL PRONOUN TO PERSON
       PoPERS-> POSSESSIVE PRONOUN TO PERSON
       APPERS-> APPOSITIVE TO PERSON
       LOC-> LOCATION
       NA-> NOT AVAILABLE*
我会错吗?我用大约10000个单词做了一个实验。初步结果似乎 鼓舞人心的。在我一位同事的支持下,我正在尝试插入一些 语义信息,比如, PERSUSPOL、LOCCITUS、PoPERSM等,用于政治人物、位置城市人物、占有欲人物男性,在标记集中一次性合并实体消歧。我现在感觉好多了。 请也看看这个新想法。 我用朴素贝叶斯分类器得到了一些很好的结果 主要有一组关键字被标记为一个类

如果任何人可能建议任何不同的方法,请随时提出建议

我在MS Windows上使用Python2.x,并尝试使用NLTK、Scikit learn、Gensim、, 熊猫、小熊猫、小熊猫等


提前谢谢

看来你要走的是三条完全不同的道路,每一条都可以在独立的博士学位课程中完成。关于他们的文献很多。我的第一个建议是把重点放在主要任务上,把剩下的外包出去。如果你打算为非著名语言开发这个,你也可以在其他语言的基础上开发

命名实体识别

我在那方面真的做得太过分了,特别是在英语方面。它们解析命名实体非常好,它们被广泛使用,并且有一个很好的社区

openNLP for python中可能存在其他解决方案

有些人试图将其扩展到不寻常的细粒度类型,但您需要更大的训练数据来覆盖这些情况,因此决策变得更加困难

编辑:存在于NLTK python中

命名实体解析/链接/消歧

<>这是关于把名字与一些知识库联系起来,解决牛津牛津大学城是否存在问题的问题。p> :是这方面最先进的技术之一。他们使用不同的上下文信息以及连贯性信息。此外,他们还尝试支持多种语言。他们有一个很好的基准点

:提供有趣的API,可为实体和概念提供NER和NED。此外,它们支持多种语言,但从未很好地工作过

其他如tagme和wikifi等

会议决议


斯坦福大学CoreNLP在这方面也做了一些很好的工作。我还可以推荐他们将会议决议与NED结合在一起的地方。

有一个发布问题。这两个示例都被自动文本编辑器作为代码。但它们不是代码,而是示例。希望这对您有所帮助。谢谢您的回答。我会回顾你们的文献,但似乎有一个中心点,实体。我正试着绕着它转。我明白,任务很大。