Facebook graph api 印度地名识别的NER模型

Facebook graph api 印度地名识别的NER模型,facebook-graph-api,nlp,stanford-nlp,named-entity-recognition,linkedin-api,Facebook Graph Api,Nlp,Stanford Nlp,Named Entity Recognition,Linkedin Api,我计划使用命名实体识别(NER)技术从给定文本中识别人名(大部分是印度名字)。我已经从斯坦福NLP探索了基于CRF的NER模型,但是它在识别印度名字方面并不十分准确。因此,我决定通过监督培训创建自己的自定义NER模型。对于如何使用斯坦福NER CRF创建自己的NER模型,我有一个很好的想法,但创建带有手动注释的大型培训语料库是我想要避免的事情,因为这对个人来说是一项巨大的工作,其次,从印度不同州获得不同的人名也是一个挑战。有人能提出任何自动化/程序化的方法来准备一个至少有10万个印度名字的带标签

我计划使用命名实体识别(NER)技术从给定文本中识别人名(大部分是印度名字)。我已经从斯坦福NLP探索了基于CRF的NER模型,但是它在识别印度名字方面并不十分准确。因此,我决定通过监督培训创建自己的自定义NER模型。对于如何使用斯坦福NER CRF创建自己的NER模型,我有一个很好的想法,但创建带有手动注释的大型培训语料库是我想要避免的事情,因为这对个人来说是一项巨大的工作,其次,从印度不同州获得不同的人名也是一个挑战。有人能提出任何自动化/程序化的方法来准备一个至少有10万个印度名字的带标签的培训语料库吗?

我已经研究过Facebook和LinkedIn API,但没有找到从给定位置(例如印度)提取10万个用户全名的方法。

一个建议:你可以尝试利用印度版维基百科进行培训或自动创建地名录

我不知道这是否是一个高效/快速的解决方案,但很多研究利用了维基百科和他的半结构化内容(例如,每个页面都有几个类别的注释)

您可以阅读这些文章,找到一个有趣的想法:

我最后做了以下工作来创建NER模型来识别印第安人的名字。这对于任何希望创建自定义NER模型以识别非英语人名的人来说都是有用的,因为大多数公开可用的NER模型(如斯坦福NLP的模型)都是使用英语姓名训练的,因此在识别英语(英国/美国)姓名方面更为准确

  • 找到一位拥有Twitter账号且在Twitter上拥有大量粉丝的印度名人(就我而言,我选择了Sachin Tendulkar)
  • 使用您选择的语言创建一个程序,调用Twitter REST API(GET followers/list),以获取名人所有追随者的姓名并保存到文件中。我们可以有把握地认为,大多数追随者都是印度人。请注意,有一个API速率限制(每15分钟窗口30个请求),因此应该内置程序来处理该限制。就我们的情况而言,我们将该程序开发为每15分钟运行一次的Windows服务
  • 由于一些Twitter用户的名字可能不是有效的人名,因此建议添加一些基于规则的逻辑(如RegEx)来过滤看似真实的名字,并仅将这些名字添加到文件中
  • 生成具有真实名称的文件后,创建另一个程序以创建培训数据文件,该文件包含标记/注释为PERSON的名称以及注释为OTHER的非实体名称。如果您使用的是Stanford NER CRF分类器,那么程序应该生成一个包含两列的训练(TSV)文件——一列包含单词(token),第二列提到标签
  • 以编程方式生成培训语料库后,您可以按照以下链接创建自定义的NER模型,以识别印第安人姓名:

  • 这个网站为我们做到了这一点!它为这些问题提供了解决方案: 印度语言的挑战 印度语言属于几个语系,主要有印欧语系、印度雅利安语系和德拉维语系。 NER的挑战是由几个因素引起的。下面列出了一些主要因素 形态丰富-很难识别根,需要使用形态分析仪 没有大写特征——在英语中,大写是主要特征之一,而在印度语言中则没有 歧义-普通名词和专有名词之间的歧义。像“Roja”这样的常用词,意思是玫瑰花是一个人的名字 拼写变化-在网络数据中,我们发现不同的人对同一实体的拼写不同-例如:在泰米尔人名中,Roja拼写为“rosa”,“Roja”。 提供了整个语料库

    祝你获得zip文件的密码好运


    干杯

    谢谢你的建议。我来看看。然而,我不确定从维基百科中以编程方式提取至少10万个不同的印度名字是否可行。尽管上述内容在撰写本文时和现在都有意义,想要快速起步的人可以从这里获得一些名字。如果你已经将语料库上传到github,那就太棒了。:)无论如何,谢谢你提供的线索。你想上传你的语料库还是带注释的数据集?没有人会回复ZIP的密码。有人设法弄到了吗?@NiraliKhoda我与业主取得了联系,要求他们填写一些表格和文件来获取数据。