Nlp 从银行电汇交易中提取实体(如非自然文本)

Nlp 从银行电汇交易中提取实体(如非自然文本),nlp,nltk,opennlp,stanford-nlp,Nlp,Nltk,Opennlp,Stanford Nlp,我试图从不太自然的文本中提取实体(姓名、地址、组织),比如银行电汇交易中的注释。 使用NLTK、OpenNLP和CoreNLP显然效果不好 你知道如何改进结果吗 文本可以看起来像 EVERITT 62012T NAT ABC印度有限公司 参考ROBERT FINEMANN-理性店铺租赁 参考BY92 00 112233999-超速原因罚款 GEM SS HEUTIGEM SCHIENDLER 养老金CH1234 CAB28 参考研究工作或现有产品也会有所帮助在我看来,你必须使用字典/数据库 您

我试图从不太自然的文本中提取实体(姓名、地址、组织),比如银行电汇交易中的注释。 使用NLTK、OpenNLP和CoreNLP显然效果不好

你知道如何改进结果吗

文本可以看起来像

  • EVERITT 62012T NAT ABC印度有限公司
  • 参考ROBERT FINEMANN-理性店铺租赁
  • 参考BY92 00 112233999-超速原因罚款
  • GEM SS HEUTIGEM SCHIENDLER
  • 养老金CH1234 CAB28

  • 参考研究工作或现有产品也会有所帮助

    在我看来,你必须使用字典/数据库

    您可以尝试使用以下步骤种植:


    但是你仍然需要有一种定义候选“短语”的方法——论文中的例子,例如大写的单词,在这里显然不起作用。

    如果你使用opennlp并且知道如何训练,你应该在训练数据中给出15000个例子

     <START:name> EVERITT <END> <START:Address> 620122T NAT <END> <START:Organisation> ABC INDIA LTD <END>
    .......
    ....(15000 lines)
    
    EVERITT 62012T NAT ABC印度有限公司
    .......
    ..(15000行)
    
    然后你可以期待一些好的结果

    您可能需要为此类服务“付费”;P