Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/docker/10.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Nlp 是否可以使用除人员、组织和Loc之外的Lingpipe提取通用实体?_Nlp_Machine Learning_Text Analysis_Named Entity Extraction - Fatal编程技术网

Nlp 是否可以使用除人员、组织和Loc之外的Lingpipe提取通用实体?

Nlp 是否可以使用除人员、组织和Loc之外的Lingpipe提取通用实体?,nlp,machine-learning,text-analysis,named-entity-extraction,Nlp,Machine Learning,Text Analysis,Named Entity Extraction,我通读了NLP的Lingpipe,发现我们有能力识别提到的人员、地点和组织的名字。我的问题是,如果我有一个培训文档集,其中提到了文本中的软件项目,那么我可以使用这个培训集来培训命名实体识别器吗?一旦培训完成,我应该能够将文本文档的测试集提供给经过培训的模型,并且我应该能够识别其中提到的软件项目 使用NER是否可以使用此通用NER?如果是这样的话,我应该使用哪些应该提供的功能 谢谢 阿披舍克S提供了足够的培训数据和可能的标记软件项目 如果使用Lingpipe,我将使用角色n-grams模型作为任务

我通读了NLP的Lingpipe,发现我们有能力识别提到的人员、地点和组织的名字。我的问题是,如果我有一个培训文档集,其中提到了文本中的软件项目,那么我可以使用这个培训集来培训命名实体识别器吗?一旦培训完成,我应该能够将文本文档的测试集提供给经过培训的模型,并且我应该能够识别其中提到的软件项目

使用NER是否可以使用此通用NER?如果是这样的话,我应该使用哪些应该提供的功能

谢谢
阿披舍克S

提供了足够的培训数据和可能的标记软件项目

如果使用Lingpipe,我将使用角色n-grams模型作为任务的第一个选项。他们很简单,通常都能完成工作。如果结果不够好,一些标准的NER功能包括:

  • 代币
  • 词性
  • 资本化
  • 点刺
  • 字符签名:这些是一些想法:(LUCENE->Aaaaa->A),(LUCENE->Aaaaa->Aa),(LUCENE核心-->Aaaaa-->Aa-A)
  • 如果您可以从维基百科、sourceforge或任何其他内部资源获得Gazeteer(软件项目列表),那么编写Gazeteer(软件项目列表)也可能很有用

最后,对于每个令牌,您可以添加上下文特征、当前令牌之前的令牌(t-1,t-2…)和当前令牌之后的令牌(t+1,t+2…)以及它们的双随机数组合(t-2^t-1),(t+1^t+2)

前提是您有足够的培训数据和可能的标记软件项目

如果使用Lingpipe,我将使用角色n-grams模型作为任务的第一个选项。他们很简单,通常都能完成工作。如果结果不够好,一些标准的NER功能包括:

  • 代币
  • 词性
  • 资本化
  • 点刺
  • 字符签名:这些是一些想法:(LUCENE->Aaaaa->A),(LUCENE->Aaaaa->Aa),(LUCENE核心-->Aaaaa-->Aa-A)
  • 如果您可以从维基百科、sourceforge或任何其他内部资源获得Gazeteer(软件项目列表),那么编写Gazeteer(软件项目列表)也可能很有用

最后,对于每个令牌,您可以添加上下文特征、当前令牌之前的令牌(t-1,t-2…)和当前令牌之后的令牌(t+1,t+2…)以及它们的双随机数组合(t-2^t-1),(t+1^t+2)

当然可以。只需获取您需要的所有类别的列车数据,然后按照教程进行操作。
无需进行功能调整,因为lingpipe只使用硬编码的功能(形状、sequnce单词和ngramm)

当然可以。只需获取您需要的所有类别的列车数据,然后按照教程进行操作。
无需进行功能调整,因为lingpipe只使用硬编码的功能(形状、Sequence word和Ngrams)

谢谢。你的意思是说我们不能在Lingpipe for NER中使用像上面提到的zdepablo那样的定制功能吗?是的,对于Lingpipe中几乎所有的NER模型,你都不能。自4.0版以来,有一个例外,他们有CRF功能。谢谢。你的意思是说我们不能在Lingpipe for NER中使用像上面提到的zdepablo那样的定制功能吗?是的,对于Lingpipe中几乎所有的NER模型,你都不能。自4.0版本以来,有一个例外,即它们具有CRF功能。