Nlp 是否可以使用除人员、组织和Loc之外的Lingpipe提取通用实体?
我通读了NLP的Lingpipe,发现我们有能力识别提到的人员、地点和组织的名字。我的问题是,如果我有一个培训文档集,其中提到了文本中的软件项目,那么我可以使用这个培训集来培训命名实体识别器吗?一旦培训完成,我应该能够将文本文档的测试集提供给经过培训的模型,并且我应该能够识别其中提到的软件项目 使用NER是否可以使用此通用NER?如果是这样的话,我应该使用哪些应该提供的功能 谢谢Nlp 是否可以使用除人员、组织和Loc之外的Lingpipe提取通用实体?,nlp,machine-learning,text-analysis,named-entity-extraction,Nlp,Machine Learning,Text Analysis,Named Entity Extraction,我通读了NLP的Lingpipe,发现我们有能力识别提到的人员、地点和组织的名字。我的问题是,如果我有一个培训文档集,其中提到了文本中的软件项目,那么我可以使用这个培训集来培训命名实体识别器吗?一旦培训完成,我应该能够将文本文档的测试集提供给经过培训的模型,并且我应该能够识别其中提到的软件项目 使用NER是否可以使用此通用NER?如果是这样的话,我应该使用哪些应该提供的功能 谢谢 阿披舍克S提供了足够的培训数据和可能的标记软件项目 如果使用Lingpipe,我将使用角色n-grams模型作为任务
阿披舍克S提供了足够的培训数据和可能的标记软件项目 如果使用Lingpipe,我将使用角色n-grams模型作为任务的第一个选项。他们很简单,通常都能完成工作。如果结果不够好,一些标准的NER功能包括:
- 代币
- 词性
- 资本化
- 点刺
- 字符签名:这些是一些想法:(LUCENE->Aaaaa->A),(LUCENE->Aaaaa->Aa),(LUCENE核心-->Aaaaa-->Aa-A)
- 如果您可以从维基百科、sourceforge或任何其他内部资源获得Gazeteer(软件项目列表),那么编写Gazeteer(软件项目列表)也可能很有用李>
最后,对于每个令牌,您可以添加上下文特征、当前令牌之前的令牌(t-1,t-2…)和当前令牌之后的令牌(t+1,t+2…)以及它们的双随机数组合(t-2^t-1),(t+1^t+2) 前提是您有足够的培训数据和可能的标记软件项目 如果使用Lingpipe,我将使用角色n-grams模型作为任务的第一个选项。他们很简单,通常都能完成工作。如果结果不够好,一些标准的NER功能包括:
- 代币
- 词性
- 资本化
- 点刺
- 字符签名:这些是一些想法:(LUCENE->Aaaaa->A),(LUCENE->Aaaaa->Aa),(LUCENE核心-->Aaaaa-->Aa-A)
- 如果您可以从维基百科、sourceforge或任何其他内部资源获得Gazeteer(软件项目列表),那么编写Gazeteer(软件项目列表)也可能很有用李>
最后,对于每个令牌,您可以添加上下文特征、当前令牌之前的令牌(t-1,t-2…)和当前令牌之后的令牌(t+1,t+2…)以及它们的双随机数组合(t-2^t-1),(t+1^t+2) 当然可以。只需获取您需要的所有类别的列车数据,然后按照教程进行操作。
无需进行功能调整,因为lingpipe只使用硬编码的功能(形状、sequnce单词和ngramm)当然可以。只需获取您需要的所有类别的列车数据,然后按照教程进行操作。
无需进行功能调整,因为lingpipe只使用硬编码的功能(形状、Sequence word和Ngrams)谢谢。你的意思是说我们不能在Lingpipe for NER中使用像上面提到的zdepablo那样的定制功能吗?是的,对于Lingpipe中几乎所有的NER模型,你都不能。自4.0版以来,有一个例外,他们有CRF功能。谢谢。你的意思是说我们不能在Lingpipe for NER中使用像上面提到的zdepablo那样的定制功能吗?是的,对于Lingpipe中几乎所有的NER模型,你都不能。自4.0版本以来,有一个例外,即它们具有CRF功能。