Nlp 是否可以使用除人员、组织和Loc之外的Lingpipe提取通用实体？_Nlp_Machine Learning_Text Analysis_Named Entity Extraction

Nlp 是否可以使用除人员、组织和Loc之外的Lingpipe提取通用实体？

nlp machine-learning

Nlp 是否可以使用除人员、组织和Loc之外的Lingpipe提取通用实体？,nlp,machine-learning,text-analysis,named-entity-extraction,Nlp,Machine Learning,Text Analysis,Named Entity Extraction,我通读了NLP的Lingpipe，发现我们有能力识别提到的人员、地点和组织的名字。我的问题是，如果我有一个培训文档集，其中提到了文本中的软件项目，那么我可以使用这个培训集来培训命名实体识别器吗？一旦培训完成，我应该能够将文本文档的测试集提供给经过培训的模型，并且我应该能够识别其中提到的软件项目使用NER是否可以使用此通用NER？如果是这样的话，我应该使用哪些应该提供的功能谢谢阿披舍克S提供了足够的培训数据和可能的标记软件项目如果使用Lingpipe，我将使用角色n-grams模型作为任务

我通读了NLP的Lingpipe，发现我们有能力识别提到的人员、地点和组织的名字。我的问题是，如果我有一个培训文档集，其中提到了文本中的软件项目，那么我可以使用这个培训集来培训命名实体识别器吗？一旦培训完成，我应该能够将文本文档的测试集提供给经过培训的模型，并且我应该能够识别其中提到的软件项目

使用NER是否可以使用此通用NER？如果是这样的话，我应该使用哪些应该提供的功能

谢谢

阿披舍克S

提供了足够的培训数据和可能的标记软件项目

如果使用Lingpipe，我将使用角色n-grams模型作为任务的第一个选项。他们很简单，通常都能完成工作。如果结果不够好，一些标准的NER功能包括：

代币
词性
资本化
点刺
字符签名：这些是一些想法：（LUCENE->Aaaaa->A），（LUCENE->Aaaaa->Aa），（LUCENE核心-->Aaaaa-->Aa-A）
如果您可以从维基百科、sourceforge或任何其他内部资源获得Gazeteer（软件项目列表），那么编写Gazeteer（软件项目列表）也可能很有用

最后，对于每个令牌，您可以添加上下文特征、当前令牌之前的令牌（t-1，t-2…）和当前令牌之后的令牌（t+1，t+2…）以及它们的双随机数组合（t-2^t-1），（t+1^t+2）

前提是您有足够的培训数据和可能的标记软件项目

如果使用Lingpipe，我将使用角色n-grams模型作为任务的第一个选项。他们很简单，通常都能完成工作。如果结果不够好，一些标准的NER功能包括：

代币
词性
资本化
点刺
字符签名：这些是一些想法：（LUCENE->Aaaaa->A），（LUCENE->Aaaaa->Aa），（LUCENE核心-->Aaaaa-->Aa-A）
如果您可以从维基百科、sourceforge或任何其他内部资源获得Gazeteer（软件项目列表），那么编写Gazeteer（软件项目列表）也可能很有用

当然可以。只需获取您需要的所有类别的列车数据，然后按照教程进行操作。

无需进行功能调整，因为lingpipe只使用硬编码的功能（形状、sequnce单词和ngramm）

当然可以。只需获取您需要的所有类别的列车数据，然后按照教程进行操作。

无需进行功能调整，因为lingpipe只使用硬编码的功能（形状、Sequence word和Ngrams）

谢谢。你的意思是说我们不能在Lingpipe for NER中使用像上面提到的zdepablo那样的定制功能吗？是的，对于Lingpipe中几乎所有的NER模型，你都不能。自4.0版以来，有一个例外，他们有CRF功能。谢谢。你的意思是说我们不能在Lingpipe for NER中使用像上面提到的zdepablo那样的定制功能吗？是的，对于Lingpipe中几乎所有的NER模型，你都不能。自4.0版本以来，有一个例外，即它们具有CRF功能。