Nlp 在简历中标记自定义实体（NER）_Nlp_Stanford Nlp_Crf_Crfsuite

Nlp 在简历中标记自定义实体（NER）

nlp stanford-nlp

Nlp 在简历中标记自定义实体（NER）,nlp,stanford-nlp,crf,crfsuite,Nlp,Stanford Nlp,Crf,Crfsuite,如何为自定义命名实体执行NER。e、如果我想确定某个词是否是简历中的技能。如果（Java，c++）出现在我的文本中，我应该能够将它们标记为技能。我不想在自定义语料库中使用spacy。我想创建数据集，例如。单词将是我的特征，标签（技能）将是我的因变量处理此类问题的最佳方法是什么。自定义词典和公报的替代方法是创建一个数据集，在其中为每个单词指定相应的标签。您可以定义一组标签（例如{OTHER，SKILL}），并使用以下示例创建数据集： I OTHER can OTHER

如何为自定义命名实体执行NER。e、如果我想确定某个词是否是简历中的技能。如果（Java，c++）出现在我的文本中，我应该能够将它们标记为技能。我不想在自定义语料库中使用spacy。我想创建数据集，例如。单词将是我的特征，标签（技能）将是我的因变量

处理此类问题的最佳方法是什么。

自定义词典和公报的替代方法是创建一个数据集，在其中为每个单词指定相应的标签。您可以定义一组标签（例如{OTHER，SKILL}），并使用以下示例创建数据集：

I        OTHER
can      OTHER
program  OTHER
in       OTHER
Python   SKILL
.        OTHER

使用足够大的数据集，您可以训练模型来预测相应的标签

您可以尝试从简历语料库中培训的单词嵌入中获取“编码语言”概要（或您正在寻找的特定技能）列表，并使用此信息自动标记其他语料库。我想说的是，关键的一点是找到一种方法，至少部分地自动化标记，否则您将没有足够的示例来训练自定义任务中的模型。使用这样的工具可以减少标记工作

作为功能，您还可以使用单词嵌入（或其他典型的NLP功能，如n-grams、POS标记等，具体取决于您使用的型号）

另一个选择是应用其他NER/NLP模型的迁移学习，并在CV标记的数据集上对其进行微调

我会更加努力地创建正确的数据集，然后逐步测试更复杂的模型，选择最适合您需要的。

谢谢您的回复。这是有道理的