Nlp 在简历中标记自定义实体(NER)

Nlp 在简历中标记自定义实体(NER),nlp,stanford-nlp,crf,crfsuite,Nlp,Stanford Nlp,Crf,Crfsuite,如何为自定义命名实体执行NER。e、 如果我想确定某个词是否是简历中的技能。如果(Java,c++)出现在我的文本中,我应该能够将它们标记为技能。我不想在自定义语料库中使用spacy。我想创建数据集,例如。 单词将是我的特征,标签(技能)将是我的因变量 处理此类问题的最佳方法是什么。自定义词典和公报的替代方法是创建一个数据集,在其中为每个单词指定相应的标签。您可以定义一组标签(例如{OTHER,SKILL}),并使用以下示例创建数据集: I OTHER can OTHER

如何为自定义命名实体执行NER。e、 如果我想确定某个词是否是简历中的技能。如果(Java,c++)出现在我的文本中,我应该能够将它们标记为技能。我不想在自定义语料库中使用spacy。我想创建数据集,例如。 单词将是我的特征,标签(技能)将是我的因变量


处理此类问题的最佳方法是什么。

自定义词典和公报的替代方法是创建一个数据集,在其中为每个单词指定相应的标签。您可以定义一组标签(例如{OTHER,SKILL}),并使用以下示例创建数据集:

I        OTHER
can      OTHER
program  OTHER
in       OTHER
Python   SKILL
.        OTHER 
使用足够大的数据集,您可以训练模型来预测相应的标签

您可以尝试从简历语料库中培训的单词嵌入中获取“编码语言”概要(或您正在寻找的特定技能)列表,并使用此信息自动标记其他语料库。我想说的是,关键的一点是找到一种方法,至少部分地自动化标记,否则您将没有足够的示例来训练自定义任务中的模型。使用这样的工具可以减少标记工作

作为功能,您还可以使用单词嵌入(或其他典型的NLP功能,如n-grams、POS标记等,具体取决于您使用的型号)

另一个选择是应用其他NER/NLP模型的迁移学习,并在CV标记的数据集上对其进行微调


我会更加努力地创建正确的数据集,然后逐步测试更复杂的模型,选择最适合您需要的。

谢谢您的回复。这是有道理的