Warning: file_get_contents(/data/phpspider/zhask/data//catemap/6/cplusplus/124.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何理解简历中部门名称的模式? Python 2.6_Python_Parsing_Nlp_Nltk_Information Extraction - Fatal编程技术网

如何理解简历中部门名称的模式? Python 2.6

如何理解简历中部门名称的模式? Python 2.6,python,parsing,nlp,nltk,information-extraction,Python,Parsing,Nlp,Nltk,Information Extraction,最近我在做一些关于简历的文本挖掘工作。目标是根据标题和内容将简历分为几个部分,然后根据所需jds对其进行分类。我们知道简历通常包括以下几个部分: 1) 个人信息 2) 总结 3) 技术技能 4) 早期项目和经验 5) 教育 现在我想做的就是建立一个数据库,在这个数据库中,我可以在每个类别下找到所有简历的内容 结构是这样的: Personal Information Summary Technical Skills Experience/Projects Education

最近我在做一些关于简历的文本挖掘工作。目标是根据标题和内容将简历分为几个部分,然后根据所需jds对其进行分类。我们知道简历通常包括以下几个部分:

1) 个人信息

2) 总结

3) 技术技能

4) 早期项目和经验

5) 教育

现在我想做的就是建立一个数据库,在这个数据库中,我可以在每个类别下找到所有简历的内容

结构是这样的:

    Personal Information   Summary  Technical Skills    Experience/Projects Education
简历1相关信息相关信息相关信息相关信息相关信息

恢复2“”“

恢复3“”

相关信息应为简历中特定章节下的内容

我做了一些研究,最后我的问题归结为识别节名。其思想是找到一个节名的起始位置和下一个节名的起始位置,以便此间隔中的文本位于第一个节名之下。问题就在这里

问题:假设在简历1中我们有“技术技能”和“经验”两个部分的名称。我们将两者之间的数据放在简历1的技术技能栏中。但是,当我们查看简历2时,我们发现相同的部分名称被命名为“软件专业知识”和“早期作品和项目简介”,我们无法通过我们先前使用的关键字提取名称。因此,如果每次我必须为不同的cv提取节,我必须通过不同的节名来提取,而我无法概括我的代码

我曾尝试使用类似词语的词典,例如“软技能”等词语的同义词是“技术专长、软件专长、技术知识等”。类似词是“学术”、“教育资格”、“教育”,同样适用于经验、项目和其他部分。但是这个列表并不是详尽无遗的,因为人们可以在他们的简历中写任何东西,所以这些部门的名称可能会有一些其他的词。在一个小节下也可以有不同名称的小节

通常,节名以冒号或分号结尾,我们也可以从中找到

这些只是构建我想要的数据库的方法,但不是具体的方法。现在大部分简历都是PDF格式的,所以我先把它们转换成文本,然后再阅读。因此,有时字体较大或可能与简历其他部分不同的部门名称会变成与其他部分相同的字体,因此无法根据这些标准识别它们

这些都是我面临的问题,如果我能有一个通用的算法来选择节名,那么我的工作就会轻松很多。我知道这是一个讨论编码问题的论坛,自从我开始我的职业生涯以来,它对我帮助很大,但如果有人能给我一些关于如何继续的见解,我将在这里发布这篇文章。我是用Python编写代码的,对R或SAS等其他语言的任何建议都会有所帮助。大多数情况下,选择节名的通用算法对我来说最合适。如果您有一些想法,请帮助。通过标记条件随机场。提前谢谢你


PS:我已经尝试过NER方法并将所有格式转换为html来提取标题,但所有的努力都没有结果…

那么,你想要一个能够自动识别章节标题并对其进行分类的程序吗?这不是一件小事。是的,这不是。。。我只是需要头脑风暴的帮助,或者一个如何做的提示。。。任何帮助都将不胜感激…这对于堆栈溢出来说太宽了。这是针对特定编程问题的,更多的是关于设计一种相当复杂的机器学习/nlp方法。不管怎样,你希望得到什么样的“提示”?这里没有“正确答案”。有很多方法你可以尝试(同样,太宽泛了),而且很难提前说哪种方法有效,或者哪种方法有效。如何更好地提取这些标题及其所需段落的提示?请查看