Algorithm 如何以编程方式(通过语法分析/解析等)检测CVs中的易受攻击/个人信息

Algorithm 如何以编程方式(通过语法分析/解析等)检测CVs中的易受攻击/个人信息,algorithm,syntax,machine-learning,analysis,lexical-analysis,Algorithm,Syntax,Machine Learning,Analysis,Lexical Analysis,为了使事情更加具体: 如何检测人名(似乎是命名实体提取的简单案例?) 如何检测地址:我的最佳猜测-查找邮政编码(regex);国家和城镇名称,并在其周围记录一些文字 至于电话、电子邮件——它们可能会被各种正则表达式+预处理捕获 此时不关心教育/工作经验 理由: 为了在简历上建立全文索引,所有易受攻击的信息都应该从简历中删除 另外,任何第三方API/服务都不能作为解决方案。我觉得这不能用机器来完成 每一份简历都会有不同的格式和布局。 你能做的最好的事情就是设计一个内部格式,并手动复制其中的每个简历

为了使事情更加具体:

  • 如何检测人名(似乎是命名实体提取的简单案例?)
  • 如何检测地址:我的最佳猜测-查找邮政编码(regex);国家和城镇名称,并在其周围记录一些文字
  • 至于电话、电子邮件——它们可能会被各种正则表达式+预处理捕获
  • 此时不关心教育/工作经验
  • 理由: 为了在简历上建立全文索引,所有易受攻击的信息都应该从简历中删除


    另外,任何第三方API/服务都不能作为解决方案。

    我觉得这不能用机器来完成

    每一份简历都会有不同的格式和布局。
    你能做的最好的事情就是设计一个内部格式,并手动复制其中的每个简历内容。或者让应聘者填写你的表格(不会有太多麻烦)。

    你感兴趣的问题是从半结构化源中提取信息


    我认为你应该下载这方面的几篇研究论文,了解什么可以做,什么不能做。

    我认为这个问题应该分为两个搜索领域:

  • 查找与专有名称相关的信息
  • 查找公式化的信息
  • 首先,与专有名称相关的信息可能最好通过搜索语法上重要或重要的项目来找到。也就是说,英语只大写句子的第一个单词和专有名词。对于语法规则,您可以查找单词首字母大写的所有单词,并对照包含单词和类型的数据库进行检查[即Bob-Name、Elon-Place、England-Place]

    第二:公式化的信息。这更多的是关于电子邮件地址、电话号码和物理地址。所有这些都有一个不变的特定格式。使用正则表达式并使用算法检测匹配的质量

    注意: 语法规则随语言而变化。德语中每个名词都大写。最好在应用规则之前检测文档的语言。另外,这个(有时还有我的简历)的另一个问题是它是如何设计的。如果简历不是用文本编辑器[designer tools]设计的,那么文本可能不会对齐,或者是位图格式


    TL;DR版本:NLP技术可以帮助您很多

    可能是名称检测器的一个例子——但在我的例子中,我需要的是算法,而不是服务。或者至少参考一些研究资料。语法分析对我来说太广泛了,我无法调查。你还没有向任何一家在人力资源/招聘中使用黄铜的公司提出申请。他们这样做了,而且很不错。你有文本形式的简历吗,或者你需要执行OCR或其他方式来获取文本?考虑到OCR本身远远不够完美,这又增加了一层复杂性。