Algorithm 如何以编程方式(通过语法分析/解析等)检测CVs中的易受攻击/个人信息
为了使事情更加具体:Algorithm 如何以编程方式(通过语法分析/解析等)检测CVs中的易受攻击/个人信息,algorithm,syntax,machine-learning,analysis,lexical-analysis,Algorithm,Syntax,Machine Learning,Analysis,Lexical Analysis,为了使事情更加具体: 如何检测人名(似乎是命名实体提取的简单案例?) 如何检测地址:我的最佳猜测-查找邮政编码(regex);国家和城镇名称,并在其周围记录一些文字 至于电话、电子邮件——它们可能会被各种正则表达式+预处理捕获 此时不关心教育/工作经验 理由: 为了在简历上建立全文索引,所有易受攻击的信息都应该从简历中删除 另外,任何第三方API/服务都不能作为解决方案。我觉得这不能用机器来完成 每一份简历都会有不同的格式和布局。 你能做的最好的事情就是设计一个内部格式,并手动复制其中的每个简历
另外,任何第三方API/服务都不能作为解决方案。我觉得这不能用机器来完成 每一份简历都会有不同的格式和布局。
你能做的最好的事情就是设计一个内部格式,并手动复制其中的每个简历内容。或者让应聘者填写你的表格(不会有太多麻烦)。你感兴趣的问题是从半结构化源中提取信息
我认为你应该下载这方面的几篇研究论文,了解什么可以做,什么不能做。我认为这个问题应该分为两个搜索领域:
TL;DR版本:NLP技术可以帮助您很多 可能是名称检测器的一个例子——但在我的例子中,我需要的是算法,而不是服务。或者至少参考一些研究资料。语法分析对我来说太广泛了,我无法调查。你还没有向任何一家在人力资源/招聘中使用黄铜的公司提出申请。他们这样做了,而且很不错。你有文本形式的简历吗,或者你需要执行OCR或其他方式来获取文本?考虑到OCR本身远远不够完美,这又增加了一层复杂性。