Nlp 如何从这些句子中提取信息
我得到的句子列表如下: 这是我从工作描述中提取的一些句子。我想提取如下信息:学位类型、专业、必修或首选。 有 结果应该是: { 学位:学士, 专业:计算机科学, 必填项:True } 这些句子没有明显的规则。我怎样才能达到这个目标Nlp 如何从这些句子中提取信息,nlp,nltk,stanford-nlp,opennlp,information-extraction,Nlp,Nltk,Stanford Nlp,Opennlp,Information Extraction,我得到的句子列表如下: 这是我从工作描述中提取的一些句子。我想提取如下信息:学位类型、专业、必修或首选。 有 结果应该是: { 学位:学士, 专业:计算机科学, 必填项:True } 这些句子没有明显的规则。我怎样才能达到这个目标 您可能需要收集专业和学位列表(例如:)以提取学位和专业。然后根据一些一般规则(或设计分类器决定“必需”或“不必需”) 因此,您正在处理非结构化数据,我希望通过以下步骤,您可以达到相当高的精确度 创建一个查找表,列出可能出现在每个所需变量(如学位、教育等)中的所有关键
您可能需要收集专业和学位列表(例如:)以提取学位和专业。然后根据一些一般规则(或设计分类器决定“必需”或“不必需”) 因此,您正在处理非结构化数据,我希望通过以下步骤,您可以达到相当高的精确度
这只是基本的方法,我相信如果你在你的方法上做一些迭代,你将能够提取信息 另一个建议是:
- 第一:清理数据-删除所有标点符号,停止 文字、不需要的符号等
- 第二:列出你感兴趣的关键词
- 第三:将数据拆分为单词(nltk中的单词标记化)
- 第四:制作一本你正在查找的价值观词典
- 第五:在字典中查找你读到的单词列表匹配 它与您的关键字列表,然后附加到新的输出 字典
希望这能有所帮助。发布一些提取规则,忍受噪音,只报告结果……这实际上很有意义。在这样的相关问题上给了我想法。我的步骤->使用空格来检测句子边界并将它们放入列表中。使用word2vec在这些句子中查找相对相似的单词。归还它们。
Bachelor ’ s degree in Computer Science or equivalent
Pursuing B.S. or advanced degree in computer science or related technical/engineering degree .
Bachelor 's Degree in Computer Science or equivalent experience
Youre educated ( BS/MS in Computer Science or other technical degree ) .
•BS in Computer Science , Digital Media or similar technical degree with 3 + years of experience
· Bachelors degree .
Bachelor 's degree in computer science , design or related field
Ability to absorb , master and leverage emerging technologies
BA/BS degree or equivalent practical experience
Education Required : Bachelors Degree
• Bachelor 's degree in related field , OR four ( 4 ) years of experience in a directly related field .