Nlp 从非结构化文本中提取信息
我收集了一系列“文章”,每一篇都有1到10个句子,用嘈杂的非正式英语(即社交媒体风格)撰写。 我需要从每篇文章中提取一些信息,如日期和时间。我还需要了解这篇文章在谈论什么,谁是主要的“演员” 例如,有一句话:“从明天上午10:30开始,所有人都必须到场讨论公司的财务预测。”我需要摘录:Nlp 从非结构化文本中提取信息,nlp,nltk,Nlp,Nltk,我收集了一系列“文章”,每一篇都有1到10个句子,用嘈杂的非正式英语(即社交媒体风格)撰写。 我需要从每篇文章中提取一些信息,如日期和时间。我还需要了解这篇文章在谈论什么,谁是主要的“演员” 例如,有一句话:“从明天上午10:30开始,所有人都必须到场讨论公司的财务预测。”我需要摘录: 日期/时间=>“明天上午10:30” 主题=>“公司财务预测” 演员=>“每个人” 据我所知,可以在不使用NLP技术的情况下提取日期和时间,但我在Python中还没有找到任何比Natty()更好的方法 在阅读
- 日期/时间=>“明天上午10:30”李>
- 主题=>“公司财务预测”
- 演员=>“每个人”
如果您对理解问题和优化现有解决方案感兴趣,我建议您将重点放在允许您开发自己的模型的工具上。如果您优先考虑获得结果而不是开发自己的模型,我建议您研究现有的开源文本工程框架,如Gate()UIMA()和DKPro(它扩展了UIMA)()。这三个框架都封装了现有的组件,因此您有一系列可能的解决方案。我建议尝试使用NER和时间规范化器。 下面是我看到的你的例句: 您可以在此处尝试演示:
在学术层面上,这是一个非常重要的问题。