Nlp 如何在自然文本中查找对日期的引用?

Nlp 如何在自然文本中查找对日期的引用?,nlp,machine-learning,information-extraction,named-entity-recognition,temporal,Nlp,Machine Learning,Information Extraction,Named Entity Recognition,Temporal,我想做的是解析原始的自然文本,找到所有描述日期的短语 我有一个相当大的语料库,上面标注了所有关于日期的参考: I met him <date>yesterday</date>. Roger Zelazny was born <date>in 1937</date> He'll have a hell of a hangover <date>tomorrow morning</date> 我不想解释日期短语,只要找到它们就行

我想做的是解析原始的自然文本,找到所有描述日期的短语

我有一个相当大的语料库,上面标注了所有关于日期的参考:

I met him <date>yesterday</date>.
Roger Zelazny was born <date>in 1937</date>
He'll have a hell of a hangover <date>tomorrow morning</date>
我不想解释日期短语,只要找到它们就行了。事实上,他们是约会在现实生活中是无关紧要的,他们甚至不是约会,但我不想让你厌烦细节,基本上这只是一组开放的可能值。值本身的语法可以近似地表示为上下文无关,但是手动构建非常复杂,并且随着复杂性的增加,越来越难以避免误报


我知道这有点遥不可及,所以我不希望有现成的解决方案,但我可以使用什么技术或研究?

学术界和工业界使用的通用方法之一是基于条件随机场的。基本上,它是一种特殊的概率模型,您首先使用标记数据对其进行训练,然后它可以在给定文本中标记某些类型的实体

您甚至可以尝试斯坦福自然语言处理集团的一种系统:

下载该工具时,请注意有几种型号,您需要最后一种:

斯坦福NER包括一个为CoNLL培训的4级模型, 针对MUC培训的7级模型,以及针对两者培训的3级模型 这些类集的交集的数据集

3班级地点、人员、组织

4类地点、人员、组织、杂项

7上课时间、地点、组织、人员、金钱、百分比、日期

更新。你可以试试这个工具。选择muc.7class.distsim.crf.ser.gz分类器,并尝试一些带有日期的文本。它似乎不承认昨天,但它承认20世纪,例如。最后,这是一个CRF培训的问题


学术界和工业界使用的一种通用方法是基于条件随机场的。基本上,它是一种特殊的概率模型,您首先使用标记数据对其进行训练,然后它可以在给定文本中标记某些类型的实体

您甚至可以尝试斯坦福自然语言处理集团的一种系统:

下载该工具时,请注意有几种型号,您需要最后一种:

斯坦福NER包括一个为CoNLL培训的4级模型, 针对MUC培训的7级模型,以及针对两者培训的3级模型 这些类集的交集的数据集

3班级地点、人员、组织

4类地点、人员、组织、杂项

7上课时间、地点、组织、人员、金钱、百分比、日期

更新。你可以试试这个工具。选择muc.7class.distsim.crf.ser.gz分类器,并尝试一些带有日期的文本。它似乎不承认昨天,但它承认20世纪,例如。最后,这是一个CRF培训的问题


请记住,CRF的训练速度相当慢,并且需要人工标注的数据,所以自己动手并不容易。阅读对的回答,了解人们在实践中如何经常这样做的另一个例子——与当前的学术研究没有太多共同之处。

请记住,CRF的训练相当缓慢,需要人工注释的数据,因此自己做并不容易。阅读对的回答,了解人们在实践中经常这样做的另一个例子-与当前的学术研究没有太多共同之处。

谢谢,这看起来很有希望。谢谢,这看起来很有希望。每个算法都需要一些人工注释的数据来开始。。。如果计算机可以对自己进行分类,那么这些算法就不需要了。但是,不同的ALGO在训练性能和适用性、数据格式和错误率方面有不同的特点,所以+ 1是一个很好的选择。幸运的是,我有数千个手工注释的文件,所以有很多数据可以处理。错误率可能决定不同的方法。有人知道比较这两种方法的工作吗?我真的很想知道regex方法的调用是什么样的。每个算法都需要一些人工注释的数据来开始。。。如果计算机可以对自己进行分类,那么这些算法就不需要了。但是,不同的ALGO在训练性能和适用性、数据格式和错误率方面有不同的特点,所以+ 1是一个很好的选择。幸运的是,我有数千个手工注释的文件,所以有很多数据可以处理。错误率可能决定不同的方法。有人知道比较这两种方法的工作吗?我真的很想知道regex方法的召回是什么样子的。参见问题。这叫做N
amed实体提取,作为信息提取中的子任务@重置器提供了链接。机器学习和基于语法的方法都能很好地工作。请看@sdream谢谢,这看起来也很有希望,我将尝试一下。请看问题。这称为命名实体提取,作为信息提取中的子任务@重置器提供了链接。机器学习和基于语法的方法都能很好地工作。请看一下@sdream谢谢,这看起来也很有希望,我将尝试一下。