Nlp 如何在自然文本中查找对日期的引用？_Nlp_Machine Learning_Information Extraction_Named Entity Recognition_Temporal

Nlp 如何在自然文本中查找对日期的引用？

nlp machine-learning

Nlp 如何在自然文本中查找对日期的引用？,nlp,machine-learning,information-extraction,named-entity-recognition,temporal,Nlp,Machine Learning,Information Extraction,Named Entity Recognition,Temporal,我想做的是解析原始的自然文本，找到所有描述日期的短语我有一个相当大的语料库，上面标注了所有关于日期的参考： I met him <date>yesterday</date>. Roger Zelazny was born <date>in 1937</date> He'll have a hell of a hangover <date>tomorrow morning</date> 我不想解释日期短语，只要找到它们就行

我想做的是解析原始的自然文本，找到所有描述日期的短语

我有一个相当大的语料库，上面标注了所有关于日期的参考：

I met him <date>yesterday</date>.
Roger Zelazny was born <date>in 1937</date>
He'll have a hell of a hangover <date>tomorrow morning</date>

我不想解释日期短语，只要找到它们就行了。事实上，他们是约会在现实生活中是无关紧要的，他们甚至不是约会，但我不想让你厌烦细节，基本上这只是一组开放的可能值。值本身的语法可以近似地表示为上下文无关，但是手动构建非常复杂，并且随着复杂性的增加，越来越难以避免误报

我知道这有点遥不可及，所以我不希望有现成的解决方案，但我可以使用什么技术或研究？

学术界和工业界使用的通用方法之一是基于条件随机场的。基本上，它是一种特殊的概率模型，您首先使用标记数据对其进行训练，然后它可以在给定文本中标记某些类型的实体

您甚至可以尝试斯坦福自然语言处理集团的一种系统：

下载该工具时，请注意有几种型号，您需要最后一种：

斯坦福NER包括一个为CoNLL培训的4级模型，针对MUC培训的7级模型，以及针对两者培训的3级模型这些类集的交集的数据集

3班级地点、人员、组织

4类地点、人员、组织、杂项

7上课时间、地点、组织、人员、金钱、百分比、日期

更新。你可以试试这个工具。选择muc.7class.distsim.crf.ser.gz分类器，并尝试一些带有日期的文本。它似乎不承认昨天，但它承认20世纪，例如。最后，这是一个CRF培训的问题

学术界和工业界使用的一种通用方法是基于条件随机场的。基本上，它是一种特殊的概率模型，您首先使用标记数据对其进行训练，然后它可以在给定文本中标记某些类型的实体

您甚至可以尝试斯坦福自然语言处理集团的一种系统：

下载该工具时，请注意有几种型号，您需要最后一种：

斯坦福NER包括一个为CoNLL培训的4级模型，针对MUC培训的7级模型，以及针对两者培训的3级模型这些类集的交集的数据集

3班级地点、人员、组织

4类地点、人员、组织、杂项

7上课时间、地点、组织、人员、金钱、百分比、日期

请记住，CRF的训练速度相当慢，并且需要人工标注的数据，所以自己动手并不容易。阅读对的回答，了解人们在实践中如何经常这样做的另一个例子——与当前的学术研究没有太多共同之处。

请记住，CRF的训练相当缓慢，需要人工注释的数据，因此自己做并不容易。阅读对的回答，了解人们在实践中经常这样做的另一个例子-与当前的学术研究没有太多共同之处。

谢谢，这看起来很有希望。谢谢，这看起来很有希望。每个算法都需要一些人工注释的数据来开始。。。如果计算机可以对自己进行分类，那么这些算法就不需要了。但是，不同的ALGO在训练性能和适用性、数据格式和错误率方面有不同的特点，所以+ 1是一个很好的选择。幸运的是，我有数千个手工注释的文件，所以有很多数据可以处理。错误率可能决定不同的方法。有人知道比较这两种方法的工作吗？我真的很想知道regex方法的调用是什么样的。每个算法都需要一些人工注释的数据来开始。。。如果计算机可以对自己进行分类，那么这些算法就不需要了。但是，不同的ALGO在训练性能和适用性、数据格式和错误率方面有不同的特点，所以+ 1是一个很好的选择。幸运的是，我有数千个手工注释的文件，所以有很多数据可以处理。错误率可能决定不同的方法。有人知道比较这两种方法的工作吗？我真的很想知道regex方法的召回是什么样子的。参见问题。这叫做N

amed实体提取，作为信息提取中的子任务@重置器提供了链接。机器学习和基于语法的方法都能很好地工作。请看@sdream谢谢，这看起来也很有希望，我将尝试一下。请看问题。这称为命名实体提取，作为信息提取中的子任务@重置器提供了链接。机器学习和基于语法的方法都能很好地工作。请看一下@sdream谢谢，这看起来也很有希望，我将尝试一下。