Python 从文本语料库中提取与日期关联的日期和事件

Python 从文本语料库中提取与日期关联的日期和事件,python,machine-learning,nlp,nltk,Python,Machine Learning,Nlp,Nltk,我目前正在运行一个pyhton代码,该代码贯穿文本文件的每一行,并解析该行的日期。如果在该行中找到日期,则该行将复制到新的输出文件中。 我在100个文档上重复这个过程,最后我得到一个输出文件,其中包含日期为“2013年、2014年8月、1987年1月11日等”的行 问题是,它不能提供与某些日期相关的事件的准确信息 有没有更优雅的方法来解决这个问题? 下面是我试图提取2010年12月日期事件的文件 根据一家本地杂志昨天公布的一项研究,台北是所有主要城市和县中最具竞争力的地方。 《环球视野》杂志的这

我目前正在运行一个pyhton代码,该代码贯穿文本文件的每一行,并解析该行的日期。如果在该行中找到日期,则该行将复制到新的输出文件中。 我在100个文档上重复这个过程,最后我得到一个输出文件,其中包含日期为“2013年、2014年8月、1987年1月11日等”的行

问题是,它不能提供与某些日期相关的事件的准确信息

有没有更优雅的方法来解决这个问题? 下面是我试图提取2010年12月日期事件的文件

根据一家本地杂志昨天公布的一项研究,台北是所有主要城市和县中最具竞争力的地方。 《环球视野》杂志的这项研究显示,台北在经济、就业、教育、环境保护、公共安全、医疗和地方财政等各方面都名列第一。 因此,在整体竞争力方面,台北排名第一,其次是新竹市、嘉义市和新台北市。 《环球视野》评论说,台北市在过去60多年的特权发展中,得到了中央政府的大力资助,在可预见的未来,台北市将不会受到挑战。 台北和新台北是全国五个内阁级特别行政区中的两个,但其他三个——台中、台南和高雄——在这项研究中没有得到好的评价,尽管它们比大多数其他地方政府拥有更多的资源。 在这项研究中,台中市排名第七,台南市排名第十二,高雄市排名第十五。 2010年12月,三个直辖市通过合并相邻县,发展到目前的规模。但《全球观察》表示,合并削弱了它们的竞争力。 但就经济竞争力而言,所有五个特殊城市都跻身前十名。 下面是屏东县的农业区。但该杂志称,另一个农业县台东跻身前十名,居第八位主要是因为其犯罪率低

正如你所看到的,当我解析包含2010年12月的行时,我并没有得到任何有意义的信息 但实际上有一个重大事件,那就是尼荷伯林县的合并。 这并没有被捕获。因此,我需要知道是否有任何算法/库可以帮助我捕获在特定日期发生的事件


谢谢

我建议您试用python的NLTK库。你可以在这里找到它,这里还有一些基本的手册:

它有很多从文本中提取意义的算法。它还有一些模块,允许您:

1) 提取实体 2) 榨枣 3) 在提取的实体和日期之间建立关系

我建议您注意NLTK库中的timex.py模块:

它主要用于在文本中标记日期和时间

下面是提取实体关系的指南:


因此,我相信您可以从文本中提取感兴趣的实体(如您提到的事件),您可以将日期提取为另一组实体,并且使用NLTK可以在这些提取的实体之间建立关系。因此,您应该得到您所需要的内容—什么时候发生的。

您可以从您的输入中发布10行内容,其中包含您可以和无法成功解析的内容吗?您正在查找datetime.strftime(),这里有文档记录,您好,Tommy,谢谢您的回复。我发布了一个示例文本文件,当我解析包含Date@Sriram你在谷歌上搜索过“nlp事件提取”吗?嗨。没听说过nlp事件。但我一定会试试。@maxim谢谢你的建议。我一定会看看的