Parsing 用jsoup从维基百科中提取出生/死亡日?

Parsing 用jsoup从维基百科中提取出生/死亡日?,parsing,jsoup,Parsing,Jsoup,我想用jsoup从维基百科中提取出生和死亡日。 例如: wikipedia的英国/死亡日: * 8. September 1157 in Oxford; † 6. April 1199 in Châlus) html代码中的出生/死亡日: * <a href="/wiki/8._September" title="8. September">8. September</a> <a href="/wiki/1157" title="1157">1157<

我想用jsoup从维基百科中提取出生和死亡日。 例如:

wikipedia的英国/死亡日:

* 8. September 1157 in Oxford; † 6. April 1199 in Châlus)
html代码中的出生/死亡日:

* <a href="/wiki/8._September" title="8. September">8. September</a> <a href="/wiki/1157" title="1157">1157</a> in <a href="/wiki/Oxford" title="Oxford">Oxford</a>; † <a href="/wiki/6._April" title="6. April">6. April</a> <a href="/wiki/1199" title="1199">1199</a>

我的问题是我不知道如何提取信息,因为搜索标记“a”和
attr(“href”)
可能会返回错误的元素,因为如果元素是出生日期、死亡日期或其他日期,则元素不包含信息。

您试图从哪个URL获取此信息?我的所有页面都在文本文件中。只有提供输入示例、您迄今为止尝试的内容以及您想要的实际输出,人们才能提供帮助。问题是,包含所有html页面的txt文件大约为500mb,该文件仅包含wikipedia页面的常规html代码。在我的学校项目中,这是一个小问题,不允许打开该文件,因为它代表一个“非常大”的文件(500 gb++),无法在每次查看该文件的结构时打开。
String birthDate = 8. September 1157;
String deathDate = 6. April 1199;