Xpath 基于日期的刮削

Xpath 基于日期的刮削,xpath,web-scraping,Xpath,Web Scraping,我正试图从一个网站上抓取数据,这个网站的标签中似乎没有太多类别。但是,我仍然想知道是否有可能使用xpath从今天的标题中删除 所以它只检索2015年9月4日的标题 url:由于日期是唯一的10/4-2015,您可以使用xpath的contents()定位b标记节点,请参见html: 然后基于此节点转到其父节点和同级节点smth。像这样(未测试): 更新 由于当前日期项目位于底部,因此根据html,以下所有同级节点都与此数据相关(google) 见测试。如果你想在两者之间获取div,那么浏览它返回

我正试图从一个网站上抓取数据,这个网站的标签中似乎没有太多类别。但是,我仍然想知道是否有可能使用xpath从今天的标题中删除

所以它只检索2015年9月4日的标题


url:

由于日期是唯一的
10/4-2015
,您可以使用xpath的
contents()
定位
b
标记节点,请参见html:

然后基于此节点转到其父节点和同级节点smth。像这样(未测试):

更新 由于当前日期项目位于底部,因此根据html,以下所有同级节点都与此数据相关(google)


见测试。如果你想在两者之间获取div,那么浏览它返回日期div,但是我似乎无法获取该日期下的文章标题
//b[contains(., '10/4 - 2015')]
//b[contains(., '10/4 - 25')]/parent::div/siblings::div
//b[contains(., '10/4 - 25')]/parent::div/following-sibling::div[@class='newsItem']