Python BeautifulSoup以标记之间的字符串为目标 有效期:14/09/2013
好的,这里有一个简单的(我想!?)谁能告诉我如何提取日期?那么,使用BeautifulSoup的Python BeautifulSoup以标记之间的字符串为目标 有效期:14/09/2013,python,web-scraping,beautifulsoup,Python,Web Scraping,Beautifulsoup,好的,这里有一个简单的(我想!?)谁能告诉我如何提取日期?那么,使用BeautifulSoup的之间的所有内容 谢谢。您可以使用 >>从bs4导入BeautifulSoup作为BS >>>html=“” ... ... …有效期:14/09/2013 ... ... “…” >>>soup=BS(html) >>>打印soup.find('li',{'class':'li_dataline2'})。内容[-1]。strip() 14/09/2013 太棒了!谢谢你,海德罗。。这肯定让我走
之间的所有内容
谢谢。您可以使用
>>从bs4导入BeautifulSoup作为BS
>>>html=“”
...
...
…有效期:14/09/2013
...
...
“… ”
>>>soup=BS(html)
>>>打印soup.find('li',{'class':'li_dataline2'})。内容[-1]。strip()
14/09/2013
太棒了!谢谢你,海德罗。。这肯定让我走上了正确的道路。另一个快速的问题!如何找到这些标记的“下一个实例”。我的意思是,下面还有一组标记,我也想从中获取数据。这有意义吗!再次感谢您的帮助。@user2574810您可以使用find_all()
查找所有的li标记,然后循环查找它们,并按照上面的说明从每个标记获取日期!谢谢,巨大的帮助。@user2574810别忘了:)啊,很有趣,非常感谢这对我想要的另一个字符串也很有帮助。谢谢你的时间!
<li class="li_dataline2">
<b> Expiry date: </b>14/09/2013
</li>
>>> from bs4 import BeautifulSoup as BS
>>> html = """<li class="li_dataline2">
...
...
... <b> Expiry date: </b>14/09/2013
...
...
... </li>"""
>>> soup = BS(html)
>>> print soup.find('li', {'class':'li_dataline2'}).contents[-1].strip()
14/09/2013
>>> from bs4 import BeautifulSoup
>>> s
'<li class="li_dataline2">\n\n\n<b> Expiry date: </b>14/09/2013\n\n\n</li>'
>>> soup = BeautifulSoup(s)
>>> soup.find('li', attrs={'class': 'li_dataline2'}).b.nextSibling.strip()
u'14/09/2013'
>>> p = re.compile('<b> Expiry date: </b>([\d/]+)\s*</li>')
>>> p.search(s).group(1)
'14/09/2013'
>>>