Python Beautifulsoup部分提取字符串
我是新来的美女团4,觉得它真的很方便!但是,我在需要拆分字符串时遇到了问题: 这里举一个例子: 我有一个链接是Python Beautifulsoup部分提取字符串,python,beautifulsoup,Python,Beautifulsoup,我是新来的美女团4,觉得它真的很方便!但是,我在需要拆分字符串时遇到了问题: 这里举一个例子: 我有一个链接是 <a href="http://nihao-wobuhao?%93%23%24%12&sort=102">NIHAO</a> 我得到了soap.findChildren('a')的行,但是如果我只需要“sort=102”部分呢 我尝试使用soap.find_all(重新编译(^sort=.*))但它不起作用,有人能帮我吗?提前谢谢 将选择URL的
<a href="http://nihao-wobuhao?%93%23%24%12&sort=102">NIHAO</a>
我得到了soap.findChildren('a')的行,但是如果我只需要“sort=102”部分呢
我尝试使用
soap.find_all(重新编译(^sort=.*))
但它不起作用,有人能帮我吗?提前谢谢 将选择URL的各个部分。你可以用它来获取你正在寻找的查询参数。来详细说明一下@Don的答案:
- 通过例如文本来定位
元素a
- 使用类似字典的方式访问
的属性,获取标记
属性值href
- 用于获取url查询参数
>>> from bs4 import BeautifulSoup
>>> from urlparse import urlparse, parse_qs
>>>
>>> html = '<a href="http://nihao-wobuhao?%93%23%24%12&sort=102">NIHAO</a>'
>>> parse_qs(urlparse(soup.find("a", text="NIHAO")['href']).query)['sort'][0]
u'102'
提取
href
属性,然后使用urlparse
模块对其进行解析。
>>> from urllib.parse import urlparse, parse_qs