Python Beautifulsoup部分提取字符串

Python Beautifulsoup部分提取字符串,python,beautifulsoup,Python,Beautifulsoup,我是新来的美女团4,觉得它真的很方便!但是,我在需要拆分字符串时遇到了问题: 这里举一个例子: 我有一个链接是 <a href="http://nihao-wobuhao?%93%23%24%12&sort=102">NIHAO</a> 我得到了soap.findChildren('a')的行,但是如果我只需要“sort=102”部分呢 我尝试使用soap.find_all(重新编译(^sort=.*))但它不起作用,有人能帮我吗?提前谢谢 将选择URL的

我是新来的美女团4,觉得它真的很方便!但是,我在需要拆分字符串时遇到了问题:

这里举一个例子:

我有一个链接是

 <a href="http://nihao-wobuhao?%93%23%24%12&sort=102">NIHAO</a>

我得到了soap.findChildren('a')的行,但是如果我只需要“sort=102”部分呢


我尝试使用
soap.find_all(重新编译(^sort=.*))
但它不起作用,有人能帮我吗?提前谢谢

将选择URL的各个部分。你可以用它来获取你正在寻找的查询参数。

来详细说明一下@Don的答案:

  • 通过例如文本来定位
    a
    元素
  • 使用类似字典的方式访问
    标记
    的属性,获取
    href
    属性值
  • 用于获取url查询参数
工作样本:

>>> from bs4 import BeautifulSoup
>>> from urlparse import urlparse, parse_qs
>>>
>>> html = '<a href="http://nihao-wobuhao?%93%23%24%12&sort=102">NIHAO</a>'
>>> parse_qs(urlparse(soup.find("a", text="NIHAO")['href']).query)['sort'][0]
u'102'

提取
href
属性,然后使用
urlparse
模块对其进行解析。
>>> from urllib.parse import urlparse, parse_qs