Python 正在分析之前有标记的所有元素_Python_Beautifulsoup

Python 正在分析之前有标记的所有元素

python

Python 正在分析之前有标记的所有元素,python,beautifulsoup,Python,Beautifulsoup,我有以下html代码： AAA aaa aaa aaa ... BBB bbb bbb bbb ... 添加了一个CCC，以便您可以看到它的伸缩性 html=”“” AAA aaa aaa aaa ... BBB bbb bbb bbb ... CCC ccc ccc ccc ... """ 在_tag=bs.find（“legend”，text=“BBB”）.parent之后#获取父div。 divs=after_tag.find_all（“div”，{“class”：“row”}）#查找

我有以下

html

代码：


AAA
aaa
aaa
aaa
...
BBB
bbb
bbb
bbb
...

添加了一个

CCC

，以便您可以看到它的伸缩性

html=”“”
AAA
aaa
aaa
aaa
...
BBB
bbb
bbb
bbb
...
CCC
ccc
ccc
ccc
...
"""
在_tag=bs.find（“legend”，text=“BBB”）.parent之后#获取父div。
divs=after_tag.find_all（“div”，{“class”：“row”}）#查找父级中的所有div。
对于div中的div：
打印（div.text）

bbb
bbb
bbb

from bs4 import BeautifulSoup

html = """
<div class="1">
    <fieldset>
          <legend>AAA</legend>
          <div class="row">aaa</div>
          <div class="row">aaa</div>
          <div class="row">aaa</div>
          ...
    </fieldset>
</div>

<div class="1">
    <fieldset>
          <legend>BBB</legend>
          <div class="row">bbb</div>
          <div class="row">bbb</div>
          <div class="row">bbb</div>
          ...
    </fieldset>
</div>
"""

soup = BeautifulSoup(html, features='html.parser')
elements = soup.select('div > fieldset')[1]

tuple_obj = ()
for row in elements.select('div.row'):
    tuple_obj = tuple_obj + (row.text,)

print(tuple_obj)

('bbb', 'bbb', 'bbb')