Python 如何使用BeautifulSoup按标签分割文档？_Python_Parsing_Beautifulsoup

Python 如何使用BeautifulSoup按标签分割文档？

python parsing

Python 如何使用BeautifulSoup按标签分割文档？,python,parsing,beautifulsoup,Python,Parsing,Beautifulsoup,该文档如下所示： <div class="eh">...</div> ... <section class="g">...</section>  ... <section class="g">...</section>  ... <div class="eh">...</div> ... <section class

该文档如下所示：

<div class="eh">...</div>
...
<section class="g">...</section> <!-- div 1 -->
...
<section class="g">...</section> <!-- div 1 -->
...
<div class="eh">...</div>
...
<section class="g">...</section> <!-- div 2 -->
...

如果div和section有不同的类，这个方法就有效了。

我想这会让你在实现目标的道路上走得更远

from bs4 import BeautifulSoup

soup = BeautifulSoup(open('temp.htm').read(), 'lxml')
tags = soup.find_all(['div','section'])

for tag in tags:
    print (tag.name, tag)

输出：

div <div class="eh">...</div>
section <section class="g">...</section>
section <section class="g">...</section>
div <div class="eh">...</div>
section <section class="g">...</section>
section <section class="g">...</section>
section <section class="g">...</section>
section <section class="g">...</section>

div。。。
节。。。
节。。。
部门。。。
节。。。
节。。。
节。。。
节。。。

请注意，soup中的项目是按照标签在

soup中列出的顺序输出的。find_all

到目前为止你都试了些什么？谢谢。这部分解决了我的问题。这个解决方案能否更具体一些，即找到多个标记，每个标记都有相应的类？请更详细地解释。我可以找到多个标记，每个标记都与它的类关联吗？类似于：find_all（['div'，{'class'：'eh'}，'section'，{'class'：'g'}]）。我尝试了：find_all（['div'，'section']，{'class'：['eh'，'g']}）。它有效，我可以进一步改进吗？你应该问一个新问题。这一次，您应该展示您所编写的任何代码，一个您试图处理的HTML示例以及您期望的结果。

div <div class="eh">...</div>
section <section class="g">...</section>
section <section class="g">...</section>
div <div class="eh">...</div>
section <section class="g">...</section>
section <section class="g">...</section>
section <section class="g">...</section>
section <section class="g">...</section>