Python 使用BeautifulSoup拆分HTML文档_Python_Html_Beautifulsoup

Python 使用BeautifulSoup拆分HTML文档

python html

Python 使用BeautifulSoup拆分HTML文档,python,html,beautifulsoup,Python,Html,Beautifulsoup,我们处理长聚合HTML文档（用于转换为PDF）。在某些情况下，聚合的HTML文档必须按章节（以H1标记开头的专用HTML页面）或子章节（以每个H1或H2标记开头的专用HTML页面）拆分。到目前为止，我们正在使用BeautifulSoup来处理聚合的HTML，但是我们找不到使用BeautifulSoup以正确方式提取子文档（例如，从第一个H1到下一个H2）的正确方法我有一些与BeautifulSoup合作的经验，我不确定它是否支持您直接想要做的事情。这里有两个想法搜索以下是它拥有的一些搜索

我们处理长聚合HTML文档（用于转换为PDF）。

在某些情况下，聚合的HTML文档必须按章节（以H1标记开头的专用HTML页面）或子章节（以每个H1或H2标记开头的专用HTML页面）拆分。到目前为止，我们正在使用BeautifulSoup来处理聚合的HTML，但是我们找不到使用BeautifulSoup以正确方式提取子文档（例如，从第一个H1到下一个H2）的正确方法

我有一些与BeautifulSoup合作的经验，我不确定它是否支持您直接想要做的事情。这里有两个想法

搜索

以下是它拥有的一些搜索工具的文档。也许您可以同时搜索H1s和H2s，看看这是否有助于提取子文档

Pretty Print+grep

BeautifulSoup有一个非常有用的美化功能，可以漂亮地打印html。完成后，每个H1或H2将位于其自己的行上，在这种情况下，可以轻松使用诸如grep之类的文本处理实用程序来轻松确定包含H1和H2的行号，并简单地将文本置于两者之间

由于没有向您提出使用解析器的解决方案，我建议您自己使用正则表达式进行管理，好吗

丹麦语的第二点是相同的，因为grep这个名字来自“global-regular expression-print”。但它是复杂的事实，美化功能必须用于初步处理

相反，正则表达式是一个强大的工具，可以直接用于文本

你能提供更多关于你想做什么的信息吗？

好吧，我非常了解BeautifulSoup的功能，不需要指向我了解的文档的指针：）很高兴知道你了解这些文档。我确实提出了两点，其中第二点不仅仅是指向文档的指针。我只是觉得可能需要一种不同的方法。干杯