Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/html/78.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 使用BeautifulSoup拆分HTML文档_Python_Html_Beautifulsoup - Fatal编程技术网

Python 使用BeautifulSoup拆分HTML文档

Python 使用BeautifulSoup拆分HTML文档,python,html,beautifulsoup,Python,Html,Beautifulsoup,我们处理长聚合HTML文档(用于转换为PDF)。 在某些情况下,聚合的HTML文档必须按章节(以H1标记开头的专用HTML页面)或子章节(以每个H1或H2标记开头的专用HTML页面)拆分。到目前为止,我们正在使用BeautifulSoup来处理聚合的HTML,但是我们找不到使用BeautifulSoup以正确方式提取子文档(例如,从第一个H1到下一个H2)的正确方法 我有一些与BeautifulSoup合作的经验,我不确定它是否支持您直接想要做的事情。这里有两个想法 搜索 以下是它拥有的一些搜索

我们处理长聚合HTML文档(用于转换为PDF)。
在某些情况下,聚合的HTML文档必须按章节(以H1标记开头的专用HTML页面)或子章节(以每个H1或H2标记开头的专用HTML页面)拆分。到目前为止,我们正在使用BeautifulSoup来处理聚合的HTML,但是我们找不到使用BeautifulSoup以正确方式提取子文档(例如,从第一个H1到下一个H2)的正确方法

我有一些与BeautifulSoup合作的经验,我不确定它是否支持您直接想要做的事情。这里有两个想法

搜索

以下是它拥有的一些搜索工具的文档。也许您可以同时搜索H1s和H2s,看看这是否有助于提取子文档

Pretty Print+grep

BeautifulSoup有一个非常有用的美化功能,可以漂亮地打印html。完成后,每个H1或H2将位于其自己的行上,在这种情况下,可以轻松使用诸如grep之类的文本处理实用程序来轻松确定包含H1和H2的行号,并简单地将文本置于两者之间


由于没有向您提出使用解析器的解决方案,我建议您自己使用正则表达式进行管理,好吗

丹麦语的第二点是相同的,因为grep这个名字来自“global-regular expression-print”。但它是复杂的事实,美化功能必须用于初步处理

相反,正则表达式是一个强大的工具,可以直接用于文本


你能提供更多关于你想做什么的信息吗?

好吧,我非常了解BeautifulSoup的功能,不需要指向我了解的文档的指针:)很高兴知道你了解这些文档。我确实提出了两点,其中第二点不仅仅是指向文档的指针。我只是觉得可能需要一种不同的方法。干杯