Parsing 如何在simple_html_dom中对一系列类似的未包含块进行排序

Parsing 如何在simple_html_dom中对一系列类似的未包含块进行排序,parsing,dom,block,simple-html-dom,Parsing,Dom,Block,Simple Html Dom,我需要解析一个大型文档,该文档的元素排列为一系列标题,后跟一个div,如下所示: <h2> Section Title </h2> <div> Section Content</div> <h2> Section Title 2</h2> <div> Section Content2</div> <h4> Section Title 3</h4> <div> Sec

我需要解析一个大型文档,该文档的元素排列为一系列标题,后跟一个div,如下所示:

<h2> Section Title </h2>
<div> Section Content</div>
<h2> Section Title 2</h2>
<div> Section Content2</div>
<h4> Section Title 3</h4>
<div> Section Content 3</div>
章节标题
章节内容
第2节标题
第2节内容
第3节标题
第三节内容

因此,基本上在dom中,我需要将一个
与下面的
组合在一起。dom似乎不是子函数/同级函数/父函数的元素,我还需要考虑输入文件中的不一致性,所以我不想做查找所有h元素、查找所有div以及在循环中遍历每个列表之类的事情,假设元素是正确的匹配项。是否有任何方法可以设置dom,以便我可以使用子函数遍历它,或者使用其他一些干净的方法遍历dom来完成此操作?

我认为最简单的方法是访问元素“root”以作为元素访问dom的顶部

从那以后,仍然很难弄清楚如何遍历子元素的序列,但是在本例中,如果内容是可预测的,那么对divs和prev_sibling()进行搜索似乎是可行的,但我的内容可能是可预测的