用php删除代码糟糕的网站

用php删除代码糟糕的网站,php,html,web-scraping,Php,Html,Web Scraping,好的,我一直在使用simple_html_dom.php,可以从Sourceforge免费下载。我想搜刮一些网站,但这些网站都很旧,一个是2009年的,而且它们的编码很差。这个php文件(simple_html_dom)使用DOMDocument和其他东西,所以当您搜索某个东西时,您可以通过标记名、属性或smth-else来搜索它。现在,我有一个div元素,里面有随机文本,然后是其他元素 <div id="rcontent"> <font size = 3>

好的,我一直在使用simple_html_dom.php,可以从Sourceforge免费下载。我想搜刮一些网站,但这些网站都很旧,一个是2009年的,而且它们的编码很差。这个php文件(simple_html_dom)使用DOMDocument和其他东西,所以当您搜索某个东西时,您可以通过标记名、属性或smth-else来搜索它。现在,我有一个div元素,里面有随机文本,然后是其他元素

<div id="rcontent">
    <font size = 3>
      Random text going here cuz I'm a poor coder and I made it hard for scraping<br><br>

      <a href="One.xls">Text.</a>
      <a href="Two.test.txt">Text2.</a>
      <a href="Three.pdf">Text3</a><br><br>......
   </font>
</div>

随机文本出现在这里,因为我是一个糟糕的编码员,我很难抓取



。。。。。。

在锚定标记之前,我应该如何仅提取此文本?当我使用类似于内部文本的东西时,我得到了整个div,我不希望这样。有什么建议吗?提前感谢。

这是一棵dom树。每个文本块都是一个节点,因此找到
标记,它的下一个同级将是“random text…”文本节点。谢谢,我会试试。我从未想过。