使用Php简单dom解析器的Php屏幕抓取

使用Php简单dom解析器的Php屏幕抓取,php,screen-scraping,html-parsing,web-scraping,simpledom,Php,Screen Scraping,Html Parsing,Web Scraping,Simpledom,我正在使用简单的html dom解析器来抓取一个网站。。。在循环中如何跳过特定的类从您可以使用的选项判断: ->find("div[class!=skip_me]") 或者使用DOM方法并使用->getAttribute(“类”)检查值 // DOM can load HTML soup. But, HTML soup can throw warnings, suppress // them. $htmlDom = new DOMDocument(); @$htmlDom

我正在使用简单的html dom解析器来抓取一个网站。。。在循环中如何跳过特定的类

从您可以使用的选项判断:

->find("div[class!=skip_me]")
或者使用DOM方法并使用
->getAttribute(“类”)
检查值

  // DOM can load HTML soup. But, HTML soup can throw warnings, suppress
  // them.
  $htmlDom = new DOMDocument();
  @$htmlDom->loadHTML($html);
  if ($htmlDom) {
    // It's much easier to work with simplexml than DOM, luckily enough
    // we can just simply import our DOM tree.
    $elements = simplexml_import_dom($htmlDom);

这是来自Drupal7SimpleTest的一句话(几乎是)。在这之后,处理文档就容易多了,类可以作为$element['class']

建议的第三方替代品而不是字符串解析:,并且。抑制解析错误的正确方法是使用
libxml\u use\u internal\u errors()
然后使用
libxml\u clear\u errors()清除它们
。如果使用错误抑制操作符,它将抑制任何错误,而不仅仅是解析错误。