使用Php简单dom解析器的Php屏幕抓取_Php_Screen Scraping_Html Parsing_Web Scraping_Simpledom

使用Php简单dom解析器的Php屏幕抓取

php web-scraping

使用Php简单dom解析器的Php屏幕抓取,php,screen-scraping,html-parsing,web-scraping,simpledom,Php,Screen Scraping,Html Parsing,Web Scraping,Simpledom,我正在使用简单的html dom解析器来抓取一个网站。。。在循环中如何跳过特定的类从您可以使用的选项判断： ->find("div[class!=skip_me]") 或者使用DOM方法并使用->getAttribute（“类”）检查值 // DOM can load HTML soup. But, HTML soup can throw warnings, suppress // them. $htmlDom = new DOMDocument(); @$htmlDom

我正在使用简单的html dom解析器来抓取一个网站。。。在循环中如何跳过特定的类

从您可以使用的选项判断：

->find("div[class!=skip_me]")

或者使用DOM方法并使用

->getAttribute（“类”）

检查值

  // DOM can load HTML soup. But, HTML soup can throw warnings, suppress
  // them.
  $htmlDom = new DOMDocument();
  @$htmlDom->loadHTML($html);
  if ($htmlDom) {
    // It's much easier to work with simplexml than DOM, luckily enough
    // we can just simply import our DOM tree.
    $elements = simplexml_import_dom($htmlDom);

这是来自Drupal7SimpleTest的一句话（几乎是）。在这之后，处理文档就容易多了，类可以作为$element['class']

建议的第三方替代品而不是字符串解析：，并且。抑制解析错误的正确方法是使用

libxml\u use\u internal\u errors（）

然后使用

libxml\u clear\u errors（）清除它们

。如果使用错误抑制操作符，它将抑制任何错误，而不仅仅是解析错误。