使用Php简单dom解析器的Php屏幕抓取
我正在使用简单的html dom解析器来抓取一个网站。。。在循环中如何跳过特定的类从您可以使用的选项判断:使用Php简单dom解析器的Php屏幕抓取,php,screen-scraping,html-parsing,web-scraping,simpledom,Php,Screen Scraping,Html Parsing,Web Scraping,Simpledom,我正在使用简单的html dom解析器来抓取一个网站。。。在循环中如何跳过特定的类从您可以使用的选项判断: ->find("div[class!=skip_me]") 或者使用DOM方法并使用->getAttribute(“类”)检查值 // DOM can load HTML soup. But, HTML soup can throw warnings, suppress // them. $htmlDom = new DOMDocument(); @$htmlDom
->find("div[class!=skip_me]")
或者使用DOM方法并使用->getAttribute(“类”)
检查值
// DOM can load HTML soup. But, HTML soup can throw warnings, suppress
// them.
$htmlDom = new DOMDocument();
@$htmlDom->loadHTML($html);
if ($htmlDom) {
// It's much easier to work with simplexml than DOM, luckily enough
// we can just simply import our DOM tree.
$elements = simplexml_import_dom($htmlDom);
这是来自Drupal7SimpleTest的一句话(几乎是)。在这之后,处理文档就容易多了,类可以作为$element['class']建议的第三方替代品而不是字符串解析:,并且。抑制解析错误的正确方法是使用
libxml\u use\u internal\u errors()
然后使用libxml\u clear\u errors()清除它们
。如果使用错误抑制操作符,它将抑制任何错误,而不仅仅是解析错误。