使用PHP简单HTML DOM解析器获取文本
我使用PHP简单HTML DOM解析器从网页中获取文本。 我需要操纵的页面类似于:使用PHP简单HTML DOM解析器获取文本,php,html-parsing,simple-html-dom,Php,Html Parsing,Simple Html Dom,我使用PHP简单HTML DOM解析器从网页中获取文本。 我需要操纵的页面类似于: <html> <head> <title>title</title> <body> <div id="content"> <h1>HELLO</h1> Hello, world! </div> </body> </html> 但是另一个文本呢? 我也在foreach中尝试了这一点,
<html>
<head>
<title>title</title>
<body>
<div id="content">
<h1>HELLO</h1>
Hello, world!
</div>
</body>
</html>
但是另一个文本呢?
我也在foreach中尝试了这一点,但我得到了全文:
$text->plaintext;
但是它也返回了
H1
标记…它看起来像$text->find('text',2)代码>获取您要查找的内容,但是我不确定当文本节点的数量未知时,该操作的效果如何。我会继续查找。您可以使用
如@Peachy所指出的,使用条形标签。但是,向它传递第二个参数
意味着字符串将忽略
标记,这是不必要的。就你而言
<?php
strip_tags($text);
?>
如果您只在内容
id中选择内容,则可以按照您的意愿工作。为什么要将明文
成员排除在外以返回其他内容?我只需要“你好,世界!”部分,可能吗?我想是的,但我不能推荐简单的HTMLDOM解析器,只是。这将是->nodeValue
。我也有同样的问题,我想在标记后面提取不在标记内的文本…为什么要排除
标记?OP说所有的标签都需要剥掉。你可以留着空白。
<?php
strip_tags($input, '<br>');
?>
<?php
strip_tags($text);
?>