Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/html/84.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
PHP中的单页web爬网_Php_Html_Webpage_Phpcrawl - Fatal编程技术网

PHP中的单页web爬网

PHP中的单页web爬网,php,html,webpage,phpcrawl,Php,Html,Webpage,Phpcrawl,我是PHP新手。有人能帮我找出如何抓取单个html页面并打印该页面源代码中的所有单词吗?您的问题不是很清楚,但您需要下载该页面(使用cURL或PHP的文件函数)并以某种方式处理该文件。以下是一个基本解决方案: echo strip_tags(file_get_contents('http://www.google.com')); 这将打印长度大于3的单词。感谢moteutsch提供的文件内容你所说的“打印该页面源代码中的所有单词”是什么意思?我的意思是。。要解析页面正文并打印所有长度超过3.的

我是PHP新手。有人能帮我找出如何抓取单个html页面并打印该页面源代码中的所有单词吗?

您的问题不是很清楚,但您需要下载该页面(使用cURL或PHP的文件函数)并以某种方式处理该文件。以下是一个基本解决方案:

echo strip_tags(file_get_contents('http://www.google.com'));

这将打印长度大于3的单词。感谢moteutsch提供的文件内容

你所说的“打印该页面源代码中的所有单词”是什么意思?我的意思是。。要解析页面正文并打印所有长度超过3.的单词,请定义单词?你在谈论课文中的单词吗?标签?非常令人困惑的是,PHP.net提供了一些关于如何使用PHP@导航DOM的好材料,当你说“页面主体”时,你是指
标记之间的内容吗?HTML标记是否算作“所有单词”的一部分?当我用echo strip\u标记($buffer)替换echo$buffer行时,为什么不使用
file\u get\u contents
;我得到一个空页面作为输出。但是我需要源代码文本中的单词作为输出。
$words = explode(" ", strip_tags(file_get_contents("www.example.com"));
function trim_and_print(&$value) 
{ 
    trim($value);
    if(strlen($value > 3) 
        echo $value;
}

array_walk($words, 'trim_and_print');