PHP中的单页web爬网
我是PHP新手。有人能帮我找出如何抓取单个html页面并打印该页面源代码中的所有单词吗?您的问题不是很清楚,但您需要下载该页面(使用cURL或PHP的文件函数)并以某种方式处理该文件。以下是一个基本解决方案:PHP中的单页web爬网,php,html,webpage,phpcrawl,Php,Html,Webpage,Phpcrawl,我是PHP新手。有人能帮我找出如何抓取单个html页面并打印该页面源代码中的所有单词吗?您的问题不是很清楚,但您需要下载该页面(使用cURL或PHP的文件函数)并以某种方式处理该文件。以下是一个基本解决方案: echo strip_tags(file_get_contents('http://www.google.com')); 这将打印长度大于3的单词。感谢moteutsch提供的文件内容你所说的“打印该页面源代码中的所有单词”是什么意思?我的意思是。。要解析页面正文并打印所有长度超过3.的
echo strip_tags(file_get_contents('http://www.google.com'));
这将打印长度大于3的单词。感谢moteutsch提供的文件内容你所说的“打印该页面源代码中的所有单词”是什么意思?我的意思是。。要解析页面正文并打印所有长度超过3.的单词,请定义单词?你在谈论课文中的单词吗?标签?非常令人困惑的是,PHP.net提供了一些关于如何使用PHP@导航DOM的好材料,当你说“页面主体”时,你是指
标记之间的内容吗?HTML标记是否算作“所有单词”的一部分?当我用echo strip\u标记($buffer)替换echo$buffer行时,为什么不使用file\u get\u contents
;我得到一个空页面作为输出。但是我需要源代码文本中的单词作为输出。
$words = explode(" ", strip_tags(file_get_contents("www.example.com"));
function trim_and_print(&$value)
{
trim($value);
if(strlen($value > 3)
echo $value;
}
array_walk($words, 'trim_and_print');