PHP中的单页web爬网_Php_Html_Webpage_Phpcrawl

PHP中的单页web爬网

php html

PHP中的单页web爬网,php,html,webpage,phpcrawl,Php,Html,Webpage,Phpcrawl,我是PHP新手。有人能帮我找出如何抓取单个html页面并打印该页面源代码中的所有单词吗？您的问题不是很清楚，但您需要下载该页面（使用cURL或PHP的文件函数）并以某种方式处理该文件。以下是一个基本解决方案： echo strip_tags(file_get_contents('http://www.google.com')); 这将打印长度大于3的单词。感谢moteutsch提供的文件内容你所说的“打印该页面源代码中的所有单词”是什么意思？我的意思是。。要解析页面正文并打印所有长度超过3.的

我是PHP新手。有人能帮我找出如何抓取单个html页面并打印该页面源代码中的所有单词吗？

您的问题不是很清楚，但您需要下载该页面（使用cURL或PHP的文件函数）并以某种方式处理该文件。以下是一个基本解决方案：

echo strip_tags(file_get_contents('http://www.google.com'));

这将打印长度大于3的单词。感谢moteutsch提供的文件内容

你所说的“打印该页面源代码中的所有单词”是什么意思？我的意思是。。要解析页面正文并打印所有长度超过3.的单词，请定义单词？你在谈论课文中的单词吗？标签？非常令人困惑的是，PHP.net提供了一些关于如何使用PHP@导航DOM的好材料，当你说“页面主体”时，你是指

标记之间的内容吗？HTML标记是否算作“所有单词”的一部分？当我用echo strip\u标记（$buffer）替换echo$buffer行时，为什么不使用

file\u get\u contents

；我得到一个空页面作为输出。但是我需要源代码文本中的单词作为输出。

$words = explode(" ", strip_tags(file_get_contents("www.example.com"));
function trim_and_print(&$value) 
{ 
    trim($value);
    if(strlen($value > 3) 
        echo $value;
}

array_walk($words, 'trim_and_print');