Php 如何存储网页中的爬网数据

Php 如何存储网页中的爬网数据,php,web-crawler,Php,Web Crawler,我想在我的web应用程序上建立一个教育搜索引擎,所以我决定从我的网页上用PHP抓取大约10个网站,并将数据存储到数据库中,以便以后搜索。如何检索这些数据并将其存储在数据库中?您可以使用文件获取内容()函数获取这些数据。所以你应该 $homepage = file_get_contents('http://www.example.com/homepage'); 此函数用于将页面返回为字符串 希望这有帮助。干杯构建一个爬虫,我将列出要获取的URL列表,并最终获取它们 A.列出清单 定义要爬网的UR

我想在我的web应用程序上建立一个教育搜索引擎,所以我决定从我的网页上用PHP抓取大约10个网站,并将数据存储到数据库中,以便以后搜索。如何检索这些数据并将其存储在数据库中?

您可以使用
文件获取内容()
函数获取这些数据。所以你应该

$homepage = file_get_contents('http://www.example.com/homepage');
此函数用于将页面返回为字符串


希望这有帮助。干杯

构建一个爬虫,我将列出要获取的URL列表,并最终获取它们

A.列出清单

  • 定义要爬网的URL列表
  • 将此URL添加到要爬网的URL列表(作业列表)
  • 定义最大深度
  • 解析第一页,获取所有链接,找到href,获取链接
  • 对于每个链接:如果它来自同一个域或相对域,请将其添加到作业列表中
  • 从作业列表中删除当前URL
  • 如果非空,则从下一个URL作业列表重新启动
  • 为此,您可以使用这个类,它使解析html变得非常简单:

    B.获取内容

    循环生成的数组并获取内容。文件\u获取\u内容将为您执行以下操作:

    这对于一开始来说基本上是有效的,在步骤a中,您应该保留一个已经解析的URL列表,以便只检查一个URL。查询字符串也可以是您需要注意的内容,以避免使用不同的查询字符串扫描多个页面