Php 如何存储网页中的爬网数据_Php_Web Crawler - Fatal编程技术网

Php 如何存储网页中的爬网数据

php web-crawler

Php 如何存储网页中的爬网数据,php,web-crawler,Php,Web Crawler,我想在我的web应用程序上建立一个教育搜索引擎，所以我决定从我的网页上用PHP抓取大约10个网站，并将数据存储到数据库中，以便以后搜索。如何检索这些数据并将其存储在数据库中？您可以使用文件获取内容（）函数获取这些数据。所以你应该 $homepage = file_get_contents('http://www.example.com/homepage'); 此函数用于将页面返回为字符串希望这有帮助。干杯构建一个爬虫，我将列出要获取的URL列表，并最终获取它们 A.列出清单定义要爬网的UR

我想在我的web应用程序上建立一个教育搜索引擎，所以我决定从我的网页上用PHP抓取大约10个网站，并将数据存储到数据库中，以便以后搜索。如何检索这些数据并将其存储在数据库中？

您可以使用

文件获取内容（）

函数获取这些数据。所以你应该

$homepage = file_get_contents('http://www.example.com/homepage');

此函数用于将页面返回为字符串

希望这有帮助。干杯

构建一个爬虫，我将列出要获取的URL列表，并最终获取它们

A.列出清单

定义要爬网的URL列表

将此URL添加到要爬网的URL列表（作业列表）

定义最大深度

解析第一页，获取所有链接，找到href，获取链接

对于每个链接：如果它来自同一个域或相对域，请将其添加到作业列表中

从作业列表中删除当前URL

如果非空，则从下一个URL作业列表重新启动
为此，您可以使用这个类，它使解析html变得非常简单：
B.获取内容
循环生成的数组并获取内容。文件\u获取\u内容将为您执行以下操作：
这对于一开始来说基本上是有效的，在步骤a中，您应该保留一个已经解析的URL列表，以便只检查一个URL。查询字符串也可以是您需要注意的内容，以避免使用不同的查询字符串扫描多个页面

[web crawler]相关文章推荐

Web crawler 如何抓取内部网站上的所有页面？ web-crawler

Web crawler 我能以多快的速度抓取一个网站？ web-crawler

Web crawler 一种可接受的方法来检测受信任的爬行器，而不是重定向它们 web-crawler

Nutch 2.2.1和Elasticsearch 0.90.11无此字段错误：停止字集 web-crawler

Web crawler 使用BeautifulSoup在Python中进行Web爬行 web-crawler

Web crawler Stormcrawler未使用Elasticsearch索引内容 web-crawler

Web crawler Storm Crawler和ApacheStrom 2.x.x web-crawler apache-storm

随机文章推荐

Nservicebus N服务总线延迟重试 nservicebus

在处理NServiceBus消息时，是否可以查看输入队列？ nservicebus

Nservicebus NService Bus 3 beta中的MsmqSubscriptionStorageConfig nservicebus

Nservicebus MyMessage<；T>；调用XmlSerializer时引发异常 nservicebus

NServiceBus，如何映射路径 nservicebus

NServiceBus ServiceInsight-监视多个错误并进行审核 nservicebus

Nservicebus ESB丰富的UI功能 nservicebus

Nservicebus 为什么我的NService总线可以发送命令但不能发布事件？ nservicebus

奥尔良的谷物与NServiceBus传奇相似？ nservicebus

NServicebus：异常情况下的回复消息 nservicebus

NserviceBus忽略重试策略 nservicebus

NServiceBus传奇中是否可能有条件流？ nservicebus

在Octopus中，如何在NServiceBus实例-mapping.xml上进行变量替换 nservicebus

[php]相关推荐

Php 如何显示逗号分隔的多列？
Php Sql

如何通过php文件从表单到iframe获取文本数据？
Php Forms Iframe

Php 正则表达式不能与preg_match_all一起使用
Php Regex

一种在PHP中无头重定向（位置：somefile.PHP）和无ob_start（）的方法？
Php Javascript Html Redirect

php选择选项post back retain value
Php

Php 从注册页面将行插入MySQL数据库
Php Database

PHP：处理从imap附件获取的CSV
Php

Php 替换无效的UTF-8，而不是替换
Php Regex Unicode Encoding Character Encoding

Php 从函数返回并回显我的数组
Php Error Handling

PHP POST需要POST URL中的文件名？
Php Post

Php 矩阵形成，循环中有点不对劲
Php

PHP数据库未更新，无错误
Php Sql

Php 将数字日期转换为Datetime对象
Php Date Datetime

Php 我是否可以在CodeIgniter中实现新的线程？
Php Codeigniter

Php Mysql数据库警告
Php Mysql Database

Php 使用HTTP发布缩略图完整URL
Php Wordpress

Php 重复计数选择返回错误结果
Php Mysql Sql

Php 未加载GD图像库，Ubuntu 14.04
Php

在使用PHP提交之前，是否可以获取和评估值？
Php

Php 如何访问类中但函数外部的变量？
Php Class

Php 限制用户每天向mysql添加新记录
Php Mysql

Php 是否同时按标记名获取两个值？
Php Xml Dom

Php 拉威尔-超长关系（感觉不对）
Php Laravel

PHP执行shell脚本并为提示提供输入
Php Html Shell

Php 如何设置链接取决于数据库列中的值
Php

PHP-代码成功运行，但没有插入到数据库中
Php Mysql

Php 如何使滑动条只显示在主页和其他任何地方
Php Wordpress

Php 通过一次查询从3个表中获取数据
Php Mysql

PHP/MYSQL子查询导致未定义索引错误
Php Mysql

如何正确处理PHP post请求？
Php Post

Tags

Junit Editor Configuration Streaming Shopify Localization Ios7 Keras Pandas Here Api Biztalk Prometheus Sms Snowflake Cloud Data Platform Xml Vbscript Content Management System Less Hibernate Sencha Touch Swift Dojo Odata Twitter Parallel Processing Sprite Kit Data Binding Interface Artifactory Elm Drupal Keyboard Cmd Abap Unicode Responsive Design Flutter Smtp Design Patterns Jvm Linq To Sql Nhibernate Jetty Java Me Serial Port Eclipse Plugin Robotframework Date .htaccess Graph Selenium Db2 Pascal Algorithm Dll Matplotlib Xpath Ruby On Rails 4 Blackberry Spring Boot Compilation Dependency Injection Machine Learning Clojure Graphql Powershell Project Management Next.js Download Gradle Prolog Teradata Web Crawler Stanford Nlp Moodle Continuous Integration Ravendb Titanium Spring Jsf 2 Coding Style Grafana Bluetooth Dotnetnuke Angular Formatting Events Twilio Knockout.js Tabs Sql Server 2012 X86 Model R Class Ldap Tfs Pip Reporting Services Rss Jhipster Firefox Addon Generics Grails Canvas Jupyter Notebook Winforms Teamcity Automated Tests Dictionary Xpages Meteor .net Oracle10g Visual Studio 2015 Asp.net Mvc Twitter Bootstrap 3 Snmp Javafx Google Chrome Devtools Breeze Jar Activemq Search Websocket Ruby On Rails 3.1 Debian Pentaho Api Pycharm Omnet++ Composer Php Swift2 Character Encoding Uiview Curl Kibana Hyperledger Fabric Jsp Oracle11g .net 4.0 Openshift 3d Functional Programming Autocomplete Paypal Opengl Maven Struts2 Terraform Nest Extjs4 Zend Framework Google Maps Api 3 Plugins Multithreading Symfony Dns Amazon Dynamodb Discord.py Compression Mpi Architecture Asp.net Core Url Computer Vision Silverstripe Angularjs Amazon Cloudformation Rx Java Process D File Upload Swift3 Doctrine Orm Azure Functions Julia Ecmascript 6 Visual Studio 2013 Hive Bison Google Visualization Activerecord Iphone Gwt Youtube Function Oauth 2.0 Web Scraping Odoo Ignite Merge Gatsby Node.js Azure Data Factory Grep Oracle Apex Jquery Mapping Push Notification C++11

Copyright © 2024. All Rights Reserved by - Fatal编程技术网