简单PHP web爬虫中的HTTP 500错误_Php_Web Crawler - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/php/280.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
简单PHP web爬虫中的HTTP 500错误_Php_Web Crawler - Fatal编程技术网

简单PHP web爬虫中的HTTP 500错误

php web-crawler

简单PHP web爬虫中的HTTP 500错误,php,web-crawler,Php,Web Crawler,我正在尝试运行一个指向一个url的网络爬虫，它没有链接，代码看起来很好；但是，我得到了一个http 500错误它对抓取的内容所做的只是回显它知道为什么吗 <?php error_reporting( E_ERROR ); define( "CRAWL_LIMIT_PER_DOMAIN", 50 ); $domains = array(); $urls = array(); function crawl( $url ) { global $domains, $urls;

我正在尝试运行一个指向一个url的网络爬虫，它没有链接，代码看起来很好；但是，我得到了一个http 500错误

它对抓取的内容所做的只是回显它

知道为什么吗

<?php
error_reporting( E_ERROR );

define( "CRAWL_LIMIT_PER_DOMAIN", 50 );

$domains = array();

$urls = array();

function crawl( $url )
{
    global $domains, $urls;
    $parse = parse_url( $url );
    $domains[ $parse['host'] ]++;
    $urls[] = $url;

    $content = file_get_contents( $url );
    if ( $content === FALSE ){
        echo "Error: No content";
        return;
}

    $content = stristr( $content, "body" );
    preg_match_all( '/http:\/\/[^ "\']+/', $content, $matches );

    // do something with content.
    echo $content;

    foreach( $matches[0] as $crawled_url ) {
        $parse = parse_url( $crawled_url );
        if ( count( $domains[ $parse['host'] ] ) < CRAWL_LIMIT_PER_DOMAIN && !in_array( $crawled_url, $urls ) ) {
            sleep( 1 );
            crawl( $crawled_url );
        }
    }
}

crawl(http://the-irf.com/hello/hello6.html);
?>

替换：
crawl(http://the-irf.com/hello/hello6.html);

与：
URL是一个文本字符串，因此必须用引号括起来。






关于您在以下方面的问题：
返回从针的第一次出现开始到结束的所有haystack
因此，您的代码：
$content = stristr( $content, "body" );

将返回所有$content
，从body
的第一次出现开始，包括第一次出现的body您将从正在爬行的某个对象收到500？或者此代码正在您的服务器上生成一个500？如果是您的服务器，那么请检查服务器的错误日志-它将有关于500的更多详细信息。谢谢。这是因为文件内容需要URL在其周围加引号，对吗？
$content = stristr( $content, "body" );




[web crawler]相关文章推荐



                                                        
Web crawler 对整个网络进行爬网的指南？
web-crawler 
Web crawler 新站点的爬虫/蜘蛛检测
web-crawler 
Web crawler GoogleBot（和恶意网站）请求无效目录
web-crawler 
Web crawler 谷歌如何更新他们的搜索索引
web-crawler 
Web crawler nutch生成器是否对初始链接使用爬网DB？
web-crawler 
Web crawler 使用Apify SDK时有没有办法指定最大爬网深度？
web-crawler 
                                       





随机文章推荐



                                                        
.htaccess 重写规则-a.php？a=123到/b/123
.htaccessmod-rewrite 
.htaccess 如何删除.php扩展名并在url上添加斜杠？
.htaccessurl-rewriting 
.htaccess 使用重写规则转发查询字符串
.htaccessmod-rewriteurl-rewriting 
使用.htaccess文件时出现错误500
.htaccess 
.htaccess从域的子目录重写到不同域的子目录
.htaccessmod-rewrite 
如何使用.htaccess在多次重写中获取引用变量
.htaccessmod-rewrite 
.htaccess 重写规则问题
.htaccessmod-rewrite 
.htaccess WAMP mod_重写规则不起作用
.htaccessmod-rewrite 
.htaccess错误，禁止403
.htaccess 
.htaccess 使用mod rewrite和htaccess的动态子域
.htaccessmod-rewrite 
.htaccess 为什么我的网站被重定向到example.com？
.htaccessftp 
.htaccess 如何将网站放在子目录中，但从根目录访问它？（例如：Prestashop、Wordpress）
.htaccessredirectprestashop 
.htaccess 网站不指向magento托管
.htaccessmagentoserver 
.htaccess htaccess重定向到根目录2文件夹的子目录
.htaccess 
.htaccess 在Tomcat8中缓存静态内容（js/css）（无java应用程序）
.htaccesstomcat 
.htaccess 文件未找到错误，即使文件存在于FTP中
.htaccess 
.htaccess 代码点火器3在指示灯上不工作
.htaccesscodeigniter 
.htaccess 在RewriteRule match中使用环境变量-更易于维护且更小
.htaccessmod-rewrite 
.htaccess头命令在使用转义URL时产生错误500
.htaccessencoding 
.htaccess 使用htaccess设置服务器变量
.htaccessmod-rewrite


                                        

                                        
                                        


                                                
                                                        [php]相关推荐
                                                        
                                                        
                                                

                                                
                                                        Tags
                                                        
Netty
Openssl
Directx
Web Scraping
Ruby On Rails 3.2
Transactions
Recursion
Migration
Socket.io
Wxpython
Pip
Servlets
Axapta
Jupyter Notebook
Proxy
Apache Flex
Mips
Blazor
Google App Maker
Mapping
Gruntjs
Spring Batch
Macos
Requirejs
Dojo
Time
Functional Programming
Actionscript 3
Asynchronous
Netsuite
Google Bigquery
.net
Git
Unix
Types
C#
Zsh
Swing
Gulp
Next.js
Itext
Jquery Mobile
Compression
Push Notification
Ide
Couchdb
Elixir
Graphql
Wcf
Snmp
Open Source
Windows 8
Asp.net Mvc 2
Syntax
Glassfish
Image Processing
Qt4
Database Design
Vmware
Ldap
Aws Lambda
Haskell
Ansible
Tinymce
Interface
Plone
Doctrine
Twig
Aframe
Printing
Terraform
Azure Ad B2c
Ssrs 2008
Colors
Yocto
Build
Java
Cocoa Touch
Authentication
Directory
Windows Phone 8
Tsql
Sip
Performance
Hyperlink
Iframe
Com
Biztalk
Android Studio
Linux Kernel
Windows Store Apps
Search
Mfc
Menu
Xpath
Mercurial
Markdown
Indexing
Llvm
Sockets
Loopbackjs
Jira
Cygwin
Actionscript
Mariadb
Google Colaboratory
Notifications
Kentico
Audio
Ios8
Flutter
Iphone
Eclipse Rcp
Programming Languages
Objective C
Keyboard
Ios5
Import
Shopify
Websocket
Documentation
Ag Grid
Hyperledger Fabric
Smalltalk
Smtp
Eclipse Plugin
Neural Network
Express
Bots
Gis
Hash
Jaxb
Sonarqube
Rabbitmq
Ajax
Activerecord
Heroku
Regex
Grid
Razor
Dns
Sql Server 2008
Prestashop
Character Encoding
Apache Kafka
.htaccess
Anaconda
Matlab
Apache Zookeeper
Testng
Sql Server
Active Directory
Input
Apache Camel
Knockout.js
Plugins
Django Rest Framework
Rspec
Xamarin.ios
Lua
Post
Mule
Wolfram Mathematica
Xmpp
Frameworks
Applescript
Drop Down Menu
Logic
Gtk
Shiny
Udp
Cloud Foundry
Windows Services
Swift3
Jpa
Blockchain
Cocos2d Iphone
Prometheus
Devexpress
Openlayers 3
Cluster Computing
Dependencies
Symfony1
Login
Cordova
Cassandra
Lucene
Sharepoint
Teradata
Vector
Netbeans
Nosql
Coq
Ubuntu
Angular Material
Random
Raspberry Pi
Tomcat
Opencart
Scikit Learn
Json


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网