Php 文件获取内容参数
我正在制作一个PHP爬虫来探索名为alza.cz的电子商店。我想链接到该电子商店中的所有产品。我的地址是:,但这只显示前21项。要获取所有项目,我必须转到地址:Php 文件获取内容参数,php,file-get-contents,Php,File Get Contents,我正在制作一个PHP爬虫来探索名为alza.cz的电子商店。我想链接到该电子商店中的所有产品。我的地址是:,但这只显示前21项。要获取所有项目,我必须转到地址: 爬虫程序使用file\u get\u contents获取页面的HTML,然后使用DOM解析。问题是,file_get_contents似乎忽略了#之后的部分(只返回前21项,而不是全部)。任何想法?文件获取内容将忽略URL(the)的\xxxxx部分,并且不会将其包含在请求的URL中。这是一个用户代理在客户端使用的东西——很可能,该网
爬虫程序使用
file\u get\u contents
获取页面的HTML,然后使用DOM解析。问题是,file_get_contents
似乎忽略了#之后的部分(只返回前21项,而不是全部)。任何想法?文件获取内容将忽略URL(the)的\xxxxx
部分,并且不会将其包含在请求的URL中。这是一个用户代理在客户端使用的东西——很可能,该网站有一些Javascript,可以使用AJAX加载新的结果页面
您可以看到页面是否遵守了,尽管根据您的示例,它看起来不像。如果您看到像#这样的“hash bang”片段标识符!foo=bar,这是个好兆头
因此,您需要观察或中的AJAX请求,并自己复制相同的请求。file\u get\u内容将忽略URL(the)的\xxxxx
部分,并且不会将其包含在请求的URL中。这是一个用户代理在客户端使用的东西——很可能,该网站有一些Javascript,可以使用AJAX加载新的结果页面
您可以看到页面是否遵守了,尽管根据您的示例,它看起来不像。如果您看到像#这样的“hash bang”片段标识符!foo=bar,这是个好兆头
因此,您需要观察或中的AJAX请求,并自己复制相同的请求。两个链接都返回403-禁止:我的访问被拒绝
错误。两个链接都给出403错误,在这里似乎没有问题。刮取此站点时的问题是,无论您以何种方式获取下一组项目(“21 dalších…”或常规分页器),它都使用AJAX请求,而不是常规页面访问。因此,您需要通过AJAX进行探索-您是否有一个实时AJAX查看器(在浏览器中)可以用来确定如何进行此操作?两个链接都返回403-禁止:访问被拒绝错误。这两个链接都给出了403 error,在这里似乎没有问题。刮取此站点时的问题是,无论您以何种方式获取下一组项目(“21 dalších…”或常规分页器),它都使用AJAX请求,而不是常规页面访问。因此,您需要通过AJAX进行探索——您是否有一个实时AJAX查看器(在您的浏览器中)可以用来确定如何实现这一点?