Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/php/227.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Php 获取网页源代码而不实际访问网页_Php_Javascript_Html Parsing - Fatal编程技术网

Php 获取网页源代码而不实际访问网页

Php 获取网页源代码而不实际访问网页,php,javascript,html-parsing,Php,Javascript,Html Parsing,有很多网页只是运行脚本,上面没有任何内容。 有没有因为页面重定向而没有实际访问页面而查看页面源代码的方法 使用html解析器可以做到这一点吗?我正在使用simpleHTMLdom解析页面?是的,简单解析HTML将获得客户端(Javascript)代码 当通过浏览器访问这些页面时,浏览器会运行代码并重定向代码,但当您使用刮板或自己的程序访问代码时,代码不会运行,并且可以获得静态脚本 当然,您不能访问服务器端(php)。这是不可能的。是的,简单地解析HTML将获得客户端(Javascript)代码

有很多网页只是运行脚本,上面没有任何内容。 有没有因为页面重定向而没有实际访问页面而查看页面源代码的方法


使用html解析器可以做到这一点吗?我正在使用simpleHTMLdom解析页面?

是的,简单解析HTML将获得客户端(Javascript)代码

当通过浏览器访问这些页面时,浏览器会运行代码并重定向代码,但当您使用刮板或自己的程序访问代码时,代码不会运行,并且可以获得静态脚本


当然,您不能访问服务器端(php)。这是不可能的。

是的,简单地解析HTML将获得客户端(Javascript)代码

当通过浏览器访问这些页面时,浏览器会运行代码并重定向代码,但当您使用刮板或自己的程序访问代码时,代码不会运行,并且可以获得静态脚本


当然,您不能访问服务器端(php)。这是不可能的。

获取页面HTML源的唯一方法是向web服务器发送HTTP请求并接收等同于访问页面的答案。

获取页面HTML源的唯一方法是向web服务器发送HTTP请求并接收等同于访问页面的答案。

如果您使用的是基于*nix的在操作系统中,尝试从终端使用curl


curl

如果您使用的是基于*nix的操作系统,请尝试从终端使用curl


如果您可以访问命令行linux shell,那么curl

wget或lynx也可以正常工作:

wget
如果您可以访问命令行linux shell,那么lynx-dump

wget或lynx也可以正常工作:

wget
lynx-dump

如果您试图通过执行JavaScript以HTML方式刮取90%以上的页面内容/视图,您将遇到问题,除非您渲染到屏幕(隐藏),然后刮取该屏幕。否则,您将最终删除一些脚本标记,这对您没有什么好处

e、 g.如果我试图刮去我的Gmail收件箱页面,它是一个空的HTML页面,只有几个分散的脚本标记(可能是几乎所有基于GWT的应用程序的典型)

您正在抓取的页面/站点是否有API?如果没有,是否值得问他们是否有一个在工作中


通常,这些类型的工具在“窃取”信息和“共享”信息之间有一条细微的界限,因此您可能需要轻描淡写。

如果您试图通过执行JavaScript对构建90%以上内容/视图的页面内容进行HTML刮除,您将遇到问题,除非您正在呈现到屏幕上(隐藏)然后刮去它。否则你会刮去一些脚本标签,这对你没什么好处

e、 g.如果我试图刮去我的Gmail收件箱页面,它是一个空的HTML页面,只有几个分散的脚本标记(可能是几乎所有基于GWT的应用程序的典型)

您正在抓取的页面/站点是否有API?如果没有,是否值得询问他们是否有API


通常,这些类型的工具在“窃取”信息和“共享”信息之间存在细微的差别,因此您可能需要轻描淡写。

如果您需要快速修复,您可以禁用JavaScript和元重定向(Internet Explorer可以在“Internet选项”对话框中禁用这些选项。Firefox可以使用NoScript加载项实现相同的效果。)


这不会导致任何服务器端重定向,但会阻止客户端重定向,并允许您查看文档的HTML源。

如果需要快速修复,可以禁用JavaScript和元重定向(Internet Explorer可以在“Internet选项”对话框中禁用这些重定向。Firefox可以使用NoScript加载项实现相同的效果。)


这不会导致任何服务器端重定向,但会阻止客户端重定向,并允许您查看文档的HTML源代码。

在firefox中,您可以使用view source协议仅查看站点的源代码,而无需实际渲染或在其上执行JavaScripts


示例:视图源:http://stackoverflow.com/q/5781021/298479 (将其复制到您的地址栏)

在firefox中,您可以使用查看源代码协议仅查看站点的源代码,而无需实际渲染或在其上执行Java脚本


示例:视图源:http://stackoverflow.com/q/5781021/298479 (复制到您的地址栏)

是否要查看从重定向页面生成的HTML?否。是否可以在未看到的情况下读取内容?是否要查看从重定向页面生成的HTML?否。是否可以在未看到的情况下读取内容?如果不需要自动执行,只需查看浏览器中的响应内容(Firebug或Chrome dev工具)对于第一个URL,如果不需要自动化,只需查看浏览器中的响应内容(Firebug或Chrome开发工具)对于第一个URL,我不知道这是我在大学里进行的“发现漏洞”竞赛的一部分。我发现我正在从这一页被重定向。我觉得在重定向页上有些东西。我不知道这是我在大学里进行的“发现漏洞”竞赛的一部分。我发现我正在从这一页被重定向是一个页面。我觉得那个重定向页面上有什么东西。哈哈,有趣的是有多少人真的复制了那个链接-“你在没有实际访问页面的情况下获得了一个网页源代码,因此获得了“播音员”徽章。”。le me现在等待银/金版本:pHaha,有趣的是有多少人真的复制了那个链接-“你在没有实际访问网页的情况下获取网页源代码,因此获得了“播音员”徽章。”。le me现在等待银/金版本:p