基于php的屏幕抓取技术

基于php的屏幕抓取技术,php,screen-scraping,Php,Screen Scraping,如何筛选特定网站。我需要登录到一个网站,然后刮内部信息。 这怎么可能呢 请引导我 复制:您想查看这些功能-它们可以让您从其他网站获取页面。您可以使用cookies或HTTP身份验证先登录,然后获取所需页面,具体取决于您登录的站点 一旦你有了这个页面,你最好用它来获取你想要的数据。你想看看这些功能——它们会让你从另一个网站获得一个页面。您可以使用cookies或HTTP身份验证先登录,然后获取所需页面,具体取决于您登录的站点 一旦你有了这个页面,你最好用它来刮取你想要的数据。你应该看看curl。你

如何筛选特定网站。我需要登录到一个网站,然后刮内部信息。 这怎么可能呢

请引导我

复制:

您想查看这些功能-它们可以让您从其他网站获取页面。您可以使用cookies或HTTP身份验证先登录,然后获取所需页面,具体取决于您登录的站点

一旦你有了这个页面,你最好用它来获取你想要的数据。

你想看看这些功能——它们会让你从另一个网站获得一个页面。您可以使用cookies或HTTP身份验证先登录,然后获取所需页面,具体取决于您登录的站点


一旦你有了这个页面,你最好用它来刮取你想要的数据。

你应该看看curl。

你应该看看curl。

你可能还想看看哪一个是Python库,它应该非常擅长于使糟糕的HTML可解析。它的目标是像刮屏这样的东西


但是,我不知道从PHP调用有多容易。

您可能还想看看哪一个是Python库,它应该非常擅长于使糟糕的HTML可解析。它的目标是像刮屏这样的东西

Zend_Http_Client and Zend_Dom_Query

不过,我不知道从PHP调用有多容易。

您也可以签出您也可以签出Curl,一旦您进入,就可以使用QueryPath PHP库。(querypath.org)
Zend_Http_Client and Zend_Dom_Query
您可以通过CSS选择器访问dom元素,就像在JQuery中一样, 有方法链接

比仅仅使用php的原生xml函数要好得多


它也可以作为drupal扩展,但我想您可以在任何php项目中实现它。

Curl,一旦您进入,就可以使用QueryPath php库。(querypath.org) 您可以通过CSS选择器访问dom元素,就像在JQuery中一样, 有方法链接

比仅仅使用php的原生xml函数要好得多


它也可以作为drupal扩展,但我想您可以在任何php项目中实现它。

是的,重复。但这一条更适用于访问需要身份验证的站点。是的,是重复的。但这一条更多地涉及到访问需要身份验证的站点。-1抱歉,这个问题已经一次又一次地出现:regex是一种可怕的抓取方式。使用HTML/XML解析器。正则表达式在这类事情上非常容易出错,这一点都不好笑。如果你想从一堆HTML中获取一小部分信息,正则表达式是一个不错的选择。-1抱歉,这个问题已经一再出现:正则表达式是一种糟糕的刮片方式。使用HTML/XML解析器。正则表达式在这类事情上非常容易出错,这一点都不好笑。如果你想从一堆HTML中获取一小段信息,正则表达式是一个不错的选择。-1如果是Python,漂亮的汤是不错的,但这不是。有一些PHP库(比如Zend和Simple XML)可以实现这一点。调用Python不是一个明智的解决方案,似乎有点苛刻。我对SimpleXML和Zend不太了解,但Google建议SimpleXML只是一个XML解析器,Zend是一个应用服务器。我看不出这两种方法对解决像BS这样的东西刮去HTML的难题有什么帮助。Zend也是一个由许多不同包组成的框架。这就是我的观点:你对PHP的了解还很肤浅(看起来),所以建议使用Python(我想你应该根据你的答案了解更多的东西)并没有什么帮助。那么Zend有一个软件包,专门用于解析大多数网站上格式不好的HTML?如果有,这里似乎没有人推荐。有这样的软件包吗?我对PHP非常了解,知道它可以应用到另一个应用程序。因此,运行一个快速的Python脚本来利用BS使HTML可解析应该是可行的。如果我想清除潜在的糟糕的HTML,那肯定是我首先要尝试的,然后再尝试自己制作。-1如果是Python,漂亮的汤很好,但这不是。有一些PHP库(比如Zend和Simple XML)可以实现这一点。调用Python不是一个明智的解决方案,似乎有点苛刻。我对SimpleXML和Zend不太了解,但Google建议SimpleXML只是一个XML解析器,Zend是一个应用服务器。我看不出这两种方法对解决像BS这样的东西刮去HTML的难题有什么帮助。Zend也是一个由许多不同包组成的框架。这就是我的观点:你对PHP的了解还很肤浅(看起来),所以建议使用Python(我想你应该根据你的答案了解更多的东西)并没有什么帮助。那么Zend有一个软件包,专门用于解析大多数网站上格式不好的HTML?如果有,这里似乎没有人推荐。有这样的软件包吗?我对PHP非常了解,知道它可以应用到另一个应用程序。因此,运行一个快速的Python脚本来利用BS使HTML可解析应该是可行的。如果我想清除潜在的糟糕的HTML,我肯定会先尝试,然后再尝试自己的HTML。