perl网络教程

perl网络教程,perl,web-applications,Perl,Web Applications,到目前为止,我一直在使用wget和curl进行屏幕抓取。现在我想切换到perl。有什么好的教程可以介绍perl中的基本web编程(最好不重述基本内容)?我说的是一些基本的事情,比如获取和解析页面、提交表单、代理等。这些应该几乎涵盖了您需要的所有内容: 我过去曾用它来实现基本的web爬行功能,包括表单提交等 除了Perl之外,您还需要一些非常好的工具: HTTP Live Header(Firefox扩展)或eqv。对原语GET/POST的Javascript请求进行反向工程,以便您可以使用

到目前为止,我一直在使用wget和curl进行屏幕抓取。现在我想切换到perl。有什么好的教程可以介绍perl中的基本web编程(最好不重述基本内容)?我说的是一些基本的事情,比如获取和解析页面、提交表单、代理等。

这些应该几乎涵盖了您需要的所有内容:

我过去曾用它来实现基本的web爬行功能,包括表单提交等


除了Perl之外,您还需要一些非常好的工具:

  • HTTP Live Header(Firefox扩展)或eqv。对原语GET/POST的Javascript请求进行反向工程,以便您可以使用Mechanize或LWP等进行模拟
  • 正如其他海报所提到的,一个好的无头浏览器是
    WWW::Mechanize
    module
  • 我建议花些时间学习
    HTML::TreeBuilder
    &尤其是
    HTML::TreeBuilder::XPath
    HTML::Query
    。当您想要从HTML文档中获取实际数据时,最后两个将变得非常方便
  • HTML::TableExtract
    也是一个很好的模块,可以在需要时从HTML表中提取数据
  • 基本上,使用以上所有功能将使您能够对大多数站点进行爬网


    享受爬网乐趣(-:

    Web::Query支持比HTML::Query更复杂的选择器,因为它本身并没有实现这一点,而是将这一部分委托给出色的功能complete HTML::Selector::XPath。