Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/278.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/c/55.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 从网页抓取文本_Python_C_Text_Webpage - Fatal编程技术网

Python 从网页抓取文本

Python 从网页抓取文本,python,c,text,webpage,Python,C,Text,Webpage,我想写一个程序,将发现巴士站时间和更新我的个人网页相应 如果我要手动执行此操作,我会 访问www.calgarytransit.com 输入一个站号。(e)9510 单击按钮“下一班车” 结果可能如下所示: 10:16下午154路 10:46p 154路 11:32下午154路 一旦我抓紧时间和路线,我就会相应地更新我的网页 我不知道从哪里开始。我对网络编程一窍不通,但会写一些C和Python。我可以研究哪些主题/库?既然你是用C写的,你可能想看看;特别是,看看libcurl。这太棒了。是一个专

我想写一个程序,将发现巴士站时间和更新我的个人网页相应

如果我要手动执行此操作,我会

  • 访问www.calgarytransit.com
  • 输入一个站号。(e)9510
  • 单击按钮“下一班车”
  • 结果可能如下所示:

    10:16下午154路
    10:46p 154路
    11:32下午154路

    一旦我抓紧时间和路线,我就会相应地更新我的网页


    我不知道从哪里开始。我对网络编程一窍不通,但会写一些C和Python。我可以研究哪些主题/库?

    既然你是用C写的,你可能想看看;特别是,看看libcurl。这太棒了。

    是一个专门为解析网页而设计的Python库。在它和(Python 3)之间,你应该能够找到你需要的东西。

    你所问的是所谓的“网页抓取”。我相信如果你在谷歌上搜索,你会发现一些东西,但核心概念是你想打开一个到网站的连接,在HTML中发出声音,解析它并识别你想要的块


    该网站在这方面有很多内容。

    该网站没有为您提供API,以便您能够获得所需的适当数据。在这种情况下,您将需要解析实际返回的HTML页面,例如,一个CURL请求。

    只要您尝试“刮取”的网页布局没有定期更改,您就应该能够使用任何现代编程语言解析HTML。

    这称为web刮取,它甚至有自己的网站,你可以在那里找到更多的信息


    此外,您可能会在本文中找到更多详细信息。

    您可以使用Perl来帮助您完成任务

    use strict;
    use LWP;
    
    my $browser = LWP::UserAgent->new;
    
    my $responce = $browser->get("http://google.com");
    print $responce->content;
    
    Response对象可以告诉您是否成功,还可以返回页面内容。您还可以使用同一个库发布到页面


    这里有一些文档

    您可以使用Python可用的mechanize库

    另外,请确保获得昨天(2009年1月6日)发布的最新版本3.1.0.1。它修复了前一版本中引入的一个主要回归,该回归导致解析器在遇到诸如wild、,untand html land.@S.Lott:Doh,你说得对。更正了,我还为Py3k添加了一个指向urllib.request的链接。我在将使用BeautifulSoup-3.0.x开发的解析器部署到Ubuntu 10.04系统时遇到了问题—解析输入时它总是会阻塞。事实证明,Lucid Lynx附带了BeautifulSoup-3.1.0.1,这并不是一个好的版本()。解决了将我的BS(3.0.x)版本与我的程序一起交付的问题。