Python 从网页抓取文本_Python_C_Text_Webpage

Python 从网页抓取文本

python c text

Python 从网页抓取文本,python,c,text,webpage,Python,C,Text,Webpage,我想写一个程序，将发现巴士站时间和更新我的个人网页相应如果我要手动执行此操作，我会访问www.calgarytransit.com 输入一个站号。（e）9510 单击按钮“下一班车” 结果可能如下所示： 10:16下午154路 10:46p 154路 11:32下午154路一旦我抓紧时间和路线，我就会相应地更新我的网页我不知道从哪里开始。我对网络编程一窍不通，但会写一些C和Python。我可以研究哪些主题/库？既然你是用C写的，你可能想看看；特别是，看看libcurl。这太棒了。是一个专

我想写一个程序，将发现巴士站时间和更新我的个人网页相应

如果我要手动执行此操作，我会

访问www.calgarytransit.com

输入一个站号。（e）9510

单击按钮“下一班车”

结果可能如下所示：

10:16下午154路
10:46p 154路
11:32下午154路

一旦我抓紧时间和路线，我就会相应地更新我的网页

我不知道从哪里开始。我对网络编程一窍不通，但会写一些C和Python。我可以研究哪些主题/库？

既然你是用C写的，你可能想看看；特别是，看看libcurl。这太棒了。

是一个专门为解析网页而设计的Python库。在它和（Python 3）之间，你应该能够找到你需要的东西。

你所问的是所谓的“网页抓取”。我相信如果你在谷歌上搜索，你会发现一些东西，但核心概念是你想打开一个到网站的连接，在HTML中发出声音，解析它并识别你想要的块

该网站在这方面有很多内容。

该网站没有为您提供API，以便您能够获得所需的适当数据。在这种情况下，您将需要解析实际返回的HTML页面，例如，一个CURL请求。

只要您尝试“刮取”的网页布局没有定期更改，您就应该能够使用任何现代编程语言解析HTML。

这称为web刮取，它甚至有自己的网站，你可以在那里找到更多的信息

此外，您可能会在本文中找到更多详细信息。
您可以使用Perl来帮助您完成任务

use strict; use LWP; my $browser = LWP::UserAgent->new; my $responce = $browser->get("http://google.com"); print $responce->content;
Response对象可以告诉您是否成功，还可以返回页面内容。您还可以使用同一个库发布到页面

这里有一些文档
您可以使用Python可用的mechanize库
另外，请确保获得昨天（2009年1月6日）发布的最新版本3.1.0.1。它修复了前一版本中引入的一个主要回归，该回归导致解析器在遇到诸如wild、，untand html land.@S.Lott:Doh，你说得对。更正了，我还为Py3k添加了一个指向urllib.request的链接。我在将使用BeautifulSoup-3.0.x开发的解析器部署到Ubuntu 10.04系统时遇到了问题—解析输入时它总是会阻塞。事实证明，Lucid Lynx附带了BeautifulSoup-3.1.0.1，这并不是一个好的版本（）。解决了将我的BS（3.0.x）版本与我的程序一起交付的问题。