使用python示例的Web抓取

使用python示例的Web抓取,python,web-scraping,Python,Web Scraping,有人能给我看一下代码吗?比如说,每隔30分钟从谷歌获取一次代码,然后用python在我的网站上显示 我看了44个视频教程,学到了一些基本的东西 例如: import urllib2 from BeautifulSoup import BeautifulSoup # or if your're using BeautifulSoup4: # from bs4 import BeautifulSoup soup = BeautifulSoup(urllib2.urlopen('http://www

有人能给我看一下代码吗?比如说,每隔30分钟从谷歌获取一次代码,然后用python在我的网站上显示

我看了44个视频教程,学到了一些基本的东西

例如:

import urllib2
from BeautifulSoup import BeautifulSoup
# or if your're using BeautifulSoup4:
# from bs4 import BeautifulSoup

soup = BeautifulSoup(urllib2.urlopen('http://www.timeanddate.com/worldclock/astronomy.html?n=78').read())

for row in soup('table', {'class' : 'spad'})[0].tbody('tr'):
  tds = row('td')
  print tds[0].string, tds[1].string
  # will print date and sunrise

但是像我这样的初学者无法理解这段代码如何帮助我解决上面的示例。

每当你看到一条你不熟悉的导入语句时,快速进行谷歌搜索总是明智的。矿山开采

。在这里,您可以阅读称为Beauty soup的python库的文档

这是用于打开URL的库


阅读文档,它将帮助您了解如何利用这个小片段为您带来好处:)

下面是一个小例子,它每半小时从谷歌新闻中获取所有主要标题并打印出来。至于在你的网站上显示它们,则取决于它是如何实现的。例如,如果它从MYSQL数据库中获取内容,您可以轻松地使该脚本在每次下载新标题时更新数据库

import mechanize
import cookielib
import lxml.html as lh
import time  

br = mechanize.Browser()
cj = cookielib.LWPCookieJar()
br.set_cookiejar(cj)
br.set_handle_equiv(True)
br.set_handle_gzip(True)
br.set_handle_redirect(True)
br.set_handle_referer(True)
br.set_handle_robots(False)
br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1)
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]

while True:
    r = br.open('https://news.google.com/')
    html = r.read()
    doc=lh.fromstring(html)
    for i in doc.xpath('.//*[@class="esc-lead-article-title"]'):
        print i.text_content()
    time.sleep(1800)

我能理解这个代码。。。我知道。。但是我不想把它打印出来,而是想把它添加到我的网站上。。。我可以用python来做吗?我知道我应该运行程序来执行代码。。。所以我需要每30分钟执行一次程序?找到一个库,它允许你发布动态网站,或者使用WebSocket。是的,你可以用python来实现,不需要每30分钟执行一次,你可以让它保持运行,然后检查时间是30分钟还是00。祝你好运!@请根据您的评论编辑您的问题,您的问题有些令人困惑。告诉我们到底是什么困扰着你?你是否无法收集你想要的数据?为什么?您无法显示它吗?为什么?如果你想显示新闻,你应该使用谷歌rss源。你不需要做任何事,除非你只是为了练习。这只是一个例子。。。我想从谷歌那里得到新闻,但不是从谷歌那里。但是root,你怎样才能得到文章的来源和标题呢?我尝试了
esc引导文章源代码
,但没有成功。