Python-ulsou抓取表

Python-ulsou抓取表,python,beautifulsoup,Python,Beautifulsoup,我正试图从这个网页上抓取表格。我不确定我是否抓到了正确的标签。这是我到目前为止所拥有的 from bs4 import BeautifulSoup import requests page='http://www.airchina.com.cn/www/en/html/index/ir/traffic/' r=requests.get(page) soup=BeautifulSoup(r.text) test=soup.findAll('div', {'class': 'main non

我正试图从这个网页上抓取表格。我不确定我是否抓到了正确的标签。这是我到目前为止所拥有的

from bs4 import BeautifulSoup
import requests

page='http://www.airchina.com.cn/www/en/html/index/ir/traffic/'

r=requests.get(page)

soup=BeautifulSoup(r.text)

test=soup.findAll('div', {'class': 'main noneBg'})
rows=test.findAll("td")

main noneBg
是否在表中?当我将鼠标悬停在该标记上时,它会高亮显示该表。

您需要的表位于从不同URL加载的
iframe

以下是您如何获取它(注意URL的不同):

印刷品:

Feb 2014
% change vs Feb 2013
% change vs Jan 2014
Cumulative Feb 2014
% cumulative change
1.Traffic
1.RTKs (in millions)
1407.8
...

请注意,由于页面上的嵌套表,您需要使用
recursive=False

print cell.text unicodeincodeerror:“gbk”编解码器无法对第3位的字符u'\xa0'进行编码:非法多字节序列
在最后一行出现此错误。很抱歉,我是初学者。代码是什么样子的
cell.text.decode('utf-8').split()
返回编解码器。utf_8_解码(输入,错误,真)UnicodeEncodeError:'ascii'编解码器无法对第3位的字符u'\xa0'进行编码:序号不在范围(128)内。
看起来类似问题。好啊我需要一段时间才能弄清楚。我会先接受你的答案。为什么你的代码对你有效而对我无效?python的不同版本?
Feb 2014
% change vs Feb 2013
% change vs Jan 2014
Cumulative Feb 2014
% cumulative change
1.Traffic
1.RTKs (in millions)
1407.8
...