Python 搜集财富500强企业的信息

Python 搜集财富500强企业的信息,python,web-scraping,html-parsing,Python,Web Scraping,Html Parsing,我正试图为我的论文搜集公司信息。当我从链接下载web_文本时,没有用于解析的链接。但是,在Chrome上打开链接将自动显示1个公司页面 有人能帮我解释一下发生了什么事,以及我如何从原始url追踪到公司页面的链接吗 首先,您需要获取postid,然后向/data/特许经营列表发出请求,然后从第一篇文章中获取url: import json import re from urllib2 import urlopen from urlparse import urljoin from bs4 impo

我正试图为我的论文搜集公司信息。当我从链接下载web_文本时,没有用于解析的链接。但是,在Chrome上打开链接将自动显示1个公司页面

有人能帮我解释一下发生了什么事,以及我如何从原始url追踪到公司页面的链接吗

首先,您需要获取postid,然后向/data/特许经营列表发出请求,然后从第一篇文章中获取url:

import json
import re
from urllib2 import urlopen
from urlparse import urljoin
from bs4 import BeautifulSoup

data = urlopen('http://fortune.com/fortune500/')
soup = BeautifulSoup(data)
postid = next(attr for attr in soup.body['class'] if attr.startswith('postid'))
postid = re.match(r'postid-(\d+)', postid).group(1)

url = "http://fortune.com/data/franchise-list/{postid}/1/".format(postid=postid)
data = json.load(urlopen(url))

resulting_url = urljoin(url, data['articles'][0]['url'])
print resulting_url
印刷品:

http://fortune.com/fortune500/wal-mart-stores-inc-1/

这是一个动态加载的网站。在从链接加载文本时,你不会得到所有的公司。谢谢你的评论。我也发现了同样的情况。我正在搜索《财富》500强名单中的公司详细信息。你有什么建议吗?