Python 搜集财富500强企业的信息
我正试图为我的论文搜集公司信息。当我从链接下载web_文本时,没有用于解析的链接。但是,在Chrome上打开链接将自动显示1个公司页面 有人能帮我解释一下发生了什么事,以及我如何从原始url追踪到公司页面的链接吗 首先,您需要获取postid,然后向/data/特许经营列表发出请求,然后从第一篇文章中获取url:Python 搜集财富500强企业的信息,python,web-scraping,html-parsing,Python,Web Scraping,Html Parsing,我正试图为我的论文搜集公司信息。当我从链接下载web_文本时,没有用于解析的链接。但是,在Chrome上打开链接将自动显示1个公司页面 有人能帮我解释一下发生了什么事,以及我如何从原始url追踪到公司页面的链接吗 首先,您需要获取postid,然后向/data/特许经营列表发出请求,然后从第一篇文章中获取url: import json import re from urllib2 import urlopen from urlparse import urljoin from bs4 impo
import json
import re
from urllib2 import urlopen
from urlparse import urljoin
from bs4 import BeautifulSoup
data = urlopen('http://fortune.com/fortune500/')
soup = BeautifulSoup(data)
postid = next(attr for attr in soup.body['class'] if attr.startswith('postid'))
postid = re.match(r'postid-(\d+)', postid).group(1)
url = "http://fortune.com/data/franchise-list/{postid}/1/".format(postid=postid)
data = json.load(urlopen(url))
resulting_url = urljoin(url, data['articles'][0]['url'])
print resulting_url
印刷品:
http://fortune.com/fortune500/wal-mart-stores-inc-1/
这是一个动态加载的网站。在从链接加载文本时,你不会得到所有的公司。谢谢你的评论。我也发现了同样的情况。我正在搜索《财富》500强名单中的公司详细信息。你有什么建议吗?