Python BeautifulSoup4-多页上1个div内的所有链接
对于一个学校项目,我们需要抓取一个“求职”网站,并将其存储在数据库中,然后将这些个人资料与搜索人员的公司进行匹配 在这个特定的站点上,我需要抓取的所有页面的url都在一个div中(每个页面有10个链接),这个div称为“primaryResults”,其中有10个 使用beautifulsoup,我希望首先通过循环url中的页码来刮取数组中的所有链接,直到弹出404或类似的内容 然后浏览每个页面,将每个页面所需的信息存储到一个数组中,最后将其发送到我的数据库 现在我被困在从ID='primaryResults'div收集10个链接的部分 我如何将其放入Python中,使该存储区的所有10个url都成为一个数组?到目前为止,我已经尝试过:Python BeautifulSoup4-多页上1个div内的所有链接,python,beautifulsoup,scraper,Python,Beautifulsoup,Scraper,对于一个学校项目,我们需要抓取一个“求职”网站,并将其存储在数据库中,然后将这些个人资料与搜索人员的公司进行匹配 在这个特定的站点上,我需要抓取的所有页面的url都在一个div中(每个页面有10个链接),这个div称为“primaryResults”,其中有10个 使用beautifulsoup,我希望首先通过循环url中的页码来刮取数组中的所有链接,直到弹出404或类似的内容 然后浏览每个页面,将每个页面所需的信息存储到一个数组中,最后将其发送到我的数据库 现在我被困在从ID='primary
import urllib2
from BeautifulSoup import BeautifulSoup
opener = urllib2.build_opener()
opener.addheaders = [("User-Agent", "Mozilla/5.0")]
url = ("http://jobsearch.monsterboard.nl/browse/")
content = opener.open(url).read()
soup = BeautifulSoup(content)
soup.find(id="primaryResults")
print soup.find_all('a')
但这只会产生一个错误:
Traceback (most recent call last):
print soup.find_all('a')
TypeError: 'NoneType' object is not callable
有人能帮我吗?谢谢:)以下是获取您提到的URL中所有链接的答案
from bs4 import BeautifulSoup
import urllib2
url="http://jobsearch.monsterboard.nl/browse/"
page=urllib2.urlopen(url)
soup = BeautifulSoup(page.read())
jobs=soup.findAll('a',{'class':'slJobTitle'})
for eachjob in jobs:
print eachjob['href']
希望它清晰而有用。我认为BeautifulSoup4是:
从bs4导入BeautifulSoup
给我一个错误,它找不到该模块。这让我意识到easy_install并没有安装V4而是V3,我的问题现在已经解决了。谢谢:)