Python BeautifulSoup4-多页上1个div内的所有链接

Python BeautifulSoup4-多页上1个div内的所有链接,python,beautifulsoup,scraper,Python,Beautifulsoup,Scraper,对于一个学校项目,我们需要抓取一个“求职”网站,并将其存储在数据库中,然后将这些个人资料与搜索人员的公司进行匹配 在这个特定的站点上,我需要抓取的所有页面的url都在一个div中(每个页面有10个链接),这个div称为“primaryResults”,其中有10个 使用beautifulsoup,我希望首先通过循环url中的页码来刮取数组中的所有链接,直到弹出404或类似的内容 然后浏览每个页面,将每个页面所需的信息存储到一个数组中,最后将其发送到我的数据库 现在我被困在从ID='primary

对于一个学校项目,我们需要抓取一个“求职”网站,并将其存储在数据库中,然后将这些个人资料与搜索人员的公司进行匹配

在这个特定的站点上,我需要抓取的所有页面的url都在一个div中(每个页面有10个链接),这个div称为“primaryResults”,其中有10个

使用beautifulsoup,我希望首先通过循环url中的页码来刮取数组中的所有链接,直到弹出404或类似的内容

然后浏览每个页面,将每个页面所需的信息存储到一个数组中,最后将其发送到我的数据库

现在我被困在从ID='primaryResults'div收集10个链接的部分

我如何将其放入Python中,使该存储区的所有10个url都成为一个数组?到目前为止,我已经尝试过:

import urllib2
from BeautifulSoup import BeautifulSoup

opener = urllib2.build_opener()
opener.addheaders = [("User-Agent", "Mozilla/5.0")]

url = ("http://jobsearch.monsterboard.nl/browse/")

content = opener.open(url).read()
soup = BeautifulSoup(content)

soup.find(id="primaryResults")
print soup.find_all('a')
但这只会产生一个错误:

Traceback (most recent call last):

print soup.find_all('a')
TypeError: 'NoneType' object is not callable

有人能帮我吗?谢谢:)

以下是获取您提到的URL中所有链接的答案

from bs4 import BeautifulSoup
import urllib2
url="http://jobsearch.monsterboard.nl/browse/"
page=urllib2.urlopen(url)
soup = BeautifulSoup(page.read())
jobs=soup.findAll('a',{'class':'slJobTitle'})
for eachjob in jobs:
 print eachjob['href']  

希望它清晰而有用。

我认为BeautifulSoup4是:
从bs4导入BeautifulSoup
给我一个错误,它找不到该模块。这让我意识到easy_install并没有安装V4而是V3,我的问题现在已经解决了。谢谢:)