Python BeautifulSoup4-多页上1个div内的所有链接_Python_Beautifulsoup_Scraper

Python BeautifulSoup4-多页上1个div内的所有链接

python

Python BeautifulSoup4-多页上1个div内的所有链接,python,beautifulsoup,scraper,Python,Beautifulsoup,Scraper,对于一个学校项目，我们需要抓取一个“求职”网站，并将其存储在数据库中，然后将这些个人资料与搜索人员的公司进行匹配在这个特定的站点上，我需要抓取的所有页面的url都在一个div中（每个页面有10个链接），这个div称为“primaryResults”，其中有10个使用beautifulsoup，我希望首先通过循环url中的页码来刮取数组中的所有链接，直到弹出404或类似的内容然后浏览每个页面，将每个页面所需的信息存储到一个数组中，最后将其发送到我的数据库现在我被困在从ID='primary

对于一个学校项目，我们需要抓取一个“求职”网站，并将其存储在数据库中，然后将这些个人资料与搜索人员的公司进行匹配

在这个特定的站点上，我需要抓取的所有页面的url都在一个div中（每个页面有10个链接），这个div称为“primaryResults”，其中有10个

使用beautifulsoup，我希望首先通过循环url中的页码来刮取数组中的所有链接，直到弹出404或类似的内容

然后浏览每个页面，将每个页面所需的信息存储到一个数组中，最后将其发送到我的数据库

现在我被困在从ID='primaryResults'div收集10个链接的部分

我如何将其放入Python中，使该存储区的所有10个url都成为一个数组？到目前为止，我已经尝试过：

import urllib2
from BeautifulSoup import BeautifulSoup

opener = urllib2.build_opener()
opener.addheaders = [("User-Agent", "Mozilla/5.0")]

url = ("http://jobsearch.monsterboard.nl/browse/")

content = opener.open(url).read()
soup = BeautifulSoup(content)

soup.find(id="primaryResults")
print soup.find_all('a')

但这只会产生一个错误：

Traceback (most recent call last):

print soup.find_all('a')
TypeError: 'NoneType' object is not callable

有人能帮我吗？谢谢：）

以下是获取您提到的URL中所有链接的答案

from bs4 import BeautifulSoup
import urllib2
url="http://jobsearch.monsterboard.nl/browse/"
page=urllib2.urlopen(url)
soup = BeautifulSoup(page.read())
jobs=soup.findAll('a',{'class':'slJobTitle'})
for eachjob in jobs:
 print eachjob['href']

希望它清晰而有用。

我认为BeautifulSoup4是：

从bs4导入BeautifulSoup

给我一个错误，它找不到该模块。这让我意识到easy_install并没有安装V4而是V3，我的问题现在已经解决了。谢谢：）