Python 使用Urllib2或Beautifulsoup解析一系列URL_Python_Beautifulsoup

Python 使用Urllib2或Beautifulsoup解析一系列URL

python

Python 使用Urllib2或Beautifulsoup解析一系列URL,python,beautifulsoup,Python,Beautifulsoup,我正在尝试从具有以下表单的站点获取数据：“ 如何使用Urllib2和/或BeautifulSoup从连续的页面范围中获取html数据？此代码仅返回第一页的html import urllib2 from bs4 import BeautifulSoup for x in range(1,450): numb = str(x) url = "http://www.mysite.here?pageNo="+numb page = urllib2.ur

我正在尝试从具有以下表单的站点获取数据：“

如何使用Urllib2和/或BeautifulSoup从连续的页面范围中获取html数据？此代码仅返回第一页的html

import urllib2
from bs4 import BeautifulSoup

for x in range(1,450):
        numb = str(x)
        url = "http://www.mysite.here?pageNo="+numb
        page = urllib2.urlopen(url).read()
        soup = BeautifulSoup(page, "html.parser")

Print soup

您可以创建一个数组

soup=[]

，并使用

soup.append（soup）

将其添加到该数组中

如果只需要一个汤对象，则需要在每个步骤中添加内容，例如身体的

soup = BeautifulSoup("<html><body></body></body>") # initialize soup
for x in range(1,450):
    numb = str(x)
    url = "http://www.mysite.here?pageNo="+numb
    page = urllib2.urlopen(url).read()
    tmpsoup = BeautifulSoup(page, "html.parser")
    for element in tmpsoup.body:
      soup.body.append(element)

soup=BeautifulSoup（“”）初始化soup
对于范围（1450）内的x：
numb=str（x）
url=”http://www.mysite.here?pageNo=“+麻木
page=urllib2.urlopen（url.read（））
tmpsoup=BeautifulSoup（第页，“html.parser”）
对于tmpsoup.body中的元素：
soup.body.append（元素）

您可以创建一个数组

soup=[]

并使用

soup.append（soup）

添加到该数组中

如果只需要一个汤对象，则需要在每个步骤中添加内容，例如身体的

soup = BeautifulSoup("<html><body></body></body>") # initialize soup
for x in range(1,450):
    numb = str(x)
    url = "http://www.mysite.here?pageNo="+numb
    page = urllib2.urlopen(url).read()
    tmpsoup = BeautifulSoup(page, "html.parser")
    for element in tmpsoup.body:
      soup.body.append(element)

soup=BeautifulSoup（“”）初始化soup
对于范围（1450）内的x：
numb=str（x）
url=”http://www.mysite.here?pageNo=“+麻木
page=urllib2.urlopen（url.read（））
tmpsoup=BeautifulSoup（第页，“html.parser”）
对于tmpsoup.body中的元素：
soup.body.append（元素）

在每次迭代中，您都会创建名为

soup

的新变量。您需要为所有页面创建存储-

列表

和

页面

。并在每次迭代时附加到它

import urllib2
from bs4 import BeautifulSoup


pages = []
for x in range(1, 450):
    numb = str(x)
    url = "http://www.mysite.here?pageNo=" + numb
    page = urllib2.urlopen(url).read()
    pages.append(BeautifulSoup(page, "html.parser"))

print pages

在每次迭代中，您都会创建名为

soup

的新变量。您需要为所有页面创建存储-

列表

和

页面

。并在每次迭代时附加到它

import urllib2
from bs4 import BeautifulSoup


pages = []
for x in range(1, 450):
    numb = str(x)
    url = "http://www.mysite.here?pageNo=" + numb
    page = urllib2.urlopen(url).read()
    pages.append(BeautifulSoup(page, "html.parser"))

print pages

嗯……如果我想对所有

soup

对象执行相同的操作，我总是在

for

循环中编写另一个代码：嗯……如果我想对所有

soup

对象执行相同的操作，我总是在

for

循环中编写另一个代码：P