Python 使用Urllib2或Beautifulsoup解析一系列URL
我正在尝试从具有以下表单的站点获取数据:“ 如何使用Urllib2和/或BeautifulSoup从连续的页面范围中获取html数据?此代码仅返回第一页的htmlPython 使用Urllib2或Beautifulsoup解析一系列URL,python,beautifulsoup,Python,Beautifulsoup,我正在尝试从具有以下表单的站点获取数据:“ 如何使用Urllib2和/或BeautifulSoup从连续的页面范围中获取html数据?此代码仅返回第一页的html import urllib2 from bs4 import BeautifulSoup for x in range(1,450): numb = str(x) url = "http://www.mysite.here?pageNo="+numb page = urllib2.ur
import urllib2
from bs4 import BeautifulSoup
for x in range(1,450):
numb = str(x)
url = "http://www.mysite.here?pageNo="+numb
page = urllib2.urlopen(url).read()
soup = BeautifulSoup(page, "html.parser")
Print soup
您可以创建一个数组
soup=[]
,并使用soup.append(soup)
将其添加到该数组中
如果只需要一个汤对象,则需要在每个步骤中添加内容,例如身体的
soup = BeautifulSoup("<html><body></body></body>") # initialize soup
for x in range(1,450):
numb = str(x)
url = "http://www.mysite.here?pageNo="+numb
page = urllib2.urlopen(url).read()
tmpsoup = BeautifulSoup(page, "html.parser")
for element in tmpsoup.body:
soup.body.append(element)
soup=BeautifulSoup(“”)初始化soup
对于范围(1450)内的x:
numb=str(x)
url=”http://www.mysite.here?pageNo=“+麻木
page=urllib2.urlopen(url.read())
tmpsoup=BeautifulSoup(第页,“html.parser”)
对于tmpsoup.body中的元素:
soup.body.append(元素)
您可以创建一个数组soup=[]
并使用soup.append(soup)
添加到该数组中
如果只需要一个汤对象,则需要在每个步骤中添加内容,例如身体的
soup = BeautifulSoup("<html><body></body></body>") # initialize soup
for x in range(1,450):
numb = str(x)
url = "http://www.mysite.here?pageNo="+numb
page = urllib2.urlopen(url).read()
tmpsoup = BeautifulSoup(page, "html.parser")
for element in tmpsoup.body:
soup.body.append(element)
soup=BeautifulSoup(“”)初始化soup
对于范围(1450)内的x:
numb=str(x)
url=”http://www.mysite.here?pageNo=“+麻木
page=urllib2.urlopen(url.read())
tmpsoup=BeautifulSoup(第页,“html.parser”)
对于tmpsoup.body中的元素:
soup.body.append(元素)
在每次迭代中,您都会创建名为soup
的新变量。
您需要为所有页面创建存储-列表
和页面
。并在每次迭代时附加到它
import urllib2
from bs4 import BeautifulSoup
pages = []
for x in range(1, 450):
numb = str(x)
url = "http://www.mysite.here?pageNo=" + numb
page = urllib2.urlopen(url).read()
pages.append(BeautifulSoup(page, "html.parser"))
print pages
在每次迭代中,您都会创建名为
soup
的新变量。
您需要为所有页面创建存储-列表
和页面
。并在每次迭代时附加到它
import urllib2
from bs4 import BeautifulSoup
pages = []
for x in range(1, 450):
numb = str(x)
url = "http://www.mysite.here?pageNo=" + numb
page = urllib2.urlopen(url).read()
pages.append(BeautifulSoup(page, "html.parser"))
print pages
嗯……如果我想对所有
soup
对象执行相同的操作,我总是在for
循环中编写另一个代码:嗯……如果我想对所有soup
对象执行相同的操作,我总是在for
循环中编写另一个代码:P