Python 从网站上抓取数据
我在链接链接时遇到了问题。我需要蜘蛛代码谁链接的网页上的链接,并抓取我所需的细节,直到现在我的代码能够抓取所需的信息,但也有其他网页,所以我需要其他网页的信息也链接的基础_url包含的应用程序信息,然后我想收集所有的链接从该网页,然后想切换下一个翻页并重复同样的事情,然后我需要从我收集的链接中收集每个应用程序的详细信息,如它们的名称、版本号等Python 从网站上抓取数据,python,python-2.7,web-scraping,html-parsing,beautifulsoup,Python,Python 2.7,Web Scraping,Html Parsing,Beautifulsoup,我在链接链接时遇到了问题。我需要蜘蛛代码谁链接的网页上的链接,并抓取我所需的细节,直到现在我的代码能够抓取所需的信息,但也有其他网页,所以我需要其他网页的信息也链接的基础_url包含的应用程序信息,然后我想收集所有的链接从该网页,然后想切换下一个翻页并重复同样的事情,然后我需要从我收集的链接中收集每个应用程序的详细信息,如它们的名称、版本号等 所以现在我可以收集所有的信息,只有链接是不相互关联的,我如何才能做到这一点,帮助我。。。。。这是我的密码: #extracting links def l
所以现在我可以收集所有的信息,只有链接是不相互关联的,我如何才能做到这一点,帮助我。。。。。这是我的密码:
#extracting links
def linkextract(soup):
print "\n extracting links of next pages"
print "\n\n page 2 \n"
sAll = [div.find('a') for div in soup.findAll('div', attrs={'class':''})]
for i in sAll:
suburl = ""+i['href'] #checking pages
print suburl
pages = mech.open(suburl)
content = pages.read()
anosoup = BeautifulSoup(content)
extract(anosoup)
app_url = ""
print app_url
#print soup.prettify()
page1 = mech.open(app_url)
html1 = page1.read()
soup1 = BeautifulSoup(html1)
print "\n\n application page details \n"
extractinside(soup1)
需要帮助,谢谢。以下是您应该开始的内容:
import urllib2
from bs4 import BeautifulSoup
URL = 'http://www.pcwelt.de/download-neuzugaenge.html'
soup = BeautifulSoup(urllib2.urlopen(URL))
links = [tr.td.a['href'] for tr in soup.find('div', {'class': 'boxed'}).table.find_all('tr') if tr.td]
for link in links:
url = "http://www.pcwelt.de{0}".format(link)
soup = BeautifulSoup(urllib2.urlopen(url))
name = soup.find('span', {'itemprop': 'name'}).text
version = soup.find('td', {'itemprop': 'softwareVersion'}).text
print "Name: %s; Version: %s" % (name, version)
印刷品:
Name: Ashampoo Clip Finder HD Free; Version: 2.3.6
Name: Many Cam; Version: 4.0.63
Name: Roboform; Version: 7.9.5.7
...
希望能有所帮助。是的,我需要这个,但我想切换到下一页,然后执行与u解释的相同的过程。否则,我需要收集整个页面的表格数据,这一个只收集一个table@user3387184明白了,但我只是故意向正确的方向迈出了一步。@user3387184,顺便说一下,看起来更适合这个任务。我只需要知道我可以切换到下一页,否则一切都完成了。我需要再次付出额外的努力让scrapy学习它