Python 解析威利在线图书馆_Python_Web Scraping_Beautifulsoup_Doi

Python 解析威利在线图书馆

python web-scraping

Python 解析威利在线图书馆,python,web-scraping,beautifulsoup,doi,Python,Web Scraping,Beautifulsoup,Doi,我想从Python和BeautifulSoup中提取所有章节的DOI 所以从 <h2 class="meta__title meta__title__margin"><span class="hlFld-Title"><a href="/doi/10.1002/14356007.c01_c01.pub2">Aerogels</a></span></h2> 对于我尝试过的内政部： span['hlFld-Title'].a

我想从Python和BeautifulSoup中提取所有章节的DOI

所以从

<h2 class="meta__title meta__title__margin"><span class="hlFld-Title"><a href="/doi/10.1002/14356007.c01_c01.pub2">Aerogels</a></span></h2>

对于我尝试过的内政部：

span['hlFld-Title'].a

for link in soup.find_all('a'.title):
    print(link.get('href'))

但可悲的是，我是一个十足的傻瓜，这不管用

URL是{1..59}

感谢您的帮助。

这里有一个快速解决方案，将“DOI；title”对打印到命令行：

import requests
from bs4 import BeautifulSoup

for i in range(59):
    page = requests.get("https://onlinelibrary.wiley.com/browse/book/10.1002/14356007/title?startPage={}".format(i))

    soup = BeautifulSoup(page.content, 'lxml')

    content = soup.findAll("span", class_="hlFld-Title")

    for c in content:
        print(c.a.get('href')+";"+c.get_text())

import requests
from bs4 import BeautifulSoup

for i in range(59):
    page = requests.get("https://onlinelibrary.wiley.com/browse/book/10.1002/14356007/title?startPage={}".format(i))

    soup = BeautifulSoup(page.content, 'lxml')

    content = soup.findAll("span", class_="hlFld-Title")

    for c in content:
        print(c.a.get('href')+";"+c.get_text())