使用python代码从IEEEXplore网站提取DOI_Python_Extract_Ieee_Doi

使用python代码从IEEEXplore网站提取DOI

python

使用python代码从IEEEXplore网站提取DOI,python,extract,ieee,doi,Python,Extract,Ieee,Doi,无法从网页中提取字段数据，这不是常见的web刮取问题。它也与javascript相关联。我也尝试了python请求，但无法解决问题我试图从网页中提取doi。doi位于javascript中。我能够阅读该页面，并且代码可以运行到{printsoup}。当我试图提取给定代码中的doi值时，对于示例网页，doi如下：doi:10.1109/LAWP.2014.2364296我想打印从网页中提取的10.1109/LAWP.2014.2364296 import urllib from bs4 impo

无法从网页中提取字段数据，这不是常见的web刮取问题。它也与javascript相关联。我也尝试了python请求，但无法解决问题

我试图从网页中提取doi。doi位于javascript中。我能够阅读该页面，并且代码可以运行到{printsoup}。当我试图提取给定代码中的doi值时，对于示例网页，doi如下：doi:10.1109/LAWP.2014.2364296我想打印从网页中提取的10.1109/LAWP.2014.2364296

import urllib
from bs4 import BeautifulSoup
web_page = 'https://ieeexplore.ieee.org/document/6933872'
page = urllib.request.urlopen(web_page)
soup = BeautifulSoup(page, 'html.parser')        
print(soup)
soup.body.findAll(text='doi')

使用网页时https://ieeexplore.ieee.org/document/6933872 输出是

10.1109/LAWP.2014.2364296。我该怎么做？

跳过Javascript web抓取问题的一个可能的解决方案是使用IEEE API。虽然他们确实需要注册和批准才能获得API密钥，但一旦你有了API密钥，就可以更轻松地发送一组IEEE文章编号，并以结构化的方式取回他们的DOI和其他元数据。

检查它是否具有完整的javascript支持可能与我通过[链接]重复，但它是不同的。doi对于每篇论文都是不同的，并且只提取valueI wii check html.python-requests.org当执行r.html.render行时，它会创建错误。还有别的办法吗？