Python 如何从Web链接列表中的URL检索URL和数据_Python_Python 3.x_Web Scraping_Beautifulsoup

Python 如何从Web链接列表中的URL检索URL和数据

python python-3.x web-scraping

Python 如何从Web链接列表中的URL检索URL和数据,python,python-3.x,web-scraping,beautifulsoup,Python,Python 3.x,Web Scraping,Beautifulsoup,“您好，我对web scraping很陌生。我最近检索到一个web链接列表，这些链接中有包含表中数据的URL。我计划对数据进行scrape，但似乎无法获取URL。非常感谢任何形式的帮助” “网站链接列表如下所示： " “从链接列表中，我计划 a、获取这些链接中的URL " “b.从每个URL内的表中获取数据（例如，事件日期、事件时间、类型、操作员、注册、msn、首飞、等级） “我只能获取web链接列表，无法获取URL或这些web链接中的数据。代码持续显示数组不太确定我的代码哪里

“您好，我对web scraping很陌生。我最近检索到一个web链接列表，这些链接中有包含表中数据的URL。我计划对数据进行scrape，但似乎无法获取URL。非常感谢任何形式的帮助”

“网站链接列表如下所示：

“从链接列表中，我计划

a、获取这些链接中的URL

“b.从每个URL内的表中获取数据（例如，事件日期、事件时间、类型、操作员、注册、msn、首飞、等级）

“我只能获取web链接列表，无法获取URL或这些web链接中的数据。代码持续显示数组

不太确定我的代码哪里出错，请提前感谢您的帮助。”

请求页面时。添加用户代理

headers = {'User-Agent':
       'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36'}
mainurl = "https://aviation-safety.net/database/dblist.php?Year=1919"
def getAndParseURL(mainurl):
    result = requests.get(mainurl,headers=headers)
    soup = BeautifulSoup(result.content, 'html.parser')
    datatable = soup.select('a[href*="database/record"]')
    return datatable

print(getAndParseURL(mainurl))

请求页面时。添加用户代理

headers = {'User-Agent':
       'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36'}
mainurl = "https://aviation-safety.net/database/dblist.php?Year=1919"
def getAndParseURL(mainurl):
    result = requests.get(mainurl,headers=headers)
    soup = BeautifulSoup(result.content, 'html.parser')
    datatable = soup.select('a[href*="database/record"]')
    return datatable

print(getAndParseURL(mainurl))

“您好，这很有效！我能够检索到2个URL。但我想知道是否可以使用URL列表而不是主URL中的一个URL？”URL列表是从1919年到2019年的：我尝试过这样做，但遇到以下错误：InvalidSchema:找不到“0”的连接适配器。。。“你好，这很管用！我能够检索2个URL。但我想知道是否可以使用URL列表而不是主URL中的一个URL？“URL列表是从1919年到2019年的：我尝试过这样做，但遇到了以下错误：InvalidSchema:找不到“0”的连接适配器。。。