Python 如何从IGN网站提取url链接

Python 如何从IGN网站提取url链接,python,python-3.x,web,web-scraping,Python,Python 3.x,Web,Web Scraping,我正试图提取这个网页上的评论网址 然后在单独的选项卡中打开顶部的5个 现在,我尝试了不同的选择,以尝试获取正确的数据,但似乎没有任何结果。我似乎无法超越提取列表中每个评论的URL,更不用说在单独的选项卡中打开前5个了 我正在使用Python3和PythonIDE 这是我的密码: import webbrowser, bs4, requests, re webPage = requests.get("http://uk.ign.com/games/reviews", headers={'User

我正试图提取这个网页上的评论网址 然后在单独的选项卡中打开顶部的5个

现在,我尝试了不同的选择,以尝试获取正确的数据,但似乎没有任何结果。我似乎无法超越提取列表中每个评论的URL,更不用说在单独的选项卡中打开前5个了

我正在使用Python3和PythonIDE

这是我的密码:

import webbrowser, bs4, requests, re

webPage = requests.get("http://uk.ign.com/games/reviews", headers={'User-
Agent': 'Mozilla/5.0'})

webPage.raise_for_status()

webPage = bs4.BeautifulSoup(webPage.text, "html.parser")

#Me trying different selections to try extract the right part of the page 
webLinks = webPage.select(".item-title")
webLinks2 = webPage.select("h3")
webLinks3 = webPage.select("div item-title")

print(type(webLinks))
print(type(webLinks2))
print(type(webLinks3))
#I think this is where I've gone wrong. These all returning empty lists. 
#What am I doing wrong?


lenLinks = min(5, len(webLinks))
for i in range(lenLinks):
    webbrowser.open('http://uk.ign.com/' + webLinks[i].get('href'))

使用bs4、BeautifulSoup及其返回的
soup
对象(作为
网页
,您可以调用:

webLinks = webPage.find_all('a')
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
#  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
#  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
有关更多详细信息,请参阅。当然,也可以参阅


pspython通常使用snake\u case而不是CamelCase:)编写。

使用bs4、BeautifulSoup和它返回的
soup
对象(您将其作为
网页
,您可以调用:

webLinks = webPage.find_all('a')
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
#  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
#  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
有关更多详细信息,请参阅。当然,也可以参阅


pspython通常使用snake\u case而不是CamelCase:)

找到这些链接了吗?我可以在网页上找到所有链接,但无法提取我想要的链接。webLinks=webPage.find_all('a')为我提供页面上的所有链接,现在我正尝试使用“h3”类提取“项目标题”下的链接。我试过webItems=webPage.find_all('a',{'class':“title”})webby=webPage.find_all(class=“h3”)这些都不管用,也许我应该使用某种形式的for循环?找到那些链接了吗?我可以找到网页上的所有链接,但无法提取我想要的链接。webLinks=webPage.find_all('a')为我提供页面上的所有链接,现在我正尝试使用“h3”类提取“项目标题”下的链接。我试过webItems=webPage.find_all('a',{'class':“title”})webby=webPage.find_all(class=“h3”)这些都不管用,也许我应该使用某种形式的for循环?这很管用,我正在阅读美丽的汤文档的find_all部分,想知道我是否需要使用find_parents()如果我想定位网页上的特定链接,或者我应该使用for循环从原始find_all('a')语句中提取我想要的链接,就像使用['href']一样?嗨!我很高兴它能起作用——我不确定您的下一个问题,但我认为您的思路是正确的:
find_parents/children
将返回一个对象,您可以再次调用
find_all
。。。在任何情况下,如果这是您正在寻找的答案,请将其标记为已接受,以便其他人稍后可以找到:)这很有效,我正在阅读“美丽的汤”文档的“查找所有”部分,想知道我是否需要使用“查找家长”()如果我想定位网页上的特定链接,或者我应该使用for循环从原始find_all('a')语句中提取我想要的链接,就像使用['href']一样?嗨!我很高兴它能起作用——我不确定您的下一个问题,但我认为您的思路是正确的:
find_parents/children
将返回一个对象,您可以再次调用
find_all
。。。无论如何,如果这是您正在寻找的答案,请将其标记为已接受,以便其他人稍后可以找到:)