Python 如何从IGN网站提取url链接_Python_Python 3.x_Web_Web Scraping

Python 如何从IGN网站提取url链接

python python-3.x web web-scraping

Python 如何从IGN网站提取url链接,python,python-3.x,web,web-scraping,Python,Python 3.x,Web,Web Scraping,我正试图提取这个网页上的评论网址然后在单独的选项卡中打开顶部的5个现在，我尝试了不同的选择，以尝试获取正确的数据，但似乎没有任何结果。我似乎无法超越提取列表中每个评论的URL，更不用说在单独的选项卡中打开前5个了我正在使用Python3和PythonIDE 这是我的密码： import webbrowser, bs4, requests, re webPage = requests.get("http://uk.ign.com/games/reviews", headers={'User

我正试图提取这个网页上的评论网址然后在单独的选项卡中打开顶部的5个

现在，我尝试了不同的选择，以尝试获取正确的数据，但似乎没有任何结果。我似乎无法超越提取列表中每个评论的URL，更不用说在单独的选项卡中打开前5个了

我正在使用Python3和PythonIDE

这是我的密码：

import webbrowser, bs4, requests, re

webPage = requests.get("http://uk.ign.com/games/reviews", headers={'User-
Agent': 'Mozilla/5.0'})

webPage.raise_for_status()

webPage = bs4.BeautifulSoup(webPage.text, "html.parser")

#Me trying different selections to try extract the right part of the page 
webLinks = webPage.select(".item-title")
webLinks2 = webPage.select("h3")
webLinks3 = webPage.select("div item-title")

print(type(webLinks))
print(type(webLinks2))
print(type(webLinks3))
#I think this is where I've gone wrong. These all returning empty lists. 
#What am I doing wrong?


lenLinks = min(5, len(webLinks))
for i in range(lenLinks):
    webbrowser.open('http://uk.ign.com/' + webLinks[i].get('href'))

使用bs4、BeautifulSoup及其返回的

soup

对象（作为

网页

，您可以调用：

webLinks = webPage.find_all('a')
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
#  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
#  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

有关更多详细信息，请参阅。当然，也可以参阅

pspython通常使用snake\u case而不是CamelCase:）编写。

使用bs4、BeautifulSoup和它返回的

soup

对象（您将其作为

网页

，您可以调用：

webLinks = webPage.find_all('a')
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
#  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
#  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

有关更多详细信息，请参阅。当然，也可以参阅

pspython通常使用snake\u case而不是CamelCase:）

找到这些链接了吗？我可以在网页上找到所有链接，但无法提取我想要的链接。webLinks=webPage.find_all（'a'）为我提供页面上的所有链接，现在我正尝试使用“h3”类提取“项目标题”下的链接。我试过webItems=webPage.find_all（'a'，{'class'：“title”}）webby=webPage.find_all（class=“h3”）这些都不管用，也许我应该使用某种形式的for循环？找到那些链接了吗？我可以找到网页上的所有链接，但无法提取我想要的链接。webLinks=webPage.find_all（'a'）为我提供页面上的所有链接，现在我正尝试使用“h3”类提取“项目标题”下的链接。我试过webItems=webPage.find_all（'a'，{'class'：“title”}）webby=webPage.find_all（class=“h3”）这些都不管用，也许我应该使用某种形式的for循环？这很管用，我正在阅读美丽的汤文档的find_all部分，想知道我是否需要使用find_parents（）如果我想定位网页上的特定链接，或者我应该使用for循环从原始find_all（'a'）语句中提取我想要的链接，就像使用['href']一样？嗨！我很高兴它能起作用——我不确定您的下一个问题，但我认为您的思路是正确的：

find_parents/children

将返回一个对象，您可以再次调用

find_all

。。。在任何情况下，如果这是您正在寻找的答案，请将其标记为已接受，以便其他人稍后可以找到：）这很有效，我正在阅读“美丽的汤”文档的“查找所有”部分，想知道我是否需要使用“查找家长”（）如果我想定位网页上的特定链接，或者我应该使用for循环从原始find_all（'a'）语句中提取我想要的链接，就像使用['href']一样？嗨！我很高兴它能起作用——我不确定您的下一个问题，但我认为您的思路是正确的：

find_parents/children

将返回一个对象，您可以再次调用

find_all

。。。无论如何，如果这是您正在寻找的答案，请将其标记为已接受，以便其他人稍后可以找到：）