Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/python-3.x/16.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 3.x 以下是一些关于靓汤的链接_Python 3.x_Web Scraping_Beautifulsoup_Web Crawler - Fatal编程技术网

Python 3.x 以下是一些关于靓汤的链接

Python 3.x 以下是一些关于靓汤的链接,python-3.x,web-scraping,beautifulsoup,web-crawler,Python 3.x,Web Scraping,Beautifulsoup,Web Crawler,我在这个问题上遇到了很多麻烦,我想我理解这项工作,但是现在我的头因为撞在桌子上而有了一个凹痕 我需要做的是制作一个程序,在一个有漂亮汤的网页上浏览,但它会得到一个特定的链接(从第三个或第二十个链接到页面的任何地方),然后转到第三个(或第二十个,或任何数字)链接,并尝试从该页面中反复查找第三个链接,次数不详(为了便于解释,我将其限制在20以下。我需要在多次搜索后找到最后一(3)个链接 我已经有了我的程序,但我无法通过第二次迭代!我确实找到了一种方法,在几个小时内找到了答案,但这是一个无限循环,这对

我在这个问题上遇到了很多麻烦,我想我理解这项工作,但是现在我的头因为撞在桌子上而有了一个凹痕

我需要做的是制作一个程序,在一个有漂亮汤的网页上浏览,但它会得到一个特定的链接(从第三个或第二十个链接到页面的任何地方),然后转到第三个(或第二十个,或任何数字)链接,并尝试从该页面中反复查找第三个链接,次数不详(为了便于解释,我将其限制在20以下。我需要在多次搜索后找到最后一(3)个链接

我已经有了我的程序,但我无法通过第二次迭代!我确实找到了一种方法,在几个小时内找到了答案,但这是一个无限循环,这对我的学习没有帮助

假设这是我必须做的:

在第7位找到链接(第一页的第7个链接)。跟随该链接。重复此过程5次。答案是您检索的链接的姓氏。

我已经找到了一种检索名称的方法,只是很难找到一个循环

在一个小时内,我也有点过于热心地试图找到另一篇关于这个问题的帖子。有很多类似的帖子,但与我发现的这个问题不同。谢谢你的时间。这是我到目前为止得到的

from urllib.request import urlopen
from bs4 import BeautifulSoup

#first page url
url = 'insertwebsitehere.com' 
html = urlopen(url).read()
soup = BeautifulSoup(html)

# Retrieve all of the anchor tags
tags = soup('a')

taglist= []
count = 0

for tag in tags:
    name = tag.contents[0]
    newtag = tag.get('href',None)
    #print (newtag)
    # add count? count += 1 , then do something when it reaches a certain count?
    #taglist.append(newtag), this method didnt really work.

我是一名新的编码员,所以我尝试在没有先进技术的情况下完成这项工作,我不需要答案,只需要帮助。

我通过Coursera参加了Python for Informatics的这项任务

对于重复一定次数的循环,我使用:

for _ in range(c)

c等于
count=input()
,因此用户可以选择循环要重复多少次,在我们的例子中是4次。

一天后,我发现我必须为循环做第二次,基本上将所有代码放入两次,循环的时间比需要的时间少一次。我仍然不太明白为什么我必须打开url并再次读取,我认为只是覆盖了url会自己做吗?安威,还是会喜欢更干净的代码。我的代码有28行。(本来可以少一点,但看起来很难看)谢谢你的回复!不客气!最终我用18行代码完成了任务。但我知道它可以更少。我们不需要创建列表,因为标记可以作为列表工作。现在我想知道我如何做到这一点