报纸(python)获取所有cnn新闻列表
在此url中() 我的目的是获取所有新闻列表 在url报纸(python)获取所有cnn新闻列表,python,html,python-newspaper,Python,Html,Python Newspaper,在此url中() 我的目的是获取所有新闻列表 在urls html代码中(包含新闻s url) 您得到的错误是什么?结果是一样的,但两个链接包含不同的新闻列表。你能不能说清楚你想说什么?而且,两个链接实际上并不相同,他们有不同的页面参数…这是一个分页功能两个链接都不一样,但每个链接得到10条新闻我想得到每个链接的新闻url在这段代码中得到相同的链接不是每个新闻url <div class="cnn-search__result-thumbnail"> <a
s html代码中(包含新闻s url)
您得到的错误是什么?结果是一样的,但两个链接包含不同的新闻列表。你能不能说清楚你想说什么?而且,两个链接实际上并不相同,他们有不同的页面参数…这是一个分页功能两个链接都不一样,但每个链接得到10条新闻我想得到每个链接的新闻url在这段代码中得到相同的链接不是每个新闻url
<div class="cnn-search__result-thumbnail">
<a href="https://www.cnn.com/2018/03/27/asia/north-korea-kim-jong-un-china- visit/index.html">
<img src="./Search CNN - Videos, Pictures, and News -
CNN.com_files/180328104116china-xi-kim-story-body.jpg">
</a>
def freeze_support():
'''
Check whether this is a fake forked process in a frozen executable.
If so then run code specified by commandline and exit.
'''
if sys.platform == 'win32' and getattr(sys, 'frozen', False):
from multiprocessing.forking import freeze_support
freeze_support()
if __name__ == '__main__':
freeze_support()
for x in range(1, 6000):
url = "https://edition.cnn.com/search/?q=%20news&size=10&from=" + str(x * 10) + "&page=" + str(x + 1)
cnn_paper = newspaper.build(url, memoize_articles=False) # ~15 seconds
print(len(cnn_paper.articles))
list = []
for article in cnn_paper.articles:
if article.url not in url_list:
list.append(article.url)