报纸(python)获取所有cnn新闻列表

报纸(python)获取所有cnn新闻列表,python,html,python-newspaper,Python,Html,Python Newspaper,在此url中() 我的目的是获取所有新闻列表 在urls html代码中(包含新闻s url) 您得到的错误是什么?结果是一样的,但两个链接包含不同的新闻列表。你能不能说清楚你想说什么?而且,两个链接实际上并不相同,他们有不同的页面参数…这是一个分页功能两个链接都不一样,但每个链接得到10条新闻我想得到每个链接的新闻url在这段代码中得到相同的链接不是每个新闻url <div class="cnn-search__result-thumbnail"> <a

在此url中()

我的目的是获取所有新闻列表

在url
s html代码中(包含新闻
s url)


您得到的错误是什么?结果是一样的,但两个链接包含不同的新闻列表。你能不能说清楚你想说什么?而且,两个链接实际上并不相同,他们有不同的页面参数…这是一个分页功能两个链接都不一样,但每个链接得到10条新闻我想得到每个链接的新闻url在这段代码中得到相同的链接不是每个新闻url
 <div class="cnn-search__result-thumbnail">         
 <a href="https://www.cnn.com/2018/03/27/asia/north-korea-kim-jong-un-china- visit/index.html">
   <img src="./Search CNN - Videos, Pictures, and News - 
      CNN.com_files/180328104116china-xi-kim-story-body.jpg">
   </a> 
def freeze_support():
 '''
 Check whether this is a fake forked process in a frozen executable.
 If so then run code specified by commandline and exit.
 '''
 if sys.platform == 'win32' and getattr(sys, 'frozen', False):
     from multiprocessing.forking import freeze_support
     freeze_support()
if __name__ == '__main__':
  freeze_support()
  for x in range(1, 6000):
    url = "https://edition.cnn.com/search/?q=%20news&size=10&from=" + str(x * 10) + "&page=" + str(x + 1)
    cnn_paper = newspaper.build(url, memoize_articles=False)  # ~15 seconds
    print(len(cnn_paper.articles))
    list = []
    for article in cnn_paper.articles:
        if article.url not in url_list:
            list.append(article.url)