报纸python缓存问题，每次调用输出相同_Python_Python Newspaper

报纸python缓存问题，每次调用输出相同

python

报纸python缓存问题，每次调用输出相同,python,python-newspaper,Python,Python Newspaper,我使用这个模块：从下载比特币文章。但当我试图从下一页“”获取下一篇文章时，我得到了相同的输出。其他页面也一样我尝试了不同的网站和不同的起始页。我使用的第一个链接中的文章显示在所有其他链接上 import newspaper url = 'https://news.bitcoin.com/page/2' btc_articles = newspaper.build(url, memoize_articles = False) for article in btc_articles.artic

我使用这个模块：从下载比特币文章。但当我试图从下一页“”获取下一篇文章时，我得到了相同的输出。其他页面也一样

我尝试了不同的网站和不同的起始页。我使用的第一个链接中的文章显示在所有其他链接上

import newspaper

url = 'https://news.bitcoin.com/page/2'
btc_articles = newspaper.build(url, memoize_articles = False)

for article in btc_articles.articles:
    print(article.url)

报纸图书馆试图搜集整个网站，而不仅仅是你输入的链接。这意味着您不必在所有页面中循环以获取文章。然而，正如您可能已经注意到的，lib并没有找到所有的文章

这样做的原因似乎是它没有将所有页面标识为类别（也没有找到提要），请参见下文（无论页面如何，输出都是相同的）：

输出：

Categories: ['https://news.bitcoin.com/page/2', 'https://news.bitcoin.com']
Feeds: []

正如您在故障报告中所指出的那样，这似乎是代码中的一个错误（或比特币上糟糕的网站设计，具体取决于您如何看待它）。

我使用的是python 3.6从文档中，请尝试使用

import newspaper3k

，如果我正确的话，它正在抓取或解析一个url，因此在您的情况下就是您看到的页面。您将需要修改和添加额外的代码，以便能够获得下一篇文章。它具有允许解析大量文章的构建方法

Categories: ['https://news.bitcoin.com/page/2', 'https://news.bitcoin.com']
Feeds: []