python报纸-如果URL不是英语,则无法提取文章

python报纸-如果URL不是英语,则无法提取文章,python,django,url-encoding,python-newspaper,Python,Django,Url Encoding,Python Newspaper,我正在尝试使用python模块获取一篇新闻文章的内容。我可以用下面的代码找到一条新闻的正文。代码使用解析feed\u URL变量中的提要URL,然后尝试使用报纸模块查找新闻正文和发布日期 import newspaper from newspaper import Article import feedparser import urllib.parse count = 0 feed_url="https://www.extremetech.com/feed" #feed_url="http:

我正在尝试使用python模块获取一篇新闻文章的内容。我可以用下面的代码找到一条新闻的正文。代码使用解析
feed\u URL
变量中的提要URL,然后尝试使用报纸模块查找新闻正文和发布日期

import newspaper
from newspaper import Article
import feedparser
import urllib.parse

count = 0
feed_url="https://www.extremetech.com/feed"
#feed_url="http://www.prothomalo.com/feed/"
d = feedparser.parse(feed_url)
for post in d.entries:
    count+=1
    if count == 2:
        break

    #post_link = post.link
    post_link =urllib.parse.unquote(post.link) #Added later to decode the
    # encoded URL into the  original Bengali langauge            
    print("count= ",count," url = ",post_link,end="\n ")

    try:

        content = Article(post_link)
        content.download()
        content.parse()
        print(" content = ", end=" ")
        print(content.text[0:50])
        print(" content.publish_date = {}".format(content.publish_date))


    except Exception as e:
        print(e)
我在代码中提到了变量
feed\u url
的两个不同值-一个来自站点,另一个来自网站

比如说,extremetech有一个新闻条目(我通过
feedparser.parse
)的URL为 . 我可以很容易地得到这个URL的新闻正文和发布日期

但是,例如prothomalo有一个URL为的新闻条目(从
feedparser.parse
获取)

但在prothomalo网站上实际的URL看起来并不是这样。您可以访问该URL,会发现该URL已更改为孟加拉语。我认为这种加密的(?)URL背后的原因是URL的某些部分是孟加拉语的。这里的内容也是孟加拉语

Python报纸模块可以从ExtreMetech站点而不是prothomalo站点提取内容和发布日期。失败是由于prothomalo URL中的非英语字符造成的吗

如何从prothomalo网站(即可能包含非英语URL的网站)获取新闻内容、发布日期等

编辑1:
我可以将prothomalo的编码URL解码成原始孟加拉语,代码是:
post\u link=urllib.parse.unquote(post.link)
。我仍然无法获得内容和发布日期。

我删除了我的答案。从我的测试中,两个URI(带和不带最后一部分)在
paper.Article
上得到了相同的结果。看起来URI没有任何影响,但是页面本身没有影响。你能确认吗?@Arount,‘看起来URI没有任何影响,但页面本身’-你是什么意思?我试图用
报纸解析页面。文章
得到了带有长URL和短URL(没有最后一部分的URL)的空文本。因此,我怀疑
paper.Article
无法解析页面内容,无论URL是什么。@Arount,但它可以从英文页面提取内容抱歉,我错过了readed。嗯,也许它不适用于非英语内容,老实说,我不知道这个图书馆