python报纸-如果URL不是英语，则无法提取文章_Python_Django_Url Encoding_Python Newspaper

python报纸-如果URL不是英语，则无法提取文章

python django

python报纸-如果URL不是英语，则无法提取文章,python,django,url-encoding,python-newspaper,Python,Django,Url Encoding,Python Newspaper,我正在尝试使用python模块获取一篇新闻文章的内容。我可以用下面的代码找到一条新闻的正文。代码使用解析feed\u URL变量中的提要URL，然后尝试使用报纸模块查找新闻正文和发布日期 import newspaper from newspaper import Article import feedparser import urllib.parse count = 0 feed_url="https://www.extremetech.com/feed" #feed_url="http:

我正在尝试使用python模块获取一篇新闻文章的内容。我可以用下面的代码找到一条新闻的正文。代码使用解析

feed\u URL

变量中的提要URL，然后尝试使用报纸模块查找新闻正文和发布日期

import newspaper
from newspaper import Article
import feedparser
import urllib.parse

count = 0
feed_url="https://www.extremetech.com/feed"
#feed_url="http://www.prothomalo.com/feed/"
d = feedparser.parse(feed_url)
for post in d.entries:
    count+=1
    if count == 2:
        break

    #post_link = post.link
    post_link =urllib.parse.unquote(post.link) #Added later to decode the
    # encoded URL into the  original Bengali langauge            
    print("count= ",count," url = ",post_link,end="\n ")

    try:

        content = Article(post_link)
        content.download()
        content.parse()
        print(" content = ", end=" ")
        print(content.text[0:50])
        print(" content.publish_date = {}".format(content.publish_date))


    except Exception as e:
        print(e)

我在代码中提到了变量

feed\u url

的两个不同值-一个来自站点，另一个来自网站

比如说，extremetech有一个新闻条目（我通过

feedparser.parse

）的URL为 . 我可以很容易地得到这个URL的新闻正文和发布日期

但是，例如prothomalo有一个URL为的新闻条目（从

feedparser.parse

获取）

但在prothomalo网站上实际的URL看起来并不是这样。您可以访问该URL，会发现该URL已更改为孟加拉语。我认为这种加密的（？）URL背后的原因是URL的某些部分是孟加拉语的。这里的内容也是孟加拉语

Python报纸模块可以从ExtreMetech站点而不是prothomalo站点提取内容和发布日期。失败是由于prothomalo URL中的非英语字符造成的吗

如何从prothomalo网站（即可能包含非英语URL的网站）获取新闻内容、发布日期等

编辑1:

我可以将prothomalo的编码URL解码成原始孟加拉语，代码是：

post\u link=urllib.parse.unquote（post.link）

。我仍然无法获得内容和发布日期。

我删除了我的答案。从我的测试中，两个URI（带和不带最后一部分）在

paper.Article

上得到了相同的结果。看起来URI没有任何影响，但是页面本身没有影响。你能确认吗？@Arount，‘看起来URI没有任何影响，但页面本身’-你是什么意思？我试图用

报纸解析页面。文章得到了带有长URL和短URL（没有最后一部分的URL）的空文本。因此，我怀疑paper.Article
无法解析页面内容，无论URL是什么。@Arount，但它可以从英文页面提取内容抱歉，我错过了readed。嗯，也许它不适用于非英语内容，老实说，我不知道这个图书馆