python报纸-如果URL不是英语,则无法提取文章
我正在尝试使用python模块获取一篇新闻文章的内容。我可以用下面的代码找到一条新闻的正文。代码使用解析python报纸-如果URL不是英语,则无法提取文章,python,django,url-encoding,python-newspaper,Python,Django,Url Encoding,Python Newspaper,我正在尝试使用python模块获取一篇新闻文章的内容。我可以用下面的代码找到一条新闻的正文。代码使用解析feed\u URL变量中的提要URL,然后尝试使用报纸模块查找新闻正文和发布日期 import newspaper from newspaper import Article import feedparser import urllib.parse count = 0 feed_url="https://www.extremetech.com/feed" #feed_url="http:
feed\u URL
变量中的提要URL,然后尝试使用报纸模块查找新闻正文和发布日期
import newspaper
from newspaper import Article
import feedparser
import urllib.parse
count = 0
feed_url="https://www.extremetech.com/feed"
#feed_url="http://www.prothomalo.com/feed/"
d = feedparser.parse(feed_url)
for post in d.entries:
count+=1
if count == 2:
break
#post_link = post.link
post_link =urllib.parse.unquote(post.link) #Added later to decode the
# encoded URL into the original Bengali langauge
print("count= ",count," url = ",post_link,end="\n ")
try:
content = Article(post_link)
content.download()
content.parse()
print(" content = ", end=" ")
print(content.text[0:50])
print(" content.publish_date = {}".format(content.publish_date))
except Exception as e:
print(e)
我在代码中提到了变量feed\u url
的两个不同值-一个来自站点,另一个来自网站
比如说,extremetech有一个新闻条目(我通过feedparser.parse
)的URL为
. 我可以很容易地得到这个URL的新闻正文和发布日期
但是,例如prothomalo有一个URL为的新闻条目(从feedparser.parse
获取)
但在prothomalo网站上实际的URL看起来并不是这样。您可以访问该URL,会发现该URL已更改为孟加拉语。我认为这种加密的(?)URL背后的原因是URL的某些部分是孟加拉语的。这里的内容也是孟加拉语
Python报纸模块可以从ExtreMetech站点而不是prothomalo站点提取内容和发布日期。失败是由于prothomalo URL中的非英语字符造成的吗
如何从prothomalo网站(即可能包含非英语URL的网站)获取新闻内容、发布日期等
编辑1:
我可以将prothomalo的编码URL解码成原始孟加拉语,代码是:
post\u link=urllib.parse.unquote(post.link)
。我仍然无法获得内容和发布日期。我删除了我的答案。从我的测试中,两个URI(带和不带最后一部分)在paper.Article
上得到了相同的结果。看起来URI没有任何影响,但是页面本身没有影响。你能确认吗?@Arount,‘看起来URI没有任何影响,但页面本身’-你是什么意思?我试图用报纸解析页面。文章得到了带有长URL和短URL(没有最后一部分的URL)的空文本。因此,我怀疑paper.Article
无法解析页面内容,无论URL是什么。@Arount,但它可以从英文页面提取内容抱歉,我错过了readed。嗯,也许它不适用于非英语内容,老实说,我不知道这个图书馆