Python lxml html.parse返回错误读取文件无法加载外部实体

Python lxml html.parse返回错误读取文件无法加载外部实体,python,parsing,lxml,Python,Parsing,Lxml,新手与lxml争吵,目前正在阅读O'Reilly的书。导入html表单lxml后,使用html.parse返回以下错误消息: 读取文件“”时出错:无法加载外部实体“” 代码如下: from lxml import html page = html.parse('http://www.emoji-cheat-sheet.com/') 这也可以在相关存储库的书籍中找到: “hmtl.parse”问题是,自本书出版以来,网站emoji-cheat-sheet.com已更改为,因此它会将您重定向到那

新手与lxml争吵,目前正在阅读O'Reilly的书。导入html表单lxml后,使用html.parse返回以下错误消息:

读取文件“”时出错:无法加载外部实体“”

代码如下:

from lxml import html
page = html.parse('http://www.emoji-cheat-sheet.com/')
这也可以在相关存储库的书籍中找到:


“hmtl.parse”

问题是,自本书出版以来,网站emoji-cheat-sheet.com已更改为,因此它会将您重定向到那里,而简单的html.parse无法处理重定向(并且可能会与加密发生冲突,因为它现在使用https(安全加密)连接,就像现在大多数专业网站一样

我可以使用请求库解析它:

import requests
page = requests.get('https://www.webpagefx.com/tools/emoji-cheat-sheet')
content=page.content
print(content)
如果您试图向该特定网站发出不安全的http请求,服务器会将您重定向到https页面。这样的安全页面很难用原始库解析

不要自动将您重定向到https站点,同样的代码也可以正常工作。(我也尝试了您的表情符号站点,但没有成功)


如果您必须解析该特定站点,我建议BeautifulSoup,我会看看是否有效,然后再报告。

可能重复感谢,实际上是我在查看要解析的url时疏忽了。使用不同的有效url(无重定向)错误消失。