Python lxml html.parse返回错误读取文件无法加载外部实体_Python_Parsing_Lxml

Python lxml html.parse返回错误读取文件无法加载外部实体

python parsing

Python lxml html.parse返回错误读取文件无法加载外部实体,python,parsing,lxml,Python,Parsing,Lxml,新手与lxml争吵，目前正在阅读O'Reilly的书。导入html表单lxml后，使用html.parse返回以下错误消息：读取文件“”时出错：无法加载外部实体“” 代码如下： from lxml import html page = html.parse('http://www.emoji-cheat-sheet.com/') 这也可以在相关存储库的书籍中找到： “hmtl.parse”问题是，自本书出版以来，网站emoji-cheat-sheet.com已更改为，因此它会将您重定向到那

新手与lxml争吵，目前正在阅读O'Reilly的书。导入html表单lxml后，使用html.parse返回以下错误消息：

读取文件“”时出错：无法加载外部实体“”

代码如下：

from lxml import html
page = html.parse('http://www.emoji-cheat-sheet.com/')

这也可以在相关存储库的书籍中找到：

“hmtl.parse”

问题是，自本书出版以来，网站emoji-cheat-sheet.com已更改为，因此它会将您重定向到那里，而简单的html.parse无法处理重定向（并且可能会与加密发生冲突，因为它现在使用https（安全加密）连接，就像现在大多数专业网站一样

我可以使用请求库解析它：

import requests
page = requests.get('https://www.webpagefx.com/tools/emoji-cheat-sheet')
content=page.content
print(content)

如果您试图向该特定网站发出不安全的http请求，服务器会将您重定向到https页面。这样的安全页面很难用原始库解析

不要自动将您重定向到https站点，同样的代码也可以正常工作。（我也尝试了您的表情符号站点，但没有成功）

如果您必须解析该特定站点，我建议BeautifulSoup，我会看看是否有效，然后再报告。

可能重复感谢，实际上是我在查看要解析的url时疏忽了。使用不同的有效url（无重定向）错误消失。