如何使用python安全地获取和使用外部html

如何使用python安全地获取和使用外部html,html,python-3.6,Html,Python 3.6,我通过python获取外部不受信任的html(从etherpad导出)。我怎样才能确保没有包含“坏代码”?例如,我当然可以把所有的东西都脱光,但这已经是全部了吗?有没有一个库可以可靠地完成这项工作?我使用python模块漂白剂解决了这个问题。那么,保存什么呢?你可以去掉所有的标签;您可以剥离所有脚本和样式;您可以解析传入的html,并且只使用允许的标记和属性的白名单;您可以像以前一样解析html和显示,使用“组件化”ID、类和样式规则(如Angular Dos for Components或Gm

我通过python获取外部不受信任的html(从etherpad导出)。我怎样才能确保没有包含“坏代码”?例如,我当然可以把所有的东西都脱光,但这已经是全部了吗?有没有一个库可以可靠地完成这项工作?

我使用python模块
漂白剂解决了这个问题。

那么,保存什么呢?你可以去掉所有的标签;您可以剥离所有脚本和样式;您可以解析传入的html,并且只使用允许的标记和属性的白名单;您可以像以前一样解析html和显示,使用“组件化”ID、类和样式规则(如Angular Dos for Components或Gmail Dos for styles)。你可以去任意复杂的地方