Python 2.7 在python中仅加载url内容中的文本

Python 2.7 在python中仅加载url内容中的文本,python-2.7,Python 2.7,我想下载python中的普通网页、网络托管ppt和PDF。然而,为了尽量减少我需要下载的数据量,我只想下载文本而忽略任何图像 这听起来对普通网站是可行的,我不确定ppt和PDF是否可行。我怎样才能做到这一点 我计划在下载这些页面后使用textract模块提取这些页面的内容,但我想知道是否有其他方法可以使我的问题更容易解决。看看这个库。这几乎满足了您的所有需求,即html、pdf和ppt

我想下载python中的普通网页、网络托管ppt和PDF。然而,为了尽量减少我需要下载的数据量,我只想下载文本而忽略任何图像

这听起来对普通网站是可行的,我不确定ppt和PDF是否可行。我怎样才能做到这一点

我计划在下载这些页面后使用textract模块提取这些页面的内容,但我想知道是否有其他方法可以使我的问题更容易解决。

看看这个库。这几乎满足了您的所有需求,即html、pdf和ppt