Python 抓取html文本文档_Python_Html_Web Scraping

Python 抓取html文本文档

python html web-scraping

Python 抓取html文本文档,python,html,web-scraping,Python,Html,Web Scraping,我需要网络刮一个特定的网站，但它不允许网络刮（403错误）。我正在考虑复制我需要的网站的html数据，并将其放入一个txt文档中，在那里我可以像刮网页一样刮去它。这是可能的，还是有更好的方法呢？如果您有linux/unix，您可以使用wget/curl下载该网页。这会将html源代码复制到根目录中的文件中。例如，您可以使用 wget https://stackoverflow.com/questions/51412042/scraping-a-html-text-document 获取此网页

我需要网络刮一个特定的网站，但它不允许网络刮（403错误）。我正在考虑复制我需要的网站的html数据，并将其放入一个txt文档中，在那里我可以像刮网页一样刮去它。这是可能的，还是有更好的方法呢？

如果您有linux/unix，您可以使用wget/curl下载该网页。这会将html源代码复制到根目录中的文件中。例如，您可以使用

wget https://stackoverflow.com/questions/51412042/scraping-a-html-text-document

获取此网页的源代码

要处理此问题并去除一些标记，可以使用vim/nano将以下内容复制到一个新文件中，并使用

/script.sh filename

运行它（在执行chmod+x filename之后）。您还可以添加其他sed命令来删除其他标记

cat $1 |
sed "s/<html>//g" |
sed "s/</html>//g" |
sed "s/<head>//g" |
sed "s/</head>//g" |

cat$1|
sed“s///g”|
sed“s///g”|
sed“s///g”|
sed“s///g”|