Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/scala/17.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 抓取html文本文档_Python_Html_Web Scraping - Fatal编程技术网

Python 抓取html文本文档

Python 抓取html文本文档,python,html,web-scraping,Python,Html,Web Scraping,我需要网络刮一个特定的网站,但它不允许网络刮(403错误)。我正在考虑复制我需要的网站的html数据,并将其放入一个txt文档中,在那里我可以像刮网页一样刮去它。这是可能的,还是有更好的方法呢?如果您有linux/unix,您可以使用wget/curl下载该网页。这会将html源代码复制到根目录中的文件中。例如,您可以使用 wget https://stackoverflow.com/questions/51412042/scraping-a-html-text-document 获取此网页

我需要网络刮一个特定的网站,但它不允许网络刮(403错误)。我正在考虑复制我需要的网站的html数据,并将其放入一个txt文档中,在那里我可以像刮网页一样刮去它。这是可能的,还是有更好的方法呢?

如果您有linux/unix,您可以使用wget/curl下载该网页。这会将html源代码复制到根目录中的文件中。例如,您可以使用

wget https://stackoverflow.com/questions/51412042/scraping-a-html-text-document 
获取此网页的源代码

要处理此问题并去除一些标记,可以使用vim/nano将以下内容复制到一个新文件中,并使用
/script.sh filename
运行它(在执行chmod+x filename之后)。您还可以添加其他sed命令来删除其他标记

cat $1 |
sed "s/<html>//g" |
sed "s/</html>//g" |
sed "s/<head>//g" |
sed "s/</head>//g" |
cat$1|
sed“s///g”|
sed“s///g”|
sed“s///g”|
sed“s///g”|

您确定允许访问该网站吗?请尝试从浏览器中查看该网站,以备将来参考。您应该提供有关搜索内容和/或已尝试内容的信息。