Web scraping 使用Wget从目录网站下载.epub文件
有一个网站,我可以下载.epub文件。我想用wget来搜集我感兴趣的话题。我对wget不太熟悉,根据我找到的各种谷歌搜索结果拼凑了一个脚本。我的原始脚本从相同的文件夹中获取.mp4文件,但没有从相同的文件夹中下载任何.epub文件。我已经尝试了下面的4个脚本,从所有脚本中都得到了相同的结果 试验1:Web scraping 使用Wget从目录网站下载.epub文件,web-scraping,wget,epub,Web Scraping,Wget,Epub,有一个网站,我可以下载.epub文件。我想用wget来搜集我感兴趣的话题。我对wget不太熟悉,根据我找到的各种谷歌搜索结果拼凑了一个脚本。我的原始脚本从相同的文件夹中获取.mp4文件,但没有从相同的文件夹中下载任何.epub文件。我已经尝试了下面的4个脚本,从所有脚本中都得到了相同的结果 试验1: wget -c -r -A.epub -kpN -np -e robots=off "webite" -P D: 试验1A(查看空间是否重要): 试验2: wget -A.ep
wget -c -r -A.epub -kpN -np -e robots=off "webite" -P D:
试验1A(查看空间是否重要):
试验2:
wget -A.epub --no-clobber --convert-links --random-wait -r -np -p -E -e robots=off -U mozilla "website" -P D:
试验2A(与第一个试验相同):
在所有情况下,我都会得到以下信息:
Reusing existing connection to [thetrove.net]:443.
HTTP request sent, awaiting response...
404 Not Found 2020-09-18 00:38:52 ERROR 404: Not Found.
现在,我在过去使用了第一个wget命令,但没有使用.epub从同一个网站下载图片和PDF文件,并且没有404错误消息。如果我在没有.epub的情况下将网站更改为其他子文件夹,它将下载其他任何内容,无论是pics pdf、mp4s还是其他内容。如果我在浏览器中访问该网站,并尝试手动下载返回404错误的任何文件,它们都可以正常下载。我只是不想手动下载我感兴趣的所有子文件夹中的所有文件
提前感谢您的帮助
wget -A .epub --no-clobber --convert-links --random-wait -r -np -p -E -e robots=off -U mozilla "website" -P D:
Reusing existing connection to [thetrove.net]:443.
HTTP request sent, awaiting response...
404 Not Found 2020-09-18 00:38:52 ERROR 404: Not Found.