Web scraping 使用Wget从目录网站下载.epub文件_Web Scraping_Wget_Epub

Web scraping 使用Wget从目录网站下载.epub文件

web-scraping

Web scraping 使用Wget从目录网站下载.epub文件,web-scraping,wget,epub,Web Scraping,Wget,Epub,有一个网站，我可以下载.epub文件。我想用wget来搜集我感兴趣的话题。我对wget不太熟悉，根据我找到的各种谷歌搜索结果拼凑了一个脚本。我的原始脚本从相同的文件夹中获取.mp4文件，但没有从相同的文件夹中下载任何.epub文件。我已经尝试了下面的4个脚本，从所有脚本中都得到了相同的结果试验1： wget -c -r -A.epub -kpN -np -e robots=off "webite" -P D: 试验1A（查看空间是否重要）：试验2： wget -A.ep

有一个网站，我可以下载.epub文件。我想用wget来搜集我感兴趣的话题。我对wget不太熟悉，根据我找到的各种谷歌搜索结果拼凑了一个脚本。我的原始脚本从相同的文件夹中获取.mp4文件，但没有从相同的文件夹中下载任何.epub文件。我已经尝试了下面的4个脚本，从所有脚本中都得到了相同的结果

试验1：

wget -c -r -A.epub -kpN -np -e robots=off "webite" -P D:

试验1A（查看空间是否重要）：

试验2：

wget -A.epub --no-clobber --convert-links --random-wait -r -np -p -E -e robots=off -U mozilla "website" -P D:

试验2A（与第一个试验相同）：

在所有情况下，我都会得到以下信息：

Reusing existing connection to [thetrove.net]:443. 
HTTP request sent, awaiting response... 
404 Not Found 2020-09-18 00:38:52 ERROR 404: Not Found.

现在，我在过去使用了第一个wget命令，但没有使用.epub从同一个网站下载图片和PDF文件，并且没有404错误消息。如果我在没有.epub的情况下将网站更改为其他子文件夹，它将下载其他任何内容，无论是pics pdf、mp4s还是其他内容。如果我在浏览器中访问该网站，并尝试手动下载返回404错误的任何文件，它们都可以正常下载。我只是不想手动下载我感兴趣的所有子文件夹中的所有文件

提前感谢您的帮助

wget -A .epub --no-clobber --convert-links --random-wait -r -np -p -E -e robots=off -U mozilla "website" -P D:

Reusing existing connection to [thetrove.net]:443. 
HTTP request sent, awaiting response... 
404 Not Found 2020-09-18 00:38:52 ERROR 404: Not Found.