Web 使用HTTrack仅下载特定子域下的链接(无外部链接)

Web 使用HTTrack仅下载特定子域下的链接(无外部链接),web,download,httrack,Web,Download,Httrack,这就是我想下载的内容- 看起来相当简单,我试着在“扫描规则”中添加几行内容,强制它下载它下面的所有内容,但出于某种原因,整个过程在10秒钟内完成,它只下载了前面的链接本身。 例如,除了有自己,我希望所有的链接都来自它,例如太。 从本质上讲,一切都是从上面的第一个链接开始的(包括来自其他域的嵌入图片,但没有外部链接)。 据我所知,调整一些设置并向“扫描规则”部分添加一些规则应该可以做到这一点,但不幸的是我自己无法理解。为了只复制来自该主机而不是其他主机的链接,要包括您提交的第一个链接,您需要设置扫

这就是我想下载的内容-

看起来相当简单,我试着在“扫描规则”中添加几行内容,强制它下载它下面的所有内容,但出于某种原因,整个过程在10秒钟内完成,它只下载了前面的链接本身。 例如,除了有自己,我希望所有的链接都来自它,例如太。 从本质上讲,一切都是从上面的第一个链接开始的(包括来自其他域的嵌入图片,但没有外部链接)。
据我所知,调整一些设置并向“扫描规则”部分添加一些规则应该可以做到这一点,但不幸的是我自己无法理解。

为了只复制来自该主机而不是其他主机的链接,要包括您提交的第一个链接,您需要设置扫描规则

在设置网址的菜单页上,单击“设置选项…”按钮,然后单击“扫描规则”选项卡。接下来,确保扫描规则排除所有链接,然后确保它们包含来自所需源的链接。此类设置的示例如下

+*.png +*.gif +*.jpg +*.jpeg +*.css +*.js -ad.doubleclick.net/* -mime:application/foobar
-*
+*[name].slader.com/*
这将基本上保存来自slader.com的所有链接,但不会存储该域之外的任何内容

编辑

如果您只需要以您在扫描规则中键入的链接开头的链接,则其外观类似于:

+*.png +*.gif +*.jpg +*.jpeg +*.css +*.js -ad.doubleclick.net/* -mime:application/foobar
-*
+*[name].*[name]https://www.slader.com/textbook/9781337624183-calculus-9th-edition/*[name].*[name]/*
编辑

您可能无法通过HTTrack获取其他页面,例如“表示函数的四种方式”,因为特定sight的链接结构是这样的。如果您查看源代码,他们的链接如下所示:

<tr data-url="/textbook/9781337624183-calculus-9th-edition/17/" class="exercise-group">
                  <td>1.1</td>
                  <td style="width: 360px;">Four Ways to Represent a Function</td>
                  <td style="width: 230px;">Exercises</td>
                  <td style="width: 74px;">p.17</td>
                </tr>

1.1
函数的四种表示方法
练习
p、 十七,
正如您所见,他们使用数据url属性来定位下一页,利用JS库来实际导航浏览器。由于这不是锚定标记,HTTrack不知道它应该跟随它,因为它不将其视为链接


一些替代方法是使用或编写一个带有您自己规则的网页刮板,以便更好地理解它。

非常感谢您的建议。这实际上消除了我不希望软件下载的其他链接,但不幸的是,它没有进入我想要的主链接的子目录d、 我没有改变任何其他设置,只是在扫描规则中添加了你在回答的最后部分所显示的内容。有没有“强制”的方法下载主目录下所有链接的软件?非常感谢您的意思是https://.../9781337624183-calculus-9th-edition/ https://.../9781337624183-calculus-9th-edition/311/ 或者你是在说别的什么?很抱歉,我只是想了解你想要实现的目标。我感谢你的努力。我相信我ant主链接的直接子类别,例如,本质上,任何包含主链接的内容+其他内容,例如:……好吧,我将编辑中的文本添加到“扫描规则”中,不幸的是,它没有像我前面提到的那样进入子目录。我明白了,我再次编辑了我的答案,以解释为什么您遇到困难