Solr nutch会爬过表格吗？_Solr_Lucene_Web Crawler_Nutch

Solr nutch会爬过表格吗？

solr lucene web-crawler

Solr nutch会爬过表格吗？,solr,lucene,web-crawler,nutch,Solr,Lucene,Web Crawler,Nutch,我想知道nutch 1.4是否能从盒子里爬出来。例如，如果有一个下拉列表，它会尝试从下拉列表中的项目组合所有可能的页面吗谢谢，Nutch通过HTTP请求获取所需页面的html源代码。现在，页面的html源可以包含编码在其中的下拉列表。如果这是使用复杂的脚本（如dojo/ajax）编写的，那么它将无法像浏览器那样解释它。如果在html源代码中立即看到下拉列表的大纲链接，则nutch将对这些页面进行爬网。除了正常的文本内容外，Nutch还对html页面的Java脚本部分进行解析现在要验证这一点，

我想知道nutch 1.4是否能从盒子里爬出来。例如，如果有一个下拉列表，它会尝试从下拉列表中的项目组合所有可能的页面吗

谢谢，Nutch通过HTTP请求获取所需页面的html源代码。现在，页面的html源可以包含编码在其中的下拉列表。如果这是使用复杂的脚本（如dojo/ajax）编写的，那么它将无法像浏览器那样解释它。如果在html源代码中立即看到下拉列表的大纲链接，则nutch将对这些页面进行爬网。除了正常的文本内容外，Nutch还对html页面的Java脚本部分进行解析

现在要验证这一点，请在bowser/wget it中打开页面。在文本编辑器（如记事本/vi）中查看页面源代码。您能看到此处的大纲链接下拉框吗？如果是，那么nutch将爬行这些轮廓线，否则不会

Nutch通过HTTP请求获取所需页面的html源代码。现在，页面的html源可以包含编码在其中的下拉列表。如果这是使用复杂的脚本（如dojo/ajax）编写的，那么它将无法像浏览器那样解释它。如果在html源代码中立即看到下拉列表的大纲链接，则nutch将对这些页面进行爬网。除了正常的文本内容外，Nutch还对html页面的Java脚本部分进行解析