Solr nutch会爬过表格吗?

Solr nutch会爬过表格吗?,solr,lucene,web-crawler,nutch,Solr,Lucene,Web Crawler,Nutch,我想知道nutch 1.4是否能从盒子里爬出来。例如,如果有一个下拉列表,它会尝试从下拉列表中的项目组合所有可能的页面吗 谢谢,Nutch通过HTTP请求获取所需页面的html源代码。现在,页面的html源可以包含编码在其中的下拉列表。如果这是使用复杂的脚本(如dojo/ajax)编写的,那么它将无法像浏览器那样解释它。如果在html源代码中立即看到下拉列表的大纲链接,则nutch将对这些页面进行爬网。除了正常的文本内容外,Nutch还对html页面的Java脚本部分进行解析 现在要验证这一点,

我想知道nutch 1.4是否能从盒子里爬出来。例如,如果有一个下拉列表,它会尝试从下拉列表中的项目组合所有可能的页面吗


谢谢,Nutch通过HTTP请求获取所需页面的html源代码。现在,页面的html源可以包含编码在其中的下拉列表。如果这是使用复杂的脚本(如dojo/ajax)编写的,那么它将无法像浏览器那样解释它。如果在html源代码中立即看到下拉列表的大纲链接,则nutch将对这些页面进行爬网。除了正常的文本内容外,Nutch还对html页面的Java脚本部分进行解析


现在要验证这一点,请在bowser/wget it中打开页面。在文本编辑器(如记事本/vi)中查看页面源代码。您能看到此处的大纲链接下拉框吗?如果是,那么nutch将爬行这些轮廓线,否则不会

Nutch通过HTTP请求获取所需页面的html源代码。现在,页面的html源可以包含编码在其中的下拉列表。如果这是使用复杂的脚本(如dojo/ajax)编写的,那么它将无法像浏览器那样解释它。如果在html源代码中立即看到下拉列表的大纲链接,则nutch将对这些页面进行爬网。除了正常的文本内容外,Nutch还对html页面的Java脚本部分进行解析

现在要验证这一点,请在bowser/wget it中打开页面。在文本编辑器(如记事本/vi)中查看页面源代码。您能看到此处的大纲链接下拉框吗?如果是,那么nutch将爬行这些轮廓线,否则不会