Ssl Nutch的HTTPS爬网问题

Ssl Nutch的HTTPS爬网问题,ssl,web-crawler,nutch,Ssl,Web Crawler,Nutch,他说我想用Nutch1.9和java7来抓取https站点 在seed.txt中 https://site.com 在regex-urlfilter.txt中 +^https://([a-z0-9]*\.)*site.com/ 但是当使用bin/crawl…运行crawig进程时,我得到了一个javax.net.ssl.SSLProtocolException:handshake alert:unrecognized_name我得到了对具有默认证书的网站进行爬网的解决方案,我希望这可以帮助其

他说我想用Nutch1.9和java7来抓取https站点

在seed.txt中

https://site.com
在regex-urlfilter.txt中

+^https://([a-z0-9]*\.)*site.com/

但是当使用
bin/crawl…
运行crawig进程时,我得到了一个javax.net.ssl.SSLProtocolException:handshake alert:unrecognized_name我得到了对具有默认证书的网站进行爬网的解决方案,我希望这可以帮助其他遇到此问题的人

本论坛的一些帖子提到了添加参数
-djse.enableSNIExtension=false
但是把它放在哪里呢? 我使用nano编辑了nucth文件,并在NUTCH_OPTS中添加了这个参数 简而言之,1.9是在第195行,现在是

NUTCH_OPTS=($NUTCH_OPTS -Dhadoop.log.dir="$NUTCH_LOG_DIR" -Djsse.enableSNIExtension=false)
在那之后,爬行成功了,没有折断