Ssl Nutch的HTTPS爬网问题_Ssl_Web Crawler_Nutch

Ssl Nutch的HTTPS爬网问题

ssl web-crawler

Ssl Nutch的HTTPS爬网问题,ssl,web-crawler,nutch,Ssl,Web Crawler,Nutch,他说我想用Nutch1.9和java7来抓取https站点在seed.txt中 https://site.com 在regex-urlfilter.txt中 +^https://([a-z0-9]*\.)*site.com/ 但是当使用bin/crawl…运行crawig进程时，我得到了一个javax.net.ssl.SSLProtocolException:handshake alert:unrecognized_name我得到了对具有默认证书的网站进行爬网的解决方案，我希望这可以帮助其

他说我想用Nutch1.9和java7来抓取https站点

在seed.txt中

https://site.com

在regex-urlfilter.txt中

+^https://([a-z0-9]*\.)*site.com/

但是当使用

bin/crawl…

运行crawig进程时，我得到了一个javax.net.ssl.SSLProtocolException:handshake alert:unrecognized_name我得到了对具有默认证书的网站进行爬网的解决方案，我希望这可以帮助其他遇到此问题的人

本论坛的一些帖子提到了添加参数

-djse.enableSNIExtension=false

但是把它放在哪里呢？我使用nano编辑了nucth文件，并在NUTCH_OPTS中添加了这个参数简而言之，1.9是在第195行，现在是

NUTCH_OPTS=($NUTCH_OPTS -Dhadoop.log.dir="$NUTCH_LOG_DIR" -Djsse.enableSNIExtension=false)

在那之后，爬行成功了，没有折断