crawler4j-I can'；我得不到头衔_Crawler4j_Html Title

crawler4j-I can'；我得不到头衔

crawler4j-I can'；我得不到头衔,crawler4j,html-title,Crawler4j,Html Title,简言之：我无法获取此URL的标题（该标题已被破坏（18-11-2015））在我的WebCrawler实现中： @覆盖公众无效访问（第页）{ System.out.println（page.getWebURL（）.getURL（））；//当它打印url时 if（page.getParseData（）实例为HtmlParseData）{ HtmlParseData HtmlParseData=（HtmlParseData）page.getParseData（）； System.out.print

简言之：我无法获取此URL的标题（该标题已被破坏（18-11-2015））

在我的WebCrawler实现中：

@覆盖
公众无效访问（第页）{
System.out.println（page.getWebURL（）.getURL（））；//当它打印url时
if（page.getParseData（）实例为HtmlParseData）{
HtmlParseData HtmlParseData=（HtmlParseData）page.getParseData（）；
System.out.println（htmlParseData.getTitle（））；//此行打印一个空行！
}
}

注意：标题本身包含一些逗号“，”。你能提出一个解决方案吗？这是虫子吗

提前感谢。

问题可能是HTML文档中有4个标题标记

我使用了Jsoup：

HtmlParseData htmlParseData = (HtmlParseData) page
                        .getParseData();
String html = htmlParseData.getHtml();
Document htmlDocument = Jsoup.parse(html);              
String title = htmlDocument.getElementsByTag("title").get(0).text();