crawler4j-I can';我得不到头衔
简言之:我无法获取此URL的标题(该标题已被破坏(18-11-2015)) 在我的WebCrawler实现中:crawler4j-I can';我得不到头衔,crawler4j,html-title,Crawler4j,Html Title,简言之:我无法获取此URL的标题(该标题已被破坏(18-11-2015)) 在我的WebCrawler实现中: @覆盖 公众无效访问(第页){ System.out.println(page.getWebURL().getURL());//当它打印url时 if(page.getParseData()实例为HtmlParseData){ HtmlParseData HtmlParseData=(HtmlParseData)page.getParseData(); System.out.print
@覆盖
公众无效访问(第页){
System.out.println(page.getWebURL().getURL());//当它打印url时
if(page.getParseData()实例为HtmlParseData){
HtmlParseData HtmlParseData=(HtmlParseData)page.getParseData();
System.out.println(htmlParseData.getTitle());//此行打印一个空行!
}
}
注意:标题本身包含一些逗号“,”。
你能提出一个解决方案吗?
这是虫子吗
提前感谢。问题可能是HTML文档中有4个标题标记 我使用了Jsoup:
HtmlParseData htmlParseData = (HtmlParseData) page
.getParseData();
String html = htmlParseData.getHtml();
Document htmlDocument = Jsoup.parse(html);
String title = htmlDocument.getElementsByTag("title").get(0).text();