Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/ssis/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
crawler4j-I can';我得不到头衔_Crawler4j_Html Title - Fatal编程技术网

crawler4j-I can';我得不到头衔

crawler4j-I can';我得不到头衔,crawler4j,html-title,Crawler4j,Html Title,简言之:我无法获取此URL的标题(该标题已被破坏(18-11-2015)) 在我的WebCrawler实现中: @覆盖 公众无效访问(第页){ System.out.println(page.getWebURL().getURL());//当它打印url时 if(page.getParseData()实例为HtmlParseData){ HtmlParseData HtmlParseData=(HtmlParseData)page.getParseData(); System.out.print

简言之:我无法获取此URL的标题(该标题已被破坏(18-11-2015))

在我的WebCrawler实现中:

@覆盖
公众无效访问(第页){
System.out.println(page.getWebURL().getURL());//当它打印url时
if(page.getParseData()实例为HtmlParseData){
HtmlParseData HtmlParseData=(HtmlParseData)page.getParseData();
System.out.println(htmlParseData.getTitle());//此行打印一个空行!
}
}
注意:标题本身包含一些逗号“,”。 你能提出一个解决方案吗? 这是虫子吗


提前感谢。

问题可能是HTML文档中有4个标题标记

我使用了Jsoup:

HtmlParseData htmlParseData = (HtmlParseData) page
                        .getParseData();
String html = htmlParseData.getHtml();
Document htmlDocument = Jsoup.parse(html);              
String title = htmlDocument.getElementsByTag("title").get(0).text();