Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/390.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/gwt/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java jericho html-文本提取和不正确的文本长度_Java_Gwt_Html Parsing_Jericho Html Parser - Fatal编程技术网

Java jericho html-文本提取和不正确的文本长度

Java jericho html-文本提取和不正确的文本长度,java,gwt,html-parsing,jericho-html-parser,Java,Gwt,Html Parsing,Jericho Html Parser,今天我试着用lib来。。。我面临一个奇怪的文本假长度问题,如下所示: 如果我有这个html Hello World :)<br><br>Hello World :(<br><br>Hello World ;)<br> 。。。text.length()返回44 所以我不明白为什么长度为42的文本会变成长度为44的文本,以及如何修复它 谢谢 < P>只有44,你需要把所有的标签作为一个字符,每个空间作为一个字符,每个笑脸作为一个字符。<

今天我试着用lib来。。。我面临一个奇怪的文本假长度问题,如下所示:

如果我有这个html

Hello World :)<br><br>Hello World :(<br><br>Hello World ;)<br>
。。。
text.length()
返回44

所以我不明白为什么长度为42的文本会变成长度为44的文本,以及如何修复它


谢谢

< P>只有44,你需要把所有的
标签作为一个字符,每个空间作为一个字符,每个笑脸作为一个字符。< /P>
H(1)e(2)l(3)l(4)o(5) (6)W(7)o(8)r(9)l(10)d(11) (12):)(13)<br>(14)<br>(15)H(16)e(17)l(18)l(19)o(20) (21)W(22)o(23)r(24)l(25)d(26) (27:((28)<br>(29)<br>(30)H(31)e(32)l(33)l(34)o(35) (36)W(37)o(38)r(39)l(40)d(41) (42);)(43)<br>(44)
H(1)e(2)l(3)l(4)o(5)(6)W(7)o(8)r(9)l(10)d(11)(12):(13)
(14)
(15)H(16)e(17)l(18)l(19)o(20)(21)W(22)o(23)r(24)l(25)d(26)(27:((28)H(31)e(32)l(33)l(34)o(35)(36)W(37)o)(44)(br>)
我不得不更深入地挖掘,我认为html换行符会导致错误的文本长度,因为jericho html解析器出于某种原因,用空格替换了新的换行符

至于现在,我不能确定它将替换哪些字符,但对于我的例子,我只是试着做一些像这样的漫游(参见代码片段)

html=html.replaceAll(“
”,”); 源代码=新源代码(html); String text=source.getTextExtractor().toString();
…所以现在它真正返回原始文本长度为42:)

我希望小费能节省一天



谢谢大家的帮助

不,事实上,我想在我提取的文本中有空格,没关系;我只想知道它的长度和原来的字符串一样。。。这就是我的问题
H(1)e(2)l(3)l(4)o(5) (6)W(7)o(8)r(9)l(10)d(11) (12):)(13)<br>(14)<br>(15)H(16)e(17)l(18)l(19)o(20) (21)W(22)o(23)r(24)l(25)d(26) (27:((28)<br>(29)<br>(30)H(31)e(32)l(33)l(34)o(35) (36)W(37)o(38)r(39)l(40)d(41) (42);)(43)<br>(44)
html=html.replaceAll("<br>","");

Source source = new Source(html);
String text = source.getTextExtractor().toString();