Java jericho html-文本提取和不正确的文本长度_Java_Gwt_Html Parsing_Jericho Html Parser

Java jericho html-文本提取和不正确的文本长度

java gwt

Java jericho html-文本提取和不正确的文本长度,java,gwt,html-parsing,jericho-html-parser,Java,Gwt,Html Parsing,Jericho Html Parser,今天我试着用lib来。。。我面临一个奇怪的文本假长度问题，如下所示：如果我有这个html Hello World :) Hello World :( Hello World ;) 。。。text.length（）返回44 所以我不明白为什么长度为42的文本会变成长度为44的文本，以及如何修复它谢谢 只有44，你需要把所有的标签作为一个字符，每个空间作为一个字符，每个笑脸作为一个字符。<

今天我试着用lib来。。。我面临一个奇怪的文本假长度问题，如下所示：

如果我有这个html

Hello World :)<br><br>Hello World :(<br><br>Hello World ;)<br>

。。。

text.length（）

返回44

所以我不明白为什么长度为42的文本会变成长度为44的文本，以及如何修复它

谢谢

只有44，你需要把所有的
标签作为一个字符，每个空间作为一个字符，每个笑脸作为一个字符。

H(1)e(2)l(3)l(4)o(5) (6)W(7)o(8)r(9)l(10)d(11) (12):)(13)<br>(14)<br>(15)H(16)e(17)l(18)l(19)o(20) (21)W(22)o(23)r(24)l(25)d(26) (27:((28)<br>(29)<br>(30)H(31)e(32)l(33)l(34)o(35) (36)W(37)o(38)r(39)l(40)d(41) (42);)(43)<br>(44)

H（1）e（2）l（3）l（4）o（5）（6）W（7）o（8）r（9）l（10）d（11）（12）：（13）
（14）
（15）H（16）e（17）l（18）l（19）o（20）（21）W（22）o（23）r（24）l（25）d（26）（27:（（28）H（31）e（32）l（33）l（34）o（35）（36）W（37）o）（44）（br>）

我不得不更深入地挖掘，我认为html换行符会导致错误的文本长度，因为jericho html解析器出于某种原因，用空格替换了新的换行符
至于现在，我不能确定它将替换哪些字符，但对于我的例子，我只是试着做一些像这样的漫游（参见代码片段）

html=html.replaceAll（“ ”，”）；源代码=新源代码（html）； String text=source.getTextExtractor（）.toString（）；
…所以现在它真正返回原始文本长度为42：）
我希望小费能节省一天

谢谢大家的帮助
不，事实上，我想在我提取的文本中有空格，没关系；我只想知道它的长度和原来的字符串一样。。。这就是我的问题
H(1)e(2)l(3)l(4)o(5) (6)W(7)o(8)r(9)l(10)d(11) (12):)(13) (14) (15)H(16)e(17)l(18)l(19)o(20) (21)W(22)o(23)r(24)l(25)d(26) (27:((28) (29) (30)H(31)e(32)l(33)l(34)o(35) (36)W(37)o(38)r(39)l(40)d(41) (42);)(43) (44)

html=html.replaceAll(" ",""); Source source = new Source(html); String text = source.getTextExtractor().toString();