Java jericho html-文本提取和不正确的文本长度
今天我试着用lib来。。。我面临一个奇怪的文本假长度问题,如下所示: 如果我有这个htmlJava jericho html-文本提取和不正确的文本长度,java,gwt,html-parsing,jericho-html-parser,Java,Gwt,Html Parsing,Jericho Html Parser,今天我试着用lib来。。。我面临一个奇怪的文本假长度问题,如下所示: 如果我有这个html Hello World :)<br><br>Hello World :(<br><br>Hello World ;)<br> 。。。text.length()返回44 所以我不明白为什么长度为42的文本会变成长度为44的文本,以及如何修复它 谢谢 < P>只有44,你需要把所有的标签作为一个字符,每个空间作为一个字符,每个笑脸作为一个字符。<
Hello World :)<br><br>Hello World :(<br><br>Hello World ;)<br>
。。。text.length()
返回44
所以我不明白为什么长度为42的文本会变成长度为44的文本,以及如何修复它
谢谢
< P>只有44,你需要把所有的标签作为一个字符,每个空间作为一个字符,每个笑脸作为一个字符。< /P>
H(1)e(2)l(3)l(4)o(5) (6)W(7)o(8)r(9)l(10)d(11) (12):)(13)<br>(14)<br>(15)H(16)e(17)l(18)l(19)o(20) (21)W(22)o(23)r(24)l(25)d(26) (27:((28)<br>(29)<br>(30)H(31)e(32)l(33)l(34)o(35) (36)W(37)o(38)r(39)l(40)d(41) (42);)(43)<br>(44)
H(1)e(2)l(3)l(4)o(5)(6)W(7)o(8)r(9)l(10)d(11)(12):(13)
(14)
(15)H(16)e(17)l(18)l(19)o(20)(21)W(22)o(23)r(24)l(25)d(26)(27:((28)H(31)e(32)l(33)l(34)o(35)(36)W(37)o)(44)(br>)
我不得不更深入地挖掘,我认为html换行符会导致错误的文本长度,因为jericho html解析器出于某种原因,用空格替换了新的换行符
至于现在,我不能确定它将替换哪些字符,但对于我的例子,我只是试着做一些像这样的漫游(参见代码片段)
html=html.replaceAll(“
”,”);
源代码=新源代码(html);
String text=source.getTextExtractor().toString();
…所以现在它真正返回原始文本长度为42:)
我希望小费能节省一天
谢谢大家的帮助不,事实上,我想在我提取的文本中有空格,没关系;我只想知道它的长度和原来的字符串一样。。。这就是我的问题
H(1)e(2)l(3)l(4)o(5) (6)W(7)o(8)r(9)l(10)d(11) (12):)(13)<br>(14)<br>(15)H(16)e(17)l(18)l(19)o(20) (21)W(22)o(23)r(24)l(25)d(26) (27:((28)<br>(29)<br>(30)H(31)e(32)l(33)l(34)o(35) (36)W(37)o(38)r(39)l(40)d(41) (42);)(43)<br>(44)
html=html.replaceAll("<br>","");
Source source = new Source(html);
String text = source.getTextExtractor().toString();