Java 如何基于html实体的可视表示(或者至少是接近html实体)获取页面的换行符?

Java 如何基于html实体的可视表示(或者至少是接近html实体)获取页面的换行符?,java,web-scraping,Java,Web Scraping,我有一个我确定为我感兴趣的领域的网页部分。它可能包含多个html标记,但我想将其解释为多行文本,或者至少尽可能接近浏览器呈现的方式 让我给你举个例子 <div> <p>Line 1<p> </div> <div><p>Line 2<p></div> <div><p>Line 3 <p></div> <p>Line 4<p><

我有一个我确定为我感兴趣的领域的网页部分。它可能包含多个html标记,但我想将其解释为多行文本,或者至少尽可能接近浏览器呈现的方式

让我给你举个例子

<div>
<p>Line 1<p>
</div>
<div><p>Line 2<p></div> <div><p>Line 3 <p></div>
<p>Line 4<p></div><br />Line 5
我想通过某种库运行原始html,并获得包含以下内容的文本或关闭:

Line 1
Line 2
Line 3
Line 4
Line 5
请注意,我不想恢复Html中的原始换行符。我希望将html实体解释为与浏览器呈现方式类似的换行符。有什么lib可以做到这一点吗?我使用了Jsoup,但它不解析html标记

编辑:对于linux用户,我希望得到类似的结果:

$ lynx -dump file.html > file.txt
默认情况下,HTML中的标记和标记周围有填充和边距块。所以很明显,这就是为什么浏览器呈现它的原样

创建CSS文件并禁用填充和边距间距


还有,为什么Java被标记?如果您在Java Servlet页面中执行此操作,请检查System.out.println语句。

先生,我认为您没有正确理解我的问题。里面有两个标签。这个问题的主要焦点是使用java进行web抓取,而不是web设计。
$ lynx -dump file.html > file.txt