Java 如何基于html实体的可视表示（或者至少是接近html实体）获取页面的换行符？_Java_Web Scraping

Java 如何基于html实体的可视表示（或者至少是接近html实体）获取页面的换行符？

java web-scraping

Java 如何基于html实体的可视表示（或者至少是接近html实体）获取页面的换行符？,java,web-scraping,Java,Web Scraping,我有一个我确定为我感兴趣的领域的网页部分。它可能包含多个html标记，但我想将其解释为多行文本，或者至少尽可能接近浏览器呈现的方式让我给你举个例子 <div> <p>Line 1<p> </div> <div><p>Line 2<p></div> <div><p>Line 3 <p></div> <p>Line 4<p><

我有一个我确定为我感兴趣的领域的网页部分。它可能包含多个html标记，但我想将其解释为多行文本，或者至少尽可能接近浏览器呈现的方式

让我给你举个例子

<div>
<p>Line 1<p>
</div>
<div><p>Line 2<p></div> <div><p>Line 3 <p></div>
<p>Line 4<p></div><br />Line 5

我想通过某种库运行原始html，并获得包含以下内容的文本或关闭：

Line 1
Line 2
Line 3
Line 4
Line 5

请注意，我不想恢复Html中的原始换行符。我希望将html实体解释为与浏览器呈现方式类似的换行符。有什么lib可以做到这一点吗？我使用了Jsoup，但它不解析html标记

编辑：对于linux用户，我希望得到类似的结果：

$ lynx -dump file.html > file.txt

默认情况下，HTML中的标记和标记周围有填充和边距块。所以很明显，这就是为什么浏览器呈现它的原样

创建CSS文件并禁用填充和边距间距

还有，为什么Java被标记？如果您在Java Servlet页面中执行此操作，请检查System.out.println语句。

先生，我认为您没有正确理解我的问题。里面有两个标签。这个问题的主要焦点是使用java进行web抓取，而不是web设计。

$ lynx -dump file.html > file.txt