如何在java中提取网页文本内容?

如何在java中提取网页文本内容?,java,Java,我正在寻找一种使用jdk或其他库从网页(最初是html)中提取文本的方法。请帮忙 谢谢如果可能的话,使用a;Java有许多可用的工具 或者你可以像很多人一样使用正则表达式。但是,这通常是不可取的,除非您正在进行非常简单的处理 相关问题 文本提取: 标签剥离: 使用。这是目前最优雅的屏幕抓取库 URL url = new URL("http://example.com/"); Document doc = Jsoup.parse(url, 3*1000); Strin

我正在寻找一种使用jdk或其他库从网页(最初是html)中提取文本的方法。请帮忙

谢谢

如果可能的话,使用a;Java有许多可用的工具

或者你可以像很多人一样使用正则表达式。但是,这通常是不可取的,除非您正在进行非常简单的处理

相关问题
文本提取:

标签剥离:

    • 使用。这是目前最优雅的屏幕抓取库

      URL url = new URL("http://example.com/");
      Document doc = Jsoup.parse(url, 3*1000);
      String title = doc.title();
      

      我很喜欢它。

      这里有一个简短的方法可以很好地包装这些细节(基于
      java.util.Scanner
      ):

      这就是它的使用方式:

      public static void main(String[] args) throws Exception {
         System.out.println(get("http://www.yahoo.com"));
      }
      
      最好的方法是使用“编译‘org.jsoup:jsoup:1.9.2’”
      public static void main(String[] args) throws Exception {
         System.out.println(get("http://www.yahoo.com"));
      }