如何在java中提取网页文本内容？_Java

如何在java中提取网页文本内容？

java

如何在java中提取网页文本内容？,java,Java,我正在寻找一种使用jdk或其他库从网页（最初是html）中提取文本的方法。请帮忙谢谢如果可能的话，使用a；Java有许多可用的工具或者你可以像很多人一样使用正则表达式。但是，这通常是不可取的，除非您正在进行非常简单的处理相关问题文本提取：标签剥离：使用。这是目前最优雅的屏幕抓取库 URL url = new URL("http://example.com/"); Document doc = Jsoup.parse(url, 3*1000); Strin

我正在寻找一种使用jdk或其他库从网页（最初是html）中提取文本的方法。请帮忙

谢谢

如果可能的话，使用a；Java有许多可用的工具

或者你可以像很多人一样使用正则表达式。但是，这通常是不可取的，除非您正在进行非常简单的处理

相关问题

文本提取：

标签剥离：

URL url = new URL("http://example.com/");
Document doc = Jsoup.parse(url, 3*1000);
String title = doc.title();

java.util.Scanner

public static void main(String[] args) throws Exception {
   System.out.println(get("http://www.yahoo.com"));
}

public static void main(String[] args) throws Exception {
   System.out.println(get("http://www.yahoo.com"));
}