Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/html/90.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 从html源中提取电子邮件地址_Java_Html_Email_Extract - Fatal编程技术网

Java 从html源中提取电子邮件地址

Java 从html源中提取电子邮件地址,java,html,email,extract,Java,Html,Email,Extract,我从网页中提取了html源代码,想知道如何从该源代码中提取电子邮件地址之类的文本。我正在考虑使用jsoup,比如 public static String html2text(String html) { return Jsoup.parse(html).text(); } 但是这也会给我带来很多不需要的文本。你可以去掉所有标签(除非邮件在标签内)。然后应用正则表达式或检查每个单词是否与电子邮件模式匹配。我通常将它标记为电子邮件,如果它在单词内部包含@,并且在单词后面找到。根据标准电子

我从网页中提取了html源代码,想知道如何从该源代码中提取电子邮件地址之类的文本。我正在考虑使用jsoup,比如

public static String html2text(String html) {
    return Jsoup.parse(html).text();
}

但是这也会给我带来很多不需要的文本。

你可以去掉所有标签(除非邮件在标签内)。然后应用正则表达式或检查每个单词是否与电子邮件模式匹配。我通常将它标记为电子邮件,如果它在单词内部包含
@
,并且在单词后面找到
。根据标准电子邮件格式,许多电子邮件将不匹配(例如,
“你好world@domain.com“
)。是电子邮件支持
@
前面的空格字符

正如Shiplu所说,我认为最好的解决方案是使用正则表达式,如果您使用的是Java,请查看模式和Matcher类。

我猜您使用的是Java,但您没有在问题中标记它。您还可以使用javascript/jquery吗?使用正则表达式非常简单,但我对Java没有经验,我正在使用Java。忘了提那件事了。