Java 从html源中提取电子邮件地址
我从网页中提取了html源代码,想知道如何从该源代码中提取电子邮件地址之类的文本。我正在考虑使用jsoup,比如Java 从html源中提取电子邮件地址,java,html,email,extract,Java,Html,Email,Extract,我从网页中提取了html源代码,想知道如何从该源代码中提取电子邮件地址之类的文本。我正在考虑使用jsoup,比如 public static String html2text(String html) { return Jsoup.parse(html).text(); } 但是这也会给我带来很多不需要的文本。你可以去掉所有标签(除非邮件在标签内)。然后应用正则表达式或检查每个单词是否与电子邮件模式匹配。我通常将它标记为电子邮件,如果它在单词内部包含@,并且在单词后面找到。根据标准电子
public static String html2text(String html) {
return Jsoup.parse(html).text();
}
但是这也会给我带来很多不需要的文本。你可以去掉所有标签(除非邮件在标签内)。然后应用正则表达式或检查每个单词是否与电子邮件模式匹配。我通常将它标记为电子邮件,如果它在单词内部包含
@
,并且在单词后面找到
。根据标准电子邮件格式,许多电子邮件将不匹配(例如,“你好world@domain.com“
)。是电子邮件支持@
前面的空格字符 正如Shiplu所说,我认为最好的解决方案是使用正则表达式,如果您使用的是Java,请查看模式和Matcher类。我猜您使用的是Java,但您没有在问题中标记它。您还可以使用javascript/jquery吗?使用正则表达式非常简单,但我对Java没有经验,我正在使用Java。忘了提那件事了。