Java 解析html文档中的数据(<;meta property=&#x27;ABC';content=";DEF";/>;)

Java 解析html文档中的数据(<;meta property=&#x27;ABC';content=";DEF";/>;),java,html,parsing,meta,Java,Html,Parsing,Meta,如何解析网站中特定于java的文本?例如,如果站点的网页中有此项:。我想搜索“ABC”和“DEF”。我怎样才能生成这样的函数?我没有html方面的经验,也没有解析信息的经验 谢谢我喜欢它,因为它增加了很多不错的功能 JSoup负责大量文档的提取,如果您希望提取信息,可以使用CSS选择器访问页面中的元素 至于对元标记的支持,我无法编写任何测试代码,但堆栈溢出(on-stack overflow)对此进行了讨论。我不太会使用Java,但这听起来是一个使用正则表达式的好地方。 对于像这样的简单文本搜索

如何解析网站中特定于java的文本?例如,如果站点的网页中有此项:
。我想搜索“ABC”和“DEF”。我怎样才能生成这样的函数?我没有html方面的经验,也没有解析信息的经验

谢谢

我喜欢它,因为它增加了很多不错的功能

JSoup负责大量文档的提取,如果您希望提取信息,可以使用CSS选择器访问页面中的元素


至于对元标记的支持,我无法编写任何测试代码,但堆栈溢出(on-stack overflow)对此进行了讨论。

我不太会使用Java,但这听起来是一个使用正则表达式的好地方。 对于像这样的简单文本搜索,它非常简单。要搜索“ABC”,只需使用regex
ABC
。您可以使用类似于
ABC | DEF
的内容搜索“ABC”或“DEF”的实例。我不确定你到底想要什么,但如果你澄清一下,我可以提供更多帮助

Java有一些类来计算这些表达式,就像大多数编程语言一样

import java.util.regex.Pattern

import java.util.regex.Matcher

有关如何使用这些函数的信息,请参阅它提供了几乎所有您需要的信息,包括理解正则表达式的信息

要详细了解正则表达式语法,请执行以下操作:


通过字符串搜索模式还有其他方法,但正则表达式在所有语言中都是统一的,并且随着您查找的模式变得越来越复杂,正则表达式变得越来越有用。

您可以尝试我在这个网站上使用的Java库jsoup:。但它不能识别元标记。另外,看看嗨,我想我已经用了这样的东西,我会在完成后发布我所做的!谢谢:)