Java 我应该使用什么策略来解析此网页?

Java 我应该使用什么策略来解析此网页?,java,html,parsing,Java,Html,Parsing,我正在从事一个涉及SEC备案的项目。我想解析一个给定的10k文档,并获取“风险因素”部分的文本。下面是一个我用来测试的公司页面示例: 如何获取“风险因素”部分中的所有文本?我尝试了许多字符串方法,但都失败了,因为短语“Risk Factor”多次出现在我要分析的区域之前。我也尝试过解析html,但html没有提供唯一的标记或类,我无法使用jsoup等库。获取“项目1A”和“项目1B”之间的所有文本。@Michael-问题是,这两个词在此之前都出现过多次,特别是在索引中。我不想在解析之前硬编码我忽

我正在从事一个涉及SEC备案的项目。我想解析一个给定的10k文档,并获取“风险因素”部分的文本。下面是一个我用来测试的公司页面示例:


如何获取“风险因素”部分中的所有文本?我尝试了许多字符串方法,但都失败了,因为短语“Risk Factor”多次出现在我要分析的区域之前。我也尝试过解析html,但html没有提供唯一的标记或类,我无法使用jsoup等库。

获取“项目1A”和“项目1B”之间的所有文本。@Michael-问题是,这两个词在此之前都出现过多次,特别是在索引中。我不想在解析之前硬编码我忽略了多少“项目A”或“风险因素”。将有一个xpath表达式。只有一个
精确且仅包含
项目1A。风险因素
-并且只有一个
包含项目1b的标题。这就隔离了你感兴趣的部分。之后,也许可以使用类似的方法。