Java 我应该使用什么策略来解析此网页？_Java_Html_Parsing

Java 我应该使用什么策略来解析此网页？

java html parsing

Java 我应该使用什么策略来解析此网页？,java,html,parsing,Java,Html,Parsing,我正在从事一个涉及SEC备案的项目。我想解析一个给定的10k文档，并获取“风险因素”部分的文本。下面是一个我用来测试的公司页面示例：如何获取“风险因素”部分中的所有文本？我尝试了许多字符串方法，但都失败了，因为短语“Risk Factor”多次出现在我要分析的区域之前。我也尝试过解析html，但html没有提供唯一的标记或类，我无法使用jsoup等库。获取“项目1A”和“项目1B”之间的所有文本。@Michael-问题是，这两个词在此之前都出现过多次，特别是在索引中。我不想在解析之前硬编码我忽

我正在从事一个涉及SEC备案的项目。我想解析一个给定的10k文档，并获取“风险因素”部分的文本。下面是一个我用来测试的公司页面示例：

如何获取“风险因素”部分中的所有文本？我尝试了许多字符串方法，但都失败了，因为短语“Risk Factor”多次出现在我要分析的区域之前。我也尝试过解析html，但html没有提供唯一的标记或类，我无法使用jsoup等库。

获取“项目1A”和“项目1B”之间的所有文本。@Michael-问题是，这两个词在此之前都出现过多次，特别是在索引中。我不想在解析之前硬编码我忽略了多少“项目A”或“风险因素”。将有一个xpath表达式。只有一个

精确且仅包含

项目1A。风险因素

-并且只有一个

包含项目1b的标题。这就隔离了你感兴趣的部分。之后，也许可以使用类似的方法。