Java 获取html文档中包含word的节点

Java 获取html文档中包含word的节点,java,c++,python,c,parsing,Java,C++,Python,C,Parsing,我想写一个脚本来检查 用于关键字的文档,并指定包含这些关键字的html文档节点(可能是 分配唯一标识符) 我不是一个专业的程序员,也不知道低级语言的力量​​还有像巴解组织这样的事情。。我害怕做一些非常糟糕的事,而且没有人支持 如何隔离所需的节点 我的经验-js和php-php只适用于非常简单的事情。还有,我 不想利用这个机会工作 使用js节点。我的想法: 生成html字符串的步骤 验证页面上的单词是否存在 如果页面上的单词存在:body元素中的foreach节点我得到第一个和最后一个位置 (例

我想写一个脚本来检查 用于关键字的文档,并指定包含这些关键字的html文档节点(可能是 分配唯一标识符)

我不是一个专业的程序员,也不知道低级语言的力量​​还有像巴解组织这样的事情。。我害怕做一些非常糟糕的事,而且没有人支持

如何隔离所需的节点

我的经验-js和php-php只适用于非常简单的事情。还有,我 不想利用这个机会工作 使用js节点。我的想法:

  • 生成html字符串的步骤
  • 验证页面上的单词是否存在
  • 如果页面上的单词存在:body元素中的foreach节点我得到第一个和最后一个位置 (例如,我们看到最初知道的每个字符的开头标记。) 位置,因此我们计算第一个 标记打开的位置和最后关闭的位置(对于所有节点,依此类推)
我们知道这个词的位置(如192, 199)并检查它的范围(在此 例如,这些带区-节点(html文档)

我需要有经验的程序员的想法。 你说什么语言并不重要 编程(面向web的除外)- 每个意见对我都很重要。很可能 有一些库可以解决这些问题 问题。我非常希望你会 理解我。英语不是我的母语
语言。

您需要使用html解析器。提及

在这之后,您需要使用xpath特性来提取任何节点。

我一直建议您这样做。它是一个Python库,允许您非常快速地解析XML/HTML文档。您可以很快地运行一些东西,从我认为的每个div元素中提取文本。然后使用Pythons内置的字符串操作工具,我相信搜索特定的单词会相当简单