Java 获取html文档中包含word的节点
我想写一个脚本来检查 用于关键字的文档,并指定包含这些关键字的html文档节点(可能是 分配唯一标识符) 我不是一个专业的程序员,也不知道低级语言的力量还有像巴解组织这样的事情。。我害怕做一些非常糟糕的事,而且没有人支持 如何隔离所需的节点 我的经验-js和php-php只适用于非常简单的事情。还有,我 不想利用这个机会工作 使用js节点。我的想法:Java 获取html文档中包含word的节点,java,c++,python,c,parsing,Java,C++,Python,C,Parsing,我想写一个脚本来检查 用于关键字的文档,并指定包含这些关键字的html文档节点(可能是 分配唯一标识符) 我不是一个专业的程序员,也不知道低级语言的力量还有像巴解组织这样的事情。。我害怕做一些非常糟糕的事,而且没有人支持 如何隔离所需的节点 我的经验-js和php-php只适用于非常简单的事情。还有,我 不想利用这个机会工作 使用js节点。我的想法: 生成html字符串的步骤 验证页面上的单词是否存在 如果页面上的单词存在:body元素中的foreach节点我得到第一个和最后一个位置 (例
- 生成html字符串的步骤
- 验证页面上的单词是否存在
- 如果页面上的单词存在:body元素中的foreach节点我得到第一个和最后一个位置 (例如,我们看到最初知道的每个字符的开头标记。) 位置,因此我们计算第一个 标记打开的位置和最后关闭的位置(对于所有节点,依此类推)
语言。您需要使用html解析器。提及 在这之后,您需要使用xpath特性来提取任何节点。我一直建议您这样做。它是一个Python库,允许您非常快速地解析XML/HTML文档。您可以很快地运行一些东西,从我认为的每个div元素中提取文本。然后使用Pythons内置的字符串操作工具,我相信搜索特定的单词会相当简单