使用java逐行读取html文件
我想逐行读取html文件,需要存储元素。对于textbox,我必须将id、名称、类型属性值存储到某个集合中。同样,我需要获得复选框、radiobox等的属性使用java逐行读取html文件,java,html,Java,Html,我想逐行读取html文件,需要存储元素。对于textbox,我必须将id、名称、类型属性值存储到某个集合中。同样,我需要获得复选框、radiobox等的属性 它们是否有任何API来逐行解析html文件。没有,因为这没有意义:html没有有用的“行”概念。您需要做的是逐元素读取HTML XML有很多解析器,但HTML更为宽松,因此需要一个特殊的解析器。试试。是您可以使用的众多html解析器之一。您可以使用DOM解析器来读取所有元素和属性。或者可以使用基于DOM解析器的库() 使用类 在尝试用任何东
它们是否有任何API来逐行解析html文件。没有,因为这没有意义:html没有有用的“行”概念。您需要做的是逐元素读取HTML
XML有很多解析器,但HTML更为宽松,因此需要一个特殊的解析器。试试。是您可以使用的众多html解析器之一。您可以使用DOM解析器来读取所有元素和属性。或者可以使用基于DOM解析器的库() 使用类
在尝试用任何东西解析HTML之前,请看一下这里的首要答案:看看这个,我会推荐jsoup,它简单易用,有很好的文档+1使用类似“doc.getElementsByTag(“输入”)的jsoup读取输入元素。通过使用它,我能够读取属性值。但问题是,我不应该硬编码“input”或“form”或“textarea”。
StringBuilder contentBuilder = new StringBuilder();
try {
BufferedReader in = new BufferedReader(new FileReader("mypage.html"));
String str;
while ((str = in.readLine()) != null) {
contentBuilder.append(str);
}
in.close();
} catch (IOException e) {
System.err.println("HTML File Read Error: " + e.getMessage());
}
String content = contentBuilder.toString();