Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/html/85.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
使用java逐行读取html文件_Java_Html - Fatal编程技术网

使用java逐行读取html文件

使用java逐行读取html文件,java,html,Java,Html,我想逐行读取html文件,需要存储元素。对于textbox,我必须将id、名称、类型属性值存储到某个集合中。同样,我需要获得复选框、radiobox等的属性 它们是否有任何API来逐行解析html文件。没有,因为这没有意义:html没有有用的“行”概念。您需要做的是逐元素读取HTML XML有很多解析器,但HTML更为宽松,因此需要一个特殊的解析器。试试。是您可以使用的众多html解析器之一。您可以使用DOM解析器来读取所有元素和属性。或者可以使用基于DOM解析器的库() 使用类 在尝试用任何东

我想逐行读取html文件,需要存储元素。对于textbox,我必须将id、名称、类型属性值存储到某个集合中。同样,我需要获得复选框、radiobox等的属性


它们是否有任何API来逐行解析html文件。

没有,因为这没有意义:html没有有用的“行”概念。您需要做的是逐元素读取HTML


XML有很多解析器,但HTML更为宽松,因此需要一个特殊的解析器。试试。

是您可以使用的众多html解析器之一。

您可以使用DOM解析器来读取所有元素和属性。或者可以使用基于DOM解析器的库()

使用类


在尝试用任何东西解析HTML之前,请看一下这里的首要答案:看看这个,我会推荐jsoup,它简单易用,有很好的文档+1使用类似“doc.getElementsByTag(“输入”)的jsoup读取输入元素。通过使用它,我能够读取属性值。但问题是,我不应该硬编码“input”或“form”或“textarea”。
 StringBuilder contentBuilder = new StringBuilder();
 try {
      BufferedReader in = new BufferedReader(new FileReader("mypage.html"));
      String str;
      while ((str = in.readLine()) != null) {
          contentBuilder.append(str);
      }
      in.close();
 } catch (IOException e) {
      System.err.println("HTML File Read Error: " + e.getMessage());
 }
 String content = contentBuilder.toString();