从inputstream java读取html

从inputstream java读取html,java,html,servlets,Java,Html,Servlets,我正在使用来自Javaservlet的inputstream读取html文件。 但是原稿和阅读稿的内容格式不同 虽然在web浏览器中显示时,它们是相同的。这是两个 html文件的链接 读后输出 原始输出 阅读时有没有办法获得原始html?为什么会这样? 我的java代码如下 InputStreamReader isr = new InputStreamReader(inputStream); BufferedReader br = new BufferedReader(isr);

我正在使用来自Javaservlet的inputstream读取html文件。 但是原稿和阅读稿的内容格式不同 虽然在web浏览器中显示时,它们是相同的。这是两个 html文件的链接 读后输出 原始输出 阅读时有没有办法获得原始html?为什么会这样? 我的java代码如下

InputStreamReader isr = new InputStreamReader(inputStream);
     BufferedReader br = new BufferedReader(isr);
     String line = null;
     while ( (line = br.readLine()) != null)
     {
      System.out.println(line);
}
任何帮助都将不胜感激

谢谢,,
rana.

我已经看到了这两个html文件。extracted.html显然有更多您似乎不感兴趣的标记/注释/css信息。因此,您剩下的唯一选择是使用下面的解析器之一,删除不需要的节点/属性(或者只提取您需要的)


  • 不同格式的文件(名为
    extracted.html
    )显然是由Microsoft Word生成的

    <html xmlns:v="urn:schemas-microsoft-com:vml"
          xmlns:o="urn:schemas-microsoft-com:office:office"
          xmlns:w="urn:schemas-microsoft-com:office:word"
          xmlns:m="http://schemas.microsoft.com/office/2004/12/omml"
          xmlns="http://www.w3.org/TR/REC-html40">
    
    
    
    您的问题更多地出现在
    InputStream
    的源代码中,而不是Java或Servlet端。他们肯定不会在没有您干预的情况下随机更改
    InputStream
    的内容


    您似乎正在使用MS Word作为HTML编辑器,您不应该这样做,因为它不适合您。而是使用基于文本的编辑器,如记事本、记事本++、Editplus等进行HTML编辑。

    不同的格式是什么意思?HTML代码是不同的。不是来自浏览器的输出。您是否可以将代码粘贴到pastie.org或pastebin.com之类的网站上。我不愿意下载随机文件;)您好,我已经在原始html代码中添加了一个名为“template”的属性。但它没有在输出中表示。你知道为什么吗?