从inputstream java读取html_Java_Html_Servlets

从inputstream java读取html

java html servlets

从inputstream java读取html,java,html,servlets,Java,Html,Servlets,我正在使用来自Javaservlet的inputstream读取html文件。但是原稿和阅读稿的内容格式不同虽然在web浏览器中显示时，它们是相同的。这是两个 html文件的链接读后输出原始输出阅读时有没有办法获得原始html？为什么会这样？我的java代码如下 InputStreamReader isr = new InputStreamReader(inputStream); BufferedReader br = new BufferedReader(isr);

我正在使用来自Javaservlet的inputstream读取html文件。但是原稿和阅读稿的内容格式不同虽然在web浏览器中显示时，它们是相同的。这是两个 html文件的链接读后输出原始输出阅读时有没有办法获得原始html？为什么会这样？我的java代码如下

InputStreamReader isr = new InputStreamReader(inputStream);
     BufferedReader br = new BufferedReader(isr);
     String line = null;
     while ( (line = br.readLine()) != null)
     {
      System.out.println(line);
}

任何帮助都将不胜感激

谢谢,，

rana.

我已经看到了这两个html文件。extracted.html显然有更多您似乎不感兴趣的标记/注释/css信息。因此，您剩下的唯一选择是使用下面的解析器之一，删除不需要的节点/属性（或者只提取您需要的）

不同格式的文件（名为

extracted.html

）显然是由Microsoft Word生成的

<html xmlns:v="urn:schemas-microsoft-com:vml"
      xmlns:o="urn:schemas-microsoft-com:office:office"
      xmlns:w="urn:schemas-microsoft-com:office:word"
      xmlns:m="http://schemas.microsoft.com/office/2004/12/omml"
      xmlns="http://www.w3.org/TR/REC-html40">

您的问题更多地出现在

InputStream

的源代码中，而不是Java或Servlet端。他们肯定不会在没有您干预的情况下随机更改

InputStream

的内容

您似乎正在使用MS Word作为HTML编辑器，您不应该这样做，因为它不适合您。而是使用基于文本的编辑器，如记事本、记事本++、Editplus等进行HTML编辑。

不同的格式是什么意思？HTML代码是不同的。不是来自浏览器的输出。您是否可以将代码粘贴到pastie.org或pastebin.com之类的网站上。我不愿意下载随机文件；）您好，我已经在原始html代码中添加了一个名为“template”的属性。但它没有在输出中表示。你知道为什么吗？