从inputstream java读取html
我正在使用来自Javaservlet的inputstream读取html文件。 但是原稿和阅读稿的内容格式不同 虽然在web浏览器中显示时,它们是相同的。这是两个 html文件的链接 读后输出 原始输出 阅读时有没有办法获得原始html?为什么会这样? 我的java代码如下从inputstream java读取html,java,html,servlets,Java,Html,Servlets,我正在使用来自Javaservlet的inputstream读取html文件。 但是原稿和阅读稿的内容格式不同 虽然在web浏览器中显示时,它们是相同的。这是两个 html文件的链接 读后输出 原始输出 阅读时有没有办法获得原始html?为什么会这样? 我的java代码如下 InputStreamReader isr = new InputStreamReader(inputStream); BufferedReader br = new BufferedReader(isr);
InputStreamReader isr = new InputStreamReader(inputStream);
BufferedReader br = new BufferedReader(isr);
String line = null;
while ( (line = br.readLine()) != null)
{
System.out.println(line);
}
任何帮助都将不胜感激
谢谢,,
rana.我已经看到了这两个html文件。extracted.html显然有更多您似乎不感兴趣的标记/注释/css信息。因此,您剩下的唯一选择是使用下面的解析器之一,删除不需要的节点/属性(或者只提取您需要的)
不同格式的文件(名为
extracted.html
)显然是由Microsoft Word生成的
<html xmlns:v="urn:schemas-microsoft-com:vml"
xmlns:o="urn:schemas-microsoft-com:office:office"
xmlns:w="urn:schemas-microsoft-com:office:word"
xmlns:m="http://schemas.microsoft.com/office/2004/12/omml"
xmlns="http://www.w3.org/TR/REC-html40">
您的问题更多地出现在InputStream
的源代码中,而不是Java或Servlet端。他们肯定不会在没有您干预的情况下随机更改InputStream
的内容
您似乎正在使用MS Word作为HTML编辑器,您不应该这样做,因为它不适合您。而是使用基于文本的编辑器,如记事本、记事本++、Editplus等进行HTML编辑。不同的格式是什么意思?HTML代码是不同的。不是来自浏览器的输出。您是否可以将代码粘贴到pastie.org或pastebin.com之类的网站上。我不愿意下载随机文件;)您好,我已经在原始html代码中添加了一个名为“template”的属性。但它没有在输出中表示。你知道为什么吗?