Java 如何使用Jsoup获取Gzip html文件?
我试图从html文件中获取内容,该文件位于html.gz文件中。 当我尝试使用Jsoup点击URL时,我得到: 线程“main”java.io.EOFException中出现异常:异常结束 ZLIB输入流在 InflaterInputStream.fill(InflaterInputStream.java:240) 在 java.util.zip.InflaterInputStream.read(InflaterInputStream.java:158) 在java.util.zip.GZIPInputStream.read(GZIPInputStream.java:116)处 java.io.BufferedInputStream.read1(BufferedInputStream.java:273)位于 java.io.BufferedInputStream.read(BufferedInputStream.java:334)位于 java.io.FilterInputStream.read(FilterInputStream.java:107)位于 org.jsoup.helper.DataUtil.readToByteBuffer(DataUtil.java:154)位于 org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:560) 在 org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:493) 位于org.jsoup.helper.HttpConnection.execute(HttpConnection.java:205) 位于org.jsoup.helper.HttpConnection.get(HttpConnection.java:194) org.jsoup.jsoup.parse(jsoup.java:183) 我的代码如下所示:Java 如何使用Jsoup获取Gzip html文件?,java,jsoup,Java,Jsoup,我试图从html文件中获取内容,该文件位于html.gz文件中。 当我尝试使用Jsoup点击URL时,我得到: 线程“main”java.io.EOFException中出现异常:异常结束 ZLIB输入流在 InflaterInputStream.fill(InflaterInputStream.java:240) 在 java.util.zip.InflaterInputStream.read(InflaterInputStream.java:158) 在java.util.zip.GZIPI
Document doc= Jsoup.connect("http://XXXXXXX_BIZ_Jun17_10:02:17.html.gz").get();
第一步
尝试手动下载压缩文件。然后尝试用7zip之类的工具打开它。通过这种方式,您可以确定html.gz文件是否有效
- 如果文件无效,则Jsoup不是罪魁祸首,停止
- 如果文件有效,请跳到步骤2
- 如果文件无效,则Jsoup不是罪魁祸首,停止
- 如果文件有效,请跳到步骤2
将您可能遗漏的标题添加到代码中。类似于:另请检查:我已经检查了两个链接。这没用。正如他所建议的,我设置了内容类型,但其工作原理与:也检查:我已经检查了两个链接。这没用。正如他所建议的,我设置了内容类型,但其工作原理与:也检查:我已经检查了两个链接。这没用。正如他所建议的,我设置了内容类型,但它不起作用