Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/389.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 如何使用Jsoup获取Gzip html文件?_Java_Jsoup - Fatal编程技术网

Java 如何使用Jsoup获取Gzip html文件?

Java 如何使用Jsoup获取Gzip html文件?,java,jsoup,Java,Jsoup,我试图从html文件中获取内容,该文件位于html.gz文件中。 当我尝试使用Jsoup点击URL时,我得到: 线程“main”java.io.EOFException中出现异常:异常结束 ZLIB输入流在 InflaterInputStream.fill(InflaterInputStream.java:240) 在 java.util.zip.InflaterInputStream.read(InflaterInputStream.java:158) 在java.util.zip.GZIPI

我试图从html文件中获取内容,该文件位于html.gz文件中。 当我尝试使用Jsoup点击URL时,我得到:

线程“main”java.io.EOFException中出现异常:异常结束 ZLIB输入流在 InflaterInputStream.fill(InflaterInputStream.java:240) 在 java.util.zip.InflaterInputStream.read(InflaterInputStream.java:158) 在java.util.zip.GZIPInputStream.read(GZIPInputStream.java:116)处 java.io.BufferedInputStream.read1(BufferedInputStream.java:273)位于 java.io.BufferedInputStream.read(BufferedInputStream.java:334)位于 java.io.FilterInputStream.read(FilterInputStream.java:107)位于 org.jsoup.helper.DataUtil.readToByteBuffer(DataUtil.java:154)位于 org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:560) 在 org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:493) 位于org.jsoup.helper.HttpConnection.execute(HttpConnection.java:205) 位于org.jsoup.helper.HttpConnection.get(HttpConnection.java:194) org.jsoup.jsoup.parse(jsoup.java:183)

我的代码如下所示:

Document doc= Jsoup.connect("http://XXXXXXX_BIZ_Jun17_10:02:17.html.gz").get();
第一步 尝试手动下载压缩文件。然后尝试用7zip之类的工具打开它。通过这种方式,您可以确定html.gz文件是否有效

  • 如果文件无效,则Jsoup不是罪魁祸首,停止

  • 如果文件有效,请跳到步骤2

步骤2 启动您喜爱的浏览器,并在“网络”选项卡上打开其开发人员控制台。下载html.gz文件并观察浏览器交换的标题。 将可能遗漏的标题添加到代码中。

步骤1 尝试手动下载压缩文件。然后尝试用7zip之类的工具打开它。通过这种方式,您可以确定html.gz文件是否有效

  • 如果文件无效,则Jsoup不是罪魁祸首,停止

  • 如果文件有效,请跳到步骤2

步骤2 启动您喜爱的浏览器,并在“网络”选项卡上打开其开发人员控制台。下载html.gz文件并观察浏览器交换的标题。
将您可能遗漏的标题添加到代码中。

类似于:另请检查:我已经检查了两个链接。这没用。正如他所建议的,我设置了内容类型,但其工作原理与:也检查:我已经检查了两个链接。这没用。正如他所建议的,我设置了内容类型,但其工作原理与:也检查:我已经检查了两个链接。这没用。正如他所建议的,我设置了内容类型,但它不起作用