Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/328.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
java.io.IOException:错误:文件结束,PDFBox预期有行问题_Java_Selenium Webdriver_Pdfbox - Fatal编程技术网

java.io.IOException:错误:文件结束,PDFBox预期有行问题

java.io.IOException:错误:文件结束,PDFBox预期有行问题,java,selenium-webdriver,pdfbox,Java,Selenium Webdriver,Pdfbox,我正在尝试从浏览器中打开的PDF中读取PDF文本 单击“打印”按钮后,以下URL将在新选项卡中打开 https://myappurl.com/employees/2Jb_rpRC710XGvs8xHSOmHE9_LGkL97j/details/listprint.pdf?ids%5B%5D=2Jb_rpRC711lmIvMaBdxnzJj_ZfipcXW 我已经对其他网址执行了相同的程序,并发现工作正常。我使用了与这里相同的代码 我正在使用以下版本的PDFBox <depende

我正在尝试从浏览器中打开的PDF中读取PDF文本

单击“打印”按钮后,以下URL将在新选项卡中打开

https://myappurl.com/employees/2Jb_rpRC710XGvs8xHSOmHE9_LGkL97j/details/listprint.pdf?ids%5B%5D=2Jb_rpRC711lmIvMaBdxnzJj_ZfipcXW
我已经对其他网址执行了相同的程序,并发现工作正常。我使用了与这里相同的代码

我正在使用以下版本的PDFBox

    <dependency>
    <groupId>org.apache.pdfbox</groupId>
    <artifactId>pdfbox</artifactId>
    <version>1.8.9</version>
</dependency>
<dependency>
<dependency>
    <groupId>org.apache.pdfbox</groupId>
    <artifactId>fontbox</artifactId>
    <version>1.8.9</version>
</dependency>
下面是我得到的异常的堆栈跟踪

java.io.IOException: Error: End-of-File, expected line
at org.apache.pdfbox.pdfparser.BaseParser.readLine(BaseParser.java:1517)
at org.apache.pdfbox.pdfparser.PDFParser.parseHeader(PDFParser.java:372)
at org.apache.pdfbox.pdfparser.PDFParser.parse(PDFParser.java:186)
at com.kareo.utils.PDFManager.getPDFContent(PDFManager.java:26)
正在更新在URL和文件处调试时拍摄的图像。
请帮帮我。这是否与“https”有关?

您确定输入文件是使用pdf创建软件创建的pdf文件吗?PDF通常只是一个协调一致的img。在这种情况下,您需要ocr实现。正确的代码是PDDocument doc=PDDocument.load()或(更好的).loadNonSeq()。我不知道这是否是问题的原因。错误消息表明缺少%PDF。您应该验证url.openStream()是否确实返回PDF文件内容。@Invexity以PDF格式打开。我能够下载到本地机器并阅读它。但我无法阅读它。@tilmahausher确切地说是“parser.parse();”在这个位置我得到了错误。但是,当我尝试调试时,请查看我现在更新的映像以了解详细信息,这是否有帮助。该映像还指示流为空。要检查这一点,请将https流读入字节数组,并查看读取的大小。使用浏览器下载可能与使用java阅读不同。(代理?)
java.io.IOException: Error: End-of-File, expected line
at org.apache.pdfbox.pdfparser.BaseParser.readLine(BaseParser.java:1517)
at org.apache.pdfbox.pdfparser.PDFParser.parseHeader(PDFParser.java:372)
at org.apache.pdfbox.pdfparser.PDFParser.parse(PDFParser.java:186)
at com.kareo.utils.PDFManager.getPDFContent(PDFManager.java:26)