java.io.IOException:错误:文件结束,PDFBox预期有行问题
我正在尝试从浏览器中打开的PDF中读取PDF文本 单击“打印”按钮后,以下URL将在新选项卡中打开java.io.IOException:错误:文件结束,PDFBox预期有行问题,java,selenium-webdriver,pdfbox,Java,Selenium Webdriver,Pdfbox,我正在尝试从浏览器中打开的PDF中读取PDF文本 单击“打印”按钮后,以下URL将在新选项卡中打开 https://myappurl.com/employees/2Jb_rpRC710XGvs8xHSOmHE9_LGkL97j/details/listprint.pdf?ids%5B%5D=2Jb_rpRC711lmIvMaBdxnzJj_ZfipcXW 我已经对其他网址执行了相同的程序,并发现工作正常。我使用了与这里相同的代码 我正在使用以下版本的PDFBox <depende
https://myappurl.com/employees/2Jb_rpRC710XGvs8xHSOmHE9_LGkL97j/details/listprint.pdf?ids%5B%5D=2Jb_rpRC711lmIvMaBdxnzJj_ZfipcXW
我已经对其他网址执行了相同的程序,并发现工作正常。我使用了与这里相同的代码
我正在使用以下版本的PDFBox
<dependency>
<groupId>org.apache.pdfbox</groupId>
<artifactId>pdfbox</artifactId>
<version>1.8.9</version>
</dependency>
<dependency>
<dependency>
<groupId>org.apache.pdfbox</groupId>
<artifactId>fontbox</artifactId>
<version>1.8.9</version>
</dependency>
下面是我得到的异常的堆栈跟踪
java.io.IOException: Error: End-of-File, expected line
at org.apache.pdfbox.pdfparser.BaseParser.readLine(BaseParser.java:1517)
at org.apache.pdfbox.pdfparser.PDFParser.parseHeader(PDFParser.java:372)
at org.apache.pdfbox.pdfparser.PDFParser.parse(PDFParser.java:186)
at com.kareo.utils.PDFManager.getPDFContent(PDFManager.java:26)
正在更新在URL和文件处调试时拍摄的图像。
请帮帮我。这是否与“https”有关?您确定输入文件是使用pdf创建软件创建的pdf文件吗?PDF通常只是一个协调一致的img。在这种情况下,您需要ocr实现。正确的代码是PDDocument doc=PDDocument.load()或(更好的).loadNonSeq()。我不知道这是否是问题的原因。错误消息表明缺少%PDF。您应该验证url.openStream()是否确实返回PDF文件内容。@Invexity以PDF格式打开。我能够下载到本地机器并阅读它。但我无法阅读它。@tilmahausher确切地说是“parser.parse();”在这个位置我得到了错误。但是,当我尝试调试时,请查看我现在更新的映像以了解详细信息,这是否有帮助。该映像还指示流为空。要检查这一点,请将https流读入字节数组,并查看读取的大小。使用浏览器下载可能与使用java阅读不同。(代理?)
java.io.IOException: Error: End-of-File, expected line
at org.apache.pdfbox.pdfparser.BaseParser.readLine(BaseParser.java:1517)
at org.apache.pdfbox.pdfparser.PDFParser.parseHeader(PDFParser.java:372)
at org.apache.pdfbox.pdfparser.PDFParser.parse(PDFParser.java:186)
at com.kareo.utils.PDFManager.getPDFContent(PDFManager.java:26)