Java 将PDF转换为DOCX而不更改格式
我正在尝试将包含表格的PDF文件转换为DOCX类型。当我试图转换它时,我只得到纯文本的输出。如何在不改变格式的情况下将包含表格的整个PDF转换为DOCX?我尝试使用JAVA,下面是代码片段Java 将PDF转换为DOCX而不更改格式,java,pdf,Java,Pdf,我正在尝试将包含表格的PDF文件转换为DOCX类型。当我试图转换它时,我只得到纯文本的输出。如何在不改变格式的情况下将包含表格的整个PDF转换为DOCX?我尝试使用JAVA,下面是代码片段 public static void main(String[] args) throws IOException { System.out.println("Document converted started"); XWPFDocument doc = new XWPFDo
public static void main(String[] args) throws IOException {
System.out.println("Document converted started");
XWPFDocument doc = new XWPFDocument();
String pdf = "C:\\Users\\30216\\Desktop\\wordtopdf\\sample_full.pdf";
PdfReader reader = new PdfReader(pdf);
PdfReaderContentParser parser = new PdfReaderContentParser(reader);
for (int i = 1; i <= reader.getNumberOfPages(); i++) {
TextExtractionStrategy strategy = parser.processContent(i,
new SimpleTextExtractionStrategy());
String text = strategy.getResultantText();
XWPFParagraph p = doc.createParagraph();
XWPFRun run = p.createRun();
run.setText(text);
run.addBreak(BreakType.PAGE);
}
FileOutputStream out = new FileOutputStream("C:\\Users\\30216\\Desktop\\wordtopdf\\pdftoword.docx");
doc.write(out);
out.close();
reader.close();
System.out.println("Document converted successfully");
}
}
publicstaticvoidmain(字符串[]args)引发IOException{
System.out.println(“文件转换启动”);
XWPFDocument doc=新XWPFDocument();
String pdf=“C:\\Users\\30216\\Desktop\\wordtopdf\\sample\u full.pdf”;
PdfReader reader=新PdfReader(pdf);
PdfReaderContentParser=新的PdfReaderContentParser(读取器);
对于(int i=1;i“带表格的pdf”是什么意思?@itmar green:pdf包含表格元素,即pdf文件包含无法使用TextExtractionStrategy=parser.processContent的表格(i,new SimpleTextTractionStrategy());您必须开发自己的提取策略,以保持格式@AMB:有没有其他方法?在Python中是否可以将PDF转换为DOCX?我建议您使用documents4j,我将其用于DOCX->PDF,但它也可以用于PDF->DOCX。它的java