Java 使用PDF框创建PDF到文本:无法获取格式信息
我正在使用PDFBox将pdf文件转换为txt文件。我正在从PDF文件中获取文本Java 使用PDF框创建PDF到文本:无法获取格式信息,java,text,converter,pdfbox,Java,Text,Converter,Pdfbox,我正在使用PDFBox将pdf文件转换为txt文件。我正在从PDF文件中获取文本 try { parser.parse(); cosDoc = parser.getDocument(); pdfStripper = new PDFTextStripper(); pdDoc = new PDDocument(cosDoc); parsedText = pdfStripper.ge
try {
parser.parse();
cosDoc = parser.getDocument();
pdfStripper = new PDFTextStripper();
pdDoc = new PDDocument(cosDoc);
parsedText = pdfStripper.getText(pdDoc);
writePDFFileToTextFile(parsedText, textFilePath);
} catch (Exception e) {
//System.out.println("An exception occured in parsing the PDF Document.");
log.error(e.toString());
textFilePath = null;
} finally {
try {
if (cosDoc != null) {
cosDoc.close();
}
if (pdDoc != null) {
pdDoc.close();
}
} catch (Exception ex) {
log.error(ex.toString());
}
}
但我想格式化相关的信息也像粗体,斜体,字体大小,段落等
我可以用PDFBox获取这些信息吗?
如果不是..那么我应该使用哪个API?A“.txt”文件不包含您列出的任何信息,只包含..文本。您可以尝试将其转换为
.rtf
或.html
,两者都支持格式化文本。