Tika-如何从PDF文本中提取文本：带下划线、突出显示、划掉_Pdf_Text_Markup_Apache Tika

Tika-如何从PDF文本中提取文本：带下划线、突出显示、划掉

pdf text

Tika-如何从PDF文本中提取文本：带下划线、突出显示、划掉,pdf,text,markup,apache-tika,Pdf,Text,Markup,Apache Tika,我正在使用Tika*解析PDF文件。检索文档文本没有问题，但我不知道如何提取文本：强调突出显示划掉 Adobe Writer为您提供了不同的文本编辑选项，但我无法看到它们“隐藏”的位置是否有提取这些元数据信息的解决方案？（下划线，高亮度…）你知道Tika能否提取这些数据吗 *http://tika.apache.org/哇。4年等待答案是一段很长的时间，我想你现在已经找到了解决办法。无论如何，为了那些想访问此链接的人，答案是肯定的。ApacheTika不仅可以提取文档中的文本，还

我正在使用Tika*解析PDF文件。检索文档文本没有问题，但我不知道如何提取文本：

强调
突出显示
划掉

Adobe Writer为您提供了不同的文本编辑选项，但我无法看到它们“隐藏”的位置

是否有提取这些元数据信息的解决方案？（下划线，高亮度…）

你知道Tika能否提取这些数据吗

*http://tika.apache.org/哇。4年等待答案是一段很长的时间，我想你现在已经找到了解决办法。无论如何，为了那些想访问此链接的人，答案是肯定的。ApacheTika不仅可以提取文档中的文本，还可以提取格式（例如粗体、斜体）。这是我的设想：

    //inputStream is the document you wish to parse from.

    AutoDetectParser parser = new AutoDetectParser();
    ContentHandler handler = new BodyContentHandler(new ToXMLContentHandler());
    Metadata metadata = new Metadata();

    parser.parse(inputStream,handler,metadata);
    System.out.println(handler.toString());

print语句打印文档的XML。只需清理一下XML（真正的HTML标记），您就可以看到一些标记，如用于粗体文本的text，以及用于斜体文本的text。然后你可以找到一种方法来渲染它。祝你好运