Tika-如何从PDF文本中提取文本:带下划线、突出显示、划掉

Tika-如何从PDF文本中提取文本:带下划线、突出显示、划掉,pdf,text,markup,apache-tika,Pdf,Text,Markup,Apache Tika,我正在使用Tika*解析PDF文件。 检索文档文本没有问题,但我不知道如何提取文本: 强调 突出显示 划掉 Adobe Writer为您提供了不同的文本编辑选项,但我无法看到它们“隐藏”的位置 是否有提取这些元数据信息的解决方案?(下划线,高亮度…) 你知道Tika能否提取这些数据吗 *http://tika.apache.org/哇。4年等待答案是一段很长的时间,我想你现在已经找到了解决办法。无论如何,为了那些想访问此链接的人,答案是肯定的。ApacheTika不仅可以提取文档中的文本,还

我正在使用Tika*解析PDF文件。 检索文档文本没有问题,但我不知道如何提取文本:

  • 强调
  • 突出显示
  • 划掉
Adobe Writer为您提供了不同的文本编辑选项,但我无法看到它们“隐藏”的位置

是否有提取这些元数据信息的解决方案?(下划线,高亮度…)

你知道Tika能否提取这些数据吗


*http://tika.apache.org/哇。4年等待答案是一段很长的时间,我想你现在已经找到了解决办法。无论如何,为了那些想访问此链接的人,答案是肯定的。ApacheTika不仅可以提取文档中的文本,还可以提取格式(例如粗体、斜体)。这是我的设想:

    //inputStream is the document you wish to parse from.

    AutoDetectParser parser = new AutoDetectParser();
    ContentHandler handler = new BodyContentHandler(new ToXMLContentHandler());
    Metadata metadata = new Metadata();

    parser.parse(inputStream,handler,metadata);
    System.out.println(handler.toString());
print语句打印文档的XML。只需清理一下XML(真正的HTML标记),您就可以看到一些标记,如用于粗体文本的text,以及用于斜体文本的text。然后你可以找到一种方法来渲染它。祝你好运