用Java解析结构化文档_Java_Parsing

用Java解析结构化文档

java parsing

用Java解析结构化文档,java,parsing,Java,Parsing,我想用Java库将一些法律文档解析为表示标题、段落等的文本片段。法律文档通常结构良好，因此我想使用比JavaCC（或其他解析器生成器）更简单的方法。是否有任何设备可以（几乎）自动检测到这种结构谢谢。我认为没有工具可以“几乎自动”提取这样的结构。如果提取结构非常容易，您不需要任何工具，您可以轻松地自己编写代码。如果不是那么容易，你需要一个足够强大的工具（JavaCC，ANTLR…）我认为用自定义代码自己解析文本是最好的方法。也许可以事先阅读一些关于解析的内容（递归体面，词法分析器/解析器分离…

我想用Java库将一些法律文档解析为表示标题、段落等的文本片段。法律文档通常结构良好，因此我想使用比JavaCC（或其他解析器生成器）更简单的方法。是否有任何设备可以（几乎）自动检测到这种结构

谢谢。

我认为没有工具可以“几乎自动”提取这样的结构。如果提取结构非常容易，您不需要任何工具，您可以轻松地自己编写代码。如果不是那么容易，你需要一个足够强大的工具（JavaCC，ANTLR…）

我认为用自定义代码自己解析文本是最好的方法。也许可以事先阅读一些关于解析的内容（递归体面，词法分析器/解析器分离…）。对于简单的结构，快速获得工作解决方案并不困难。

-JavaAPI For Microsoft文档 -Java PDF库

更简单的一个是——一个内容分析工具包，用于使用现有解析器库从各种文档中检测和提取元数据和结构化文本内容的工具包

它在内部使用pdfbox和poi

用法：java-jar tika-app-0.9.jar[选项][文件]-t

将分析在上指定的文件

命令行并输出提取的文本内容

这些文档的格式是什么？pdf。博士？+1给理查德。格式是什么？可以是任何格式：纯文本、文档、html等。我想将其转换为纯文本以进一步分析。我确实理解，将其全部转换为html要容易得多，因为可以分析标记，并在此基础上计算出文档的整个结构。我的意思实际上是一个纯文本文档，没有任何“提示”，比如下一章从哪里开始。我读过一些关于它的内容，但不知道它是如何提取结构化信息的。它是否查看在整个文档中多次出现的文本片段？tika将解析文档，即文档中的文本将作为文本输出。我认为格式设置也将被导出为额外的，如果有的话。尝试一些例子。它将以一种干净的方式导出元数据。目前，我几乎可以肯定我将需要JavaCC。但也许我可以通过引入两个步骤来简化这个过程：根据自定义语法进行粗略解析，然后使用其他工具进行最终清理。。。