Parsing 自然语言处理/文本结构分析起点

Parsing 自然语言处理/文本结构分析起点,parsing,nlp,text-processing,Parsing,Nlp,Text Processing,我需要解析和处理一大组半结构化文本(基本上是法律文件——法律文本、附录、条约、法官判决等等)。我试图做的最基本的事情是提取关于子部分是如何构造的信息——章节、文章、副标题等等。。。加上一些元数据。我的问题是,是否有人能给我指出这种文本处理的起点,因为我确信已经有很多关于这方面的研究,但我发现的主要是用严格的语法(如代码)或完全自由格式的文本(如谷歌试图在网页上做的)来解析某些东西。我想如果我掌握了正确的关键词,我会在谷歌和我的期刊数据库中取得更大的成功。谢谢。以前从未做过这件事,但如果我要做的话

我需要解析和处理一大组半结构化文本(基本上是法律文件——法律文本、附录、条约、法官判决等等)。我试图做的最基本的事情是提取关于子部分是如何构造的信息——章节、文章、副标题等等。。。加上一些元数据。我的问题是,是否有人能给我指出这种文本处理的起点,因为我确信已经有很多关于这方面的研究,但我发现的主要是用严格的语法(如代码)或完全自由格式的文本(如谷歌试图在网页上做的)来解析某些东西。我想如果我掌握了正确的关键词,我会在谷歌和我的期刊数据库中取得更大的成功。谢谢。

以前从未做过这件事,但如果我要做的话,我肯定会调查的。这是一个非常受欢迎的项目,很可能会有一个您选择的语言的端口。

以前从未这样做过,但如果我要做的话,我肯定会考虑。这是一个非常受欢迎的项目,很可能在您选择的语言中有一个端口。

这可能是一个有趣的开始,在自然语言处理的所有领域都有大量的资源。它可能比你需要的更注重语言

另一个选择是使用一个语法分析器生成器库(通常用于代码),它没有那么严格(即,如果需要,允许忽略大量文本)。我推荐使用python。在中,我展示了一个简单的例子,当你想忽略任意的文本时,它可以做什么

这可能是一个有趣的开始,在自然语言处理的所有领域都有丰富的资源。它可能比你需要的更注重语言

另一个选择是使用一个语法分析器生成器库(通常用于代码),它没有那么严格(即,如果需要,允许忽略大量文本)。我推荐使用python。在中,我展示了一个简单的例子,当你想忽略任意的文本时,它可以做什么