Nlp 存储从信息提取中获取的数据

Nlp 存储从信息提取中获取的数据,nlp,information-extraction,Nlp,Information Extraction,我有一些java方面的经验,我是一名做最后一年项目的学生 我需要在自然语言处理方面做一个项目,我目前正尝试在斯坦福nlp库上工作(但我不锁定它,我可以更改我的工具),所以任何适合我的问题的工具都可以找到答案 我计划从事信息提取IE,并看过一些页面/pdf,解释了它如何与各种NLP技术一起工作。数据将使用NLP进行处理,我需要对处理后的数据执行信息检索IR 我现在的问题是:我应该使用什么数据结构或存储介质来存储使用NLP技术检索到的数据 该数据存储必须具有支持查询的能力 XML、JSON看起来

我有一些java方面的经验,我是一名做最后一年项目的学生

我需要在自然语言处理方面做一个项目,我目前正尝试在斯坦福nlp库上工作(但我不锁定它,我可以更改我的工具),所以任何适合我的问题的工具都可以找到答案


我计划从事信息提取IE,并看过一些页面/pdf,解释了它如何与各种NLP技术一起工作。数据将使用NLP进行处理,我需要对处理后的数据执行信息检索IR

我现在的问题是:我应该使用什么数据结构或存储介质来存储使用NLP技术检索到的数据

  • 该数据存储必须具有支持查询的能力
  • XML、JSON看起来不是一个理想的候选者。(我可能错了):如果他们能提供帮助,那么最好的方法就是提供一些帮助/指导
  • 我目前的观点是将解析树转换/存储为可直接读取以供查询的数据格式。(解析树:句子或字符串的解析结构的图示)

需要存储一个数据类型的示例,用于文本“我的项目基于NLP”。示例如下所示

根(根-0,基-4)
poss(项目2,My-1)
nsubjpass(基础-4,项目-2)
auxpass(基于is-4,is-3)
准备(基于-4,基于-5)

pobj(on-5,NLP-6)

您是否已经提取了信息,或者正在尝试存储解析树?如果是前者,这在NLP中仍然是一个悬而未决的问题。例如,请参阅Jurafsky和Martin的书,其中讨论了实现这一点的许多方法


基本上,我们无法回答,直到我们知道你想储存什么。如果是非常简单的信息,您可能可以使用一个简单的关系数据库。

我试图实现的是将各种NLP处理的组件(如词性、命名实体识别、协同引用、基本依赖项)存储到某种形式的数据存储中,我可以稍后用于查询