Python 如何将Stanford解析器字符串输出转换为数据表格式

Python 如何将Stanford解析器字符串输出转换为数据表格式,python,nlp,nltk,stanford-nlp,Python,Nlp,Nltk,Stanford Nlp,我正在用Python测试Stanford NLP解析器,从nltk模块调用Stanford工具。我已经解析了一段文本,它以字符串的形式返回,格式如下: (ROOT (S (S (NP (NP (NNS MEPs)) (PP (IN from) (PP (IN across) (NP (DT the) (NNP EU))))) (VP (VBP are) (VP (VBG org

我正在用Python测试Stanford NLP解析器,从
nltk
模块调用Stanford工具。我已经解析了一段文本,它以字符串的形式返回,格式如下:

(ROOT
  (S
    (S
      (NP
        (NP (NNS MEPs))
        (PP (IN from) (PP (IN across) (NP (DT the) (NNP EU)))))
      (VP
        (VBP are)
        (VP
          (VBG organising)
          (S
            (VP
              (TO to)
              (VP
                (VB trigger)


[... continues ]
现在,我需要将这些数据表示为表格式(例如,a
numpy
array),以便在其上运行一些ML模型

我想把一些经过处理的单词序列输入RNN。我认为解析信息对于理解句子结构非常有用,但我不知道通常是如何做到的。解析数据是如何输入语言模型的


如何做到这一点?

为了澄清,这不是一个字符串,而是一个嵌套的树表示形式。您希望对您的数据进行哪种类型的培训?将树转换为列表或numpy数组是一个简单的递归算法,您可以自己构造,但这对您没有帮助,因为您需要确定模型将预测什么,我命令您选择输入数据的布局。我在主要问题中添加了一个解释,感谢您,一般来说,这是句子的结构。除此之外,还有一些语义结构,可以简化为字符串级别(动词-对象关系)上函数和参数之间的依赖关系,或者如果您想用语义数据丰富模型,可以扩展到嵌入(高维空间中单词的向量表示)的使用。你的RNN会预测什么?我想尝试三种不同的任务:语言生成;情绪分析;姿态检测。我知道我可能必须以不同的方式操作解析数据,我只是在寻找如何将这些信息封装在2D numpy矩阵中的提示。对于情感分析,我从未使用解析输出,而是将纯标记文本作为数组和bi LSTM单元格网络输入。你指的是总结意义上的文本生成吗?