Nlp 将字符串数据转换为PTB格式以训练斯坦福情绪分析工具
如何将字符串数据(如tweet)转换为PTB格式以训练斯坦福情绪分析工具?这不是简单地从一种格式转换为另一种格式的问题。正如@lenz提到的,PTB是解析器的输出格式——这意味着至少需要将文本转换为语法解析。自动解析器(例如Berkeley/Stanford/BLLIP解析器)可以为您提供一些方法,但是(1)自动解析器在Twitter文本上可能很糟糕,(2)如果我记得您需要二进制解析树,这意味着需要对原始解析进行一些操作Nlp 将字符串数据转换为PTB格式以训练斯坦福情绪分析工具,nlp,stanford-nlp,sentiment-analysis,training-data,Nlp,Stanford Nlp,Sentiment Analysis,Training Data,如何将字符串数据(如tweet)转换为PTB格式以训练斯坦福情绪分析工具?这不是简单地从一种格式转换为另一种格式的问题。正如@lenz提到的,PTB是解析器的输出格式——这意味着至少需要将文本转换为语法解析。自动解析器(例如Berkeley/Stanford/BLLIP解析器)可以为您提供一些方法,但是(1)自动解析器在Twitter文本上可能很糟糕,(2)如果我记得您需要二进制解析树,这意味着需要对原始解析进行一些操作 此外,为了训练情绪模型,您需要用情绪注释数据。也就是说,对于解析树的每个组
此外,为了训练情绪模型,您需要用情绪注释数据。也就是说,对于解析树的每个组成部分,您需要说明该组成部分的产量的情感标签是什么。如果有一个自动工具可以做到这一点,您就不需要训练新的模型。斯坦福CoreNLP软件包有一个java类文件,用于将文本转换为PTB格式进行训练
类名为BuildBinarizedDataset什么是PTB格式?如果PTB意味着Penn树库,那么这不是转换问题,而是解析问题。