Warning: file_get_contents(/data/phpspider/zhask/data//catemap/6/asp.net-mvc-3/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Nlp 将字符串数据转换为PTB格式以训练斯坦福情绪分析工具_Nlp_Stanford Nlp_Sentiment Analysis_Training Data - Fatal编程技术网

Nlp 将字符串数据转换为PTB格式以训练斯坦福情绪分析工具

Nlp 将字符串数据转换为PTB格式以训练斯坦福情绪分析工具,nlp,stanford-nlp,sentiment-analysis,training-data,Nlp,Stanford Nlp,Sentiment Analysis,Training Data,如何将字符串数据(如tweet)转换为PTB格式以训练斯坦福情绪分析工具?这不是简单地从一种格式转换为另一种格式的问题。正如@lenz提到的,PTB是解析器的输出格式——这意味着至少需要将文本转换为语法解析。自动解析器(例如Berkeley/Stanford/BLLIP解析器)可以为您提供一些方法,但是(1)自动解析器在Twitter文本上可能很糟糕,(2)如果我记得您需要二进制解析树,这意味着需要对原始解析进行一些操作 此外,为了训练情绪模型,您需要用情绪注释数据。也就是说,对于解析树的每个组

如何将字符串数据(如tweet)转换为PTB格式以训练斯坦福情绪分析工具?

这不是简单地从一种格式转换为另一种格式的问题。正如@lenz提到的,PTB是解析器的输出格式——这意味着至少需要将文本转换为语法解析。自动解析器(例如Berkeley/Stanford/BLLIP解析器)可以为您提供一些方法,但是(1)自动解析器在Twitter文本上可能很糟糕,(2)如果我记得您需要二进制解析树,这意味着需要对原始解析进行一些操作


此外,为了训练情绪模型,您需要用情绪注释数据。也就是说,对于解析树的每个组成部分,您需要说明该组成部分的产量的情感标签是什么。如果有一个自动工具可以做到这一点,您就不需要训练新的模型。

斯坦福CoreNLP软件包有一个java类文件,用于将文本转换为PTB格式进行训练


类名为BuildBinarizedDataset

什么是PTB格式?如果PTB意味着Penn树库,那么这不是转换问题,而是解析问题。