Java 将数据转换为openNLP兼容的培训格式
我正在尝试使用openNLP对moview review数据集(polarity dataset v2.0)进行情绪分析 如何使用此数据集在openNLP中训练文档分类器模型 它包括相当数量的已分类为肯定、否定的评论,并将其放入不同的文件夹集Java 将数据转换为openNLP兼容的培训格式,java,sentiment-analysis,opennlp,Java,Sentiment Analysis,Opennlp,我正在尝试使用openNLP对moview review数据集(polarity dataset v2.0)进行情绪分析 如何使用此数据集在openNLP中训练文档分类器模型 它包括相当数量的已分类为肯定、否定的评论,并将其放入不同的文件夹集 openNLP需要一个文件作为输入,在新行的每一个评论都带有一个类别标签前缀。我正在寻找一种将此数据集转换为openNLP兼容格式的简单方法。openNLP目前不支持电影评论格式。您可以创建一个脚本,将其转换为以下内容: neg A negative to
openNLP需要一个文件作为输入,在新行的每一个评论都带有一个类别标签前缀。我正在寻找一种将此数据集转换为openNLP兼容格式的简单方法。openNLP目前不支持电影评论格式。您可以创建一个脚本,将其转换为以下内容:
neg A negative tokenized text. Remove line breaks.
pos A positive tokenized text. Remove line breaks.
但是OpenNLP文档分类器在情感分析任务中并不完美。有一个情绪分析组件正在使用OpenNLP进行开发。使用java,我将培训数据集转换为与OpenNLP兼容的培训格式,即分类数据集,并将其保存到磁盘上的文件中,例如:
- 负面电影没有达到预期
- 这部正面电影很好
为了避免每次执行时都训练模型,请将训练过的模型保存在磁盘上。我正在使用java.nio.File进行类似的方法。