Machine learning 荷兰语文本情感分析的数据清理

Machine learning 荷兰语文本情感分析的数据清理,machine-learning,nlp,text-processing,Machine Learning,Nlp,Text Processing,我正在寻找一些最佳实践来清理荷兰语文本。 到目前为止我所做的: 1.使用正则表达式删除所有特殊字符、数字等。 2.单词引理化的Spacy NL模型 3.荷兰语单词 4.收集感情形容词 特征向量-计数向量 但文本并没有像预期的那样得到清理。正片和负片没有清晰的界线 我正在寻找一些指导或解决方案来解决荷兰NLP问题。请给出一些原始数据的示例,您是如何清理的,以及您的预期输出应该是什么样子。例如:“Ben zeer tevreden over de nieuwe packet geen haperin

我正在寻找一些最佳实践来清理荷兰语文本。 到目前为止我所做的: 1.使用正则表达式删除所有特殊字符、数字等。 2.单词引理化的Spacy NL模型 3.荷兰语单词 4.收集感情形容词

特征向量-计数向量

但文本并没有像预期的那样得到清理。正片和负片没有清晰的界线


我正在寻找一些指导或解决方案来解决荷兰NLP问题。

请给出一些原始数据的示例,您是如何清理的,以及您的预期输出应该是什么样子。例如:“Ben zeer tevreden over de nieuwe packet geen haperingen YouTube werkt perfect Ben zeer tevreden het安装super snel”预期-“tevreden nieuwe packet haperingen perfect tevreden installeren super snel”.名词和形容词的组合。我使用的是来自alpino的spacy和pos标记的简化