使用StringToWordVector代替java正则表达式

使用StringToWordVector代替java正则表达式,java,weka,arabic,preprocessor,Java,Weka,Arabic,Preprocessor,我正试图用WEKA的java对阿拉伯语推文进行预处理。我想通过使用StringToWordVector删除所有英文字母、表情符号和非字符,只保留阿拉伯字母。虽然我知道java正则表达式可以实现这一点,但我坚持使用StringToOrdVector,以便将预处理应用到类型为“instances”的训练数据集 请救命 如果先用正则表达式删除它们,然后应用StringToOrdVector过滤器,会出现什么问题?因为我想预处理来自“实例”类型的训练集,如果我想使用正则表达式,我想我应该将其应用于字符串

我正试图用WEKA的java对阿拉伯语推文进行预处理。我想通过使用StringToWordVector删除所有英文字母、表情符号和非字符,只保留阿拉伯字母。虽然我知道java正则表达式可以实现这一点,但我坚持使用StringToOrdVector,以便将预处理应用到类型为“instances”的训练数据集


请救命

如果先用正则表达式删除它们,然后应用StringToOrdVector过滤器,会出现什么问题?因为我想预处理来自“实例”类型的训练集,如果我想使用正则表达式,我想我应该将其应用于字符串数据类型。我不知道如何从“实例”数据类型和“字符串”数据类型转换。如果我错了,请帮助我获得正确答案。您可以先对csv或arff文件中的文本进行预处理,删除所有不需要的英语单词。然后可以从预处理的csv或arff文件创建实例。