Regex 在处理数据之前,如何从示例集中删除文本?

Regex 在处理数据之前,如何从示例集中删除文本?,regex,text,rapidminer,Regex,Text,Rapidminer,我使用的是RapidMiner 5.3.013。我正在读取一个excel文件,其中包含来自Remedy的数千行工作日志。我想删除基于正则表达式^[A-Z][\w\d/?(#]+[\w0-9#)]{2}:的文本,然后使用数据中的流程文档。到目前为止,我们还没有弄清楚如何做到这一点。我可能只会编写VBA,但想知道如何在Rapidminer中完成它。读取Excel数据后,确保Process Documents操作员要处理的字段设置为type text。使用NORMAL to Text运算符执行此操作。

我使用的是RapidMiner 5.3.013。我正在读取一个excel文件,其中包含来自Remedy的数千行工作日志。我想删除基于正则表达式
^[A-Z][\w\d/?(#]+[\w0-9#)]{2}:
的文本,然后使用数据中的流程文档。到目前为止,我们还没有弄清楚如何做到这一点。我可能只会编写VBA,但想知道如何在Rapidminer中完成它。

读取Excel数据后,确保Process Documents操作员要处理的字段设置为type text。使用NORMAL to Text运算符执行此操作。在流程文档循环中,使用Tokenize操作符将数据拆分为令牌。使用Filter Tokens操作符删除您不需要的任何标记。此运算符将正则表达式作为参数。确保在此运算符上设置了反转标志,以移除您不想要的令牌,而不是保留它们