Nlp 使用Rapidminer统计电子邮件对话数

Nlp 使用Rapidminer统计电子邮件对话数,nlp,rapidminer,Nlp,Rapidminer,我有一个excel表格,其中包含有关问题解决方案的详细信息,其中一列包含相应问题的电子邮件对话。本质上,每一行都有针对该问题的电子邮件对话(issueid是该数据的主键)。 电子邮件对话格式是一致的 发件人:“名称”\n 日期:“时间戳”\n 主题:“主题”\n 收件人:“名称”\n “身体” 这种模式再次重复 现在我需要使用Rapidminer查找每个问题发生了多少电子邮件对话。我已经阅读了excel,Rapidminer中的每一行都有可用的数据。。。我怎样才能做到这一点 非常感谢您的帮助……

我有一个excel表格,其中包含有关问题解决方案的详细信息,其中一列包含相应问题的电子邮件对话。本质上,每一行都有针对该问题的电子邮件对话(issueid是该数据的主键)。 电子邮件对话格式是一致的

发件人:“名称”\n 日期:“时间戳”\n 主题:“主题”\n 收件人:“名称”\n “身体”

这种模式再次重复

现在我需要使用Rapidminer查找每个问题发生了多少电子邮件对话。我已经阅读了excel,Rapidminer中的每一行都有可用的数据。。。我怎样才能做到这一点


非常感谢您的帮助……

要获得每个问题的电子邮件数量,请使用聚合运算符


将Group By参数设置为issueid,并将聚合属性设置为聚合类型为count的电子邮件会话属性。

感谢您的回复…您能告诉我如何设置电子邮件会话属性吗?它将嵌入文本中,以及如何在属性中动态检索它…因为整个电子邮件线程(包括可以用于查找电子邮件计数的From、to和Subject子句)将出现在一行中…不清楚一行中是否有多个对话,是的。。。一行表示一个问题的整个电子邮件链(可以与用户和支持团队进行多次来回对话)。。。e、 g.用户提出问题,然后支持团队回复,然后用户要求澄清等。。。所以在一行中有多个对话。。。那么,我如何扫描单元格内的整个文本,提取所有电子邮件模式(例如从和到组合),然后计算它们的数量,所有这些都是在处理一行时完成的……您可以将包含多封电子邮件的行视为一个文档,并使用文本挖掘扩展中的Process Documents操作符将其拆分为多个文档。从那里,您可以计算创建的新文档的数量,并将其添加到属性中。其他的可能性,比如用一个较小的字符串替换所有出现的“主题:”文本,然后比较前后的长度来推断计数可能更容易。我没有在正确的电脑前,所以我现在不能给出更多的细节。