String 增量聚类

String 增量聚类,string,cluster-analysis,String,Cluster Analysis,请建议一些有效的增量集群方法。我试图把类似的字符串放在一个组中。相互比较是没有效率的。我的想法是用集群代表性检查每个输入字符串,这意味着该集群中的字符串有一个代表性模式,因此新字符串只能与该模式进行比较。因此,任何一个以一个通用模式表示集群中几乎相似的字符串为起点的方法都可能具有最高的精确度。通过这种方式,新输入仅与集群代表性进行比较,如果发现相似,则保留在其中。集群和输入的数量不是固定的…字符串是流式的,可以是任何模式长度 我希望我是清楚的。请帮我介绍一些术语。听起来问题的一部分给你带来了困难

请建议一些有效的增量集群方法。我试图把类似的字符串放在一个组中。相互比较是没有效率的。我的想法是用集群代表性检查每个输入字符串,这意味着该集群中的字符串有一个代表性模式,因此新字符串只能与该模式进行比较。因此,任何一个以一个通用模式表示集群中几乎相似的字符串为起点的方法都可能具有最高的精确度。通过这种方式,新输入仅与集群代表性进行比较,如果发现相似,则保留在其中。集群和输入的数量不是固定的…字符串是流式的,可以是任何模式长度


我希望我是清楚的。请帮我介绍一些术语。

听起来问题的一部分给你带来了困难,那就是为每个集群找到一个具有代表性的模式

对字符串进行聚类的通常方法是将它们作为向量处理,并使用余弦相似性作为距离度量:

当集群中的字符串表示为向量时,我认为集群的中心就是规范化向量的总和。使用此总和作为代表,将每个新字符串与