R/Python-文本数据聚类

R/Python-文本数据聚类,python,r,cluster-analysis,Python,R,Cluster Analysis,我有一组数字。我的号码有不同的格式,如12-12-123-123,123-123-12,123-:12-(123,ABC-123-12-123。整个数据集大约有150种格式。将它们视为字符串,是否有一种方法可以将所有属于特定格式的数字分组,以便给定一个新数字时,它应该检查新数字是否与任何现有模式匹配。如果不匹配,它应该能够推荐最接近的模式将其转换为现有格式 我可以使用R或Python。你能显示预期的输出吗?因此,我想你不想提前指定150种格式,对吗?一般的更好?或者,目标是识别格式还是提取数字?

我有一组数字。我的号码有不同的格式,如
12-12-123-123
123-123-12
123-:12-(123
ABC-123-12-123
。整个数据集大约有150种格式。将它们视为字符串,是否有一种方法可以将所有属于特定格式的数字分组,以便给定一个新数字时,它应该检查新数字是否与任何现有模式匹配。如果不匹配,它应该能够推荐最接近的模式将其转换为现有格式


我可以使用R或Python。

你能显示预期的输出吗?因此,我想你不想提前指定150种格式,对吗?一般的更好?或者,目标是识别格式还是提取数字?@akrun输出应该像一个标志——如果与现有格式匹配,则给出一个新的数字,然后是其他明智的否。不清楚预期的模式。也许
patterns@akrun我不知道所有数据的模式。而且新数据总是进来,它们可能有不同的模式。因此我不能使用硬编码。我想跟踪现有的旧数据并创建模式标签,以便当新数据进来时,我想看看它是否与ex匹配是否输入模式。能否显示预期的输出?因此,我猜您不想提前指定150种格式,对吗?一般的更好?或者,目标是识别格式还是提取数字?@akrun输出应该像一个标志——如果与现有格式匹配,则指定一个新的数字,否则为否。不清楚预期的模式。也许
patterns@akrun我不知道所有数据的模式。而且新数据随时都会出现,它们可能有不同的模式。因此我不能使用硬编码。我想跟踪现有的旧数据并创建模式标签,以便当新数据出现时,我想看看它是否与现有的p匹配不管你是否同意。