R/Python-文本数据聚类_Python_R_Cluster Analysis

R/Python-文本数据聚类

python r

R/Python-文本数据聚类,python,r,cluster-analysis,Python,R,Cluster Analysis,我有一组数字。我的号码有不同的格式，如12-12-123-123，123-123-12，123-：12-（123，ABC-123-12-123。整个数据集大约有150种格式。将它们视为字符串，是否有一种方法可以将所有属于特定格式的数字分组，以便给定一个新数字时，它应该检查新数字是否与任何现有模式匹配。如果不匹配，它应该能够推荐最接近的模式将其转换为现有格式我可以使用R或Python。你能显示预期的输出吗？因此，我想你不想提前指定150种格式，对吗？一般的更好？或者，目标是识别格式还是提取数字？

我有一组数字。我的号码有不同的格式，如

12-12-123-123

，

123-123-12

，

123-：12-（123

，

ABC-123-12-123

。整个数据集大约有150种格式。将它们视为字符串，是否有一种方法可以将所有属于特定格式的数字分组，以便给定一个新数字时，它应该检查新数字是否与任何现有模式匹配。如果不匹配，它应该能够推荐最接近的模式将其转换为现有格式

我可以使用R或Python。

你能显示预期的输出吗？因此，我想你不想提前指定150种格式，对吗？一般的更好？或者，目标是识别格式还是提取数字？@akrun输出应该像一个标志——如果与现有格式匹配，则给出一个新的数字，然后是其他明智的否。不清楚预期的模式。也许

patterns@akrun我不知道所有数据的模式。而且新数据总是进来，它们可能有不同的模式。因此我不能使用硬编码。我想跟踪现有的旧数据并创建模式标签，以便当新数据进来时，我想看看它是否与ex匹配是否输入模式。能否显示预期的输出？因此，我猜您不想提前指定150种格式，对吗？一般的更好？或者，目标是识别格式还是提取数字？@akrun输出应该像一个标志——如果与现有格式匹配，则指定一个新的数字，否则为否。不清楚预期的模式。也许patterns@akrun我不知道所有数据的模式。而且新数据随时都会出现，它们可能有不同的模式。因此我不能使用硬编码。我想跟踪现有的旧数据并创建模式标签，以便当新数据出现时，我想看看它是否与现有的p匹配不管你是否同意。