Machine learning 基于多词相似度的聚类_Machine Learning_Nlp_Cluster Analysis_Word Embedding

Machine learning 基于多词相似度的聚类

machine-learning nlp

Machine learning 基于多词相似度的聚类,machine-learning,nlp,cluster-analysis,word-embedding,Machine Learning,Nlp,Cluster Analysis,Word Embedding,我正在尝试为银行交易数据实现集群。数据集包含关于供应商和MCC的列，它们是字符串。这些列中有太多不同的值，我想根据一些指标（如供应商或MCC的余弦相似性）进行聚类。例如，“Hotel A”和“Hotel B”可以位于同一集群中。我认为Levenshtein的距离还不够我考虑为MCC找到一个语料库，并创建一个模型来查找单词之间的相似性。这个方法适合这个问题吗？如果没有，我如何处理这些列？如果是，是否有这方面的语料库数据来源：我使用了类似于此问题的方法聚类分类文本特征的一种方法是在删除停止词后

我正在尝试为银行交易数据实现集群。数据集包含关于供应商和MCC的列，它们是字符串。这些列中有太多不同的值，我想根据一些指标（如供应商或MCC的余弦相似性）进行聚类。例如，“Hotel A”和“Hotel B”可以位于同一集群中。我认为Levenshtein的距离还不够

我考虑为MCC找到一个语料库，并创建一个模型来查找单词之间的相似性。这个方法适合这个问题吗？如果没有，我如何处理这些列？如果是，是否有这方面的语料库

数据来源：

我使用了类似于此问题的方法

聚类分类文本特征的一种方法是在删除停止词后将每个唯一值转换为平均词向量。然后可以通过余弦相似性比较向量，并使用基于相似矩阵的聚类方法。如果这种方法在计算上过于复杂，请将值转换为向量，并通过余弦相似性获得前n名最接近的项目。

通过MCC，您是指商户类别代码？这是一个数字字段吗？是的，它是商户类别代码。不，它不是数字，它是一个字符串字段，如宠物店、宠物食品和供应品。唯一MCC和供应商的大约数量是多少？MCC和供应商的不同数字分别是400和86729，我放弃了使用供应商，但问题是MCC看起来像一家酒店、B酒店、C店、D店。。。。我希望这些可以根据相似性进行聚类。我试着使用谷歌新闻的预训练模型，很多单词都缺失了。正如我所观察到的，手套里的单词并不比谷歌新闻里的多。手套对单词嵌入有不同的方法吗？顺便说一句，谢谢。手套最大的型号是GloVe-GloVe.840B.300d，它有840B的标记，2.2M的vocab，是大小写，有300维向量。如果有很多单词不见了，我会感到惊讶。如果有一些代码没有单个词向量，则可以将它们分配到“其他”类别