String 如何在python中使用机器学习对不同字符串进行聚类
我有一个由建筑物名称组成的数据集。例如{Hill View,Hill View,Hill公寓…}。我想使用机器学习对这些字符串进行聚类。例如,在聚类后,一个集群应该包含相似或有点相似的字符串{Hill,Hill…}。我尝试过各种scikit算法,如K-means,亲和力传播等,但没有成功。请帮助。机器学习不是魔法! 它使用数学对象和函数 您需要第一步-通常称为数据挖掘-哪种类型包括:String 如何在python中使用机器学习对不同字符串进行聚类,string,text,machine-learning,cluster-analysis,String,Text,Machine Learning,Cluster Analysis,我有一个由建筑物名称组成的数据集。例如{Hill View,Hill View,Hill公寓…}。我想使用机器学习对这些字符串进行聚类。例如,在聚类后,一个集群应该包含相似或有点相似的字符串{Hill,Hill…}。我尝试过各种scikit算法,如K-means,亲和力传播等,但没有成功。请帮助。机器学习不是魔法! 它使用数学对象和函数 您需要第一步-通常称为数据挖掘-哪种类型包括: 将任何输入(字符串、图片、视频、任何内容…)转换为 数字(向量、矩阵或任何相关结构) 定义向量之间的距离和相似
- 将任何输入(字符串、图片、视频、任何内容…)转换为 数字(向量、矩阵或任何相关结构)
- 定义向量之间的距离和相似性(=输入的数字表示之间的距离~=字符串、图片、视频、任何内容之间的距离)
您可以跳过一些片段,因为它们提供了额外的信息。将它们保留在代码中不会影响最终的群集。明白了。使用kmeans将文档群集修改为字符串群集。。现在可以使用:)。无论如何,谢谢。)