在python中基于国家和预防措施的Covid19聚类
我有以下数据集: *在python中基于国家和预防措施的Covid19聚类,python,cluster-analysis,k-means,Python,Cluster Analysis,K Means,我有以下数据集: * 国家尺度 0阿尔巴尼亚国际航班暂停国内航线 1奥地利部分封锁限制公众集会签证 2白俄罗斯限制公众集会和健康检查 3比利时提高认识活动应急管理系统 4波黑隔离检疫政策签证限制 5保加利亚机场和跨境健康检查 6克罗地亚隔离检疫政策总报告 塞浦路斯边境关闭学校关闭经济措施 8捷克共和国机场和跨境健康检查 9丹麦边境关闭一般建议学校 爱沙尼亚健康筛查的一般建议 11芬兰国际航班暂停一般建议 12法国关闭企业和公共服务 13格鲁吉亚签证限制附加健康/文件* 它的列是国家和衡量标准
- 国家尺度
- 0阿尔巴尼亚国际航班暂停国内航线
- 1奥地利部分封锁限制公众集会签证
- 2白俄罗斯限制公众集会和健康检查
- 3比利时提高认识活动应急管理系统
- 4波黑隔离检疫政策签证限制
- 5保加利亚机场和跨境健康检查
- 6克罗地亚隔离检疫政策总报告
- 塞浦路斯边境关闭学校关闭经济措施
- 8捷克共和国机场和跨境健康检查
- 9丹麦边境关闭一般建议学校
- 爱沙尼亚健康筛查的一般建议
- 11芬兰国际航班暂停一般建议
- 12法国关闭企业和公共服务
- 13格鲁吉亚签证限制附加健康/文件*
# tfidf vectorizer of scikit learn
vectorizer = TfidfVectorizer(stop_words=stopwords,use_idf = True, ngram_range=(1,3))
#vectorize measures
X = vectorizer.fit_transform(df_europe_measures['MEASURE'])
terms = vectorizer.get_feature_names()
#K-means clustering
num_clusters = 3
km = KMeans(n_clusters=num_clusters,init='k-means++')
labels = km.fit_predict(X)
#to print to terms in each cluster
print("K-means clustering: \n")
asc_order_centroids = km.cluster_centers_.argsort()#[:, ::-1]
order_centroids = asc_order_centroids[:,::-1]
terms = vectorizer.get_feature_names()
for i in range(num_clusters):
print ("Cluster %d:" % i)
for ind in order_centroids[i, :10]:
print (' %s' % terms[ind])
print('\n')
任何帮助都将不胜感激