如何将twitter数据(csv/txt)输入DBSCAN python?
有人能告诉我如何在python中使用DBSCAN对twitter数据进行集群吗?我对DBSCAN完全陌生。另外,如何确定eps值和iloc或loc值如何将twitter数据(csv/txt)输入DBSCAN python?,python,numpy,dbscan,Python,Numpy,Dbscan,有人能告诉我如何在python中使用DBSCAN对twitter数据进行集群吗?我对DBSCAN完全陌生。另外,如何确定eps值和iloc或loc值 import numpy as np import pandas as pd from sklearn.cluster import DBSCAN from sklearn.preprocessing import StandardScaler def clusterEvaluate(cluster): count_cluster = np.b
import numpy as np
import pandas as pd
from sklearn.cluster import DBSCAN
from sklearn.preprocessing import StandardScaler
def clusterEvaluate(cluster):
count_cluster = np.bincount(cluster)
count_cluster = np.argmax(count_cluster)
same_clusters = np.count_nonzero(cluster == count_cluster)/np.size(cluster)
return same_clusters
dataset = np.loadtxt('tweetdata.csv') # not sure if this works
X = StandardScaler().fit_transform(dataset)
y_valid = dataset.iloc[:6].values()
dbscan = DBSCAN(eps= 0.5,min_samples=5,metric='euclidean')
y = dbscan.fit_predict(X)
cluster_labels = np.unique(y)
same_clusters = []
i = 0
for index in cluster_labels:
cluster = y_valid[y == index]
same_clusters.insert((i, clusterEvaluate(cluster)))
您需要为此选择合适的数据表示形式和距离函数。此外,可伸缩性将杀死你 我认为它不会奏效。除了以一种不必要的复杂方式计算频繁的单词外,我还看到过任何能产生深刻结果的东西。推特数据是个婊子。信息太短了。所有像LDA这样的好方法都需要更长的文档