如何将twitter数据(csv/txt)输入DBSCAN python?

如何将twitter数据(csv/txt)输入DBSCAN python?,python,numpy,dbscan,Python,Numpy,Dbscan,有人能告诉我如何在python中使用DBSCAN对twitter数据进行集群吗?我对DBSCAN完全陌生。另外,如何确定eps值和iloc或loc值 import numpy as np import pandas as pd from sklearn.cluster import DBSCAN from sklearn.preprocessing import StandardScaler def clusterEvaluate(cluster): count_cluster = np.b

有人能告诉我如何在python中使用DBSCAN对twitter数据进行集群吗?我对DBSCAN完全陌生。另外,如何确定eps值和iloc或loc值

import numpy as np
import pandas as pd
from sklearn.cluster import DBSCAN
from sklearn.preprocessing import StandardScaler


def clusterEvaluate(cluster):
count_cluster = np.bincount(cluster)
count_cluster = np.argmax(count_cluster) 

same_clusters = np.count_nonzero(cluster == count_cluster)/np.size(cluster)
return same_clusters



dataset = np.loadtxt('tweetdata.csv') # not sure if this works
X = StandardScaler().fit_transform(dataset)

y_valid = dataset.iloc[:6].values()

dbscan = DBSCAN(eps= 0.5,min_samples=5,metric='euclidean')

y = dbscan.fit_predict(X)

cluster_labels = np.unique(y)


same_clusters = []
i = 0

for index in cluster_labels:
   cluster = y_valid[y == index]
   same_clusters.insert((i, clusterEvaluate(cluster)))

您需要为此选择合适的数据表示形式和距离函数。此外,可伸缩性将杀死你

我认为它不会奏效。除了以一种不必要的复杂方式计算频繁的单词外,我还看到过任何能产生深刻结果的东西。推特数据是个婊子。信息太短了。所有像LDA这样的好方法都需要更长的文档