基于python聚类算法的文本信息检索_Python_Algorithm_Machine Learning_Cluster Analysis_Information Retrieval

基于python聚类算法的文本信息检索

python algorithm machine-learning

基于python聚类算法的文本信息检索,python,algorithm,machine-learning,cluster-analysis,information-retrieval,Python,Algorithm,Machine Learning,Cluster Analysis,Information Retrieval,我有两个文件，其中包含与生命科学相关的csv格式文本数据。一个文件是样本数据，另一个是测试数据。每个文件有三列，详细信息如下：第1列-特定ID 第2列-在csv文件中被称为单个文档（行）的“标题”的文本第3列-csv文件中被称为单个文档（行）的“详细信息”的文本任务是使用python在样本数据和测试数据之间运行聚类算法，并检索样本数据文件中类似的文本块我尝试使用我从类似的问卷调查中找到的样本代码“K意味着聚类”，但未能获得输出，因为它与单个文本文件相关，但不在两个文本文件之间。我试过的

我有两个文件，其中包含与生命科学相关的csv格式文本数据。一个文件是样本数据，另一个是测试数据。每个文件有三列，详细信息如下：

第1列-特定ID

第2列-在csv文件中被称为单个文档（行）的“标题”的文本

第3列-csv文件中被称为单个文档（行）的“详细信息”的文本

任务是使用python在样本数据和测试数据之间运行聚类算法，并检索样本数据文件中类似的文本块

我尝试使用我从类似的问卷调查中找到的样本代码“K意味着聚类”，但未能获得输出，因为它与单个文本文件相关，但不在两个文本文件之间。我试过的代码：

import os
import pandas as pd
import numpy as np
from sklearn import metrics
import glob
df = pd.read_csv('/home/danny/Downloads/assignment/sample_data.csv')
can=df.drop(columns =['pat'])
from sklearn.cluster import DBSCAN
dbscan=DBSCAN(eps=3,min_samples=4)
X = can.iloc[:, [1,2,3,4]].values
X.shape
model=dbscan.fit(X)
labels=model.labels_
sample_cores=np.zeros_like(labels,dtype=bool)
sample_cores[dbscan.core_sample_indices_]=True
n_clusters=len(set(labels))- (1 if -1 in labels else 0)
n_clusters