基于python聚类算法的文本信息检索

基于python聚类算法的文本信息检索,python,algorithm,machine-learning,cluster-analysis,information-retrieval,Python,Algorithm,Machine Learning,Cluster Analysis,Information Retrieval,我有两个文件,其中包含与生命科学相关的csv格式文本数据。一个文件是样本数据,另一个是测试数据。每个文件有三列,详细信息如下: 第1列-特定ID 第2列-在csv文件中被称为单个文档(行)的“标题”的文本 第3列-csv文件中被称为单个文档(行)的“详细信息”的文本 任务是使用python在样本数据和测试数据之间运行聚类算法,并检索样本数据文件中类似的文本块 我尝试使用我从类似的问卷调查中找到的样本代码“K意味着聚类”,但未能获得输出,因为它与单个文本文件相关,但不在两个文本文件之间。 我试过的

我有两个文件,其中包含与生命科学相关的csv格式文本数据。一个文件是样本数据,另一个是测试数据。每个文件有三列,详细信息如下:

第1列-特定ID

第2列-在csv文件中被称为单个文档(行)的“标题”的文本

第3列-csv文件中被称为单个文档(行)的“详细信息”的文本

任务是使用python在样本数据和测试数据之间运行聚类算法,并检索样本数据文件中类似的文本块

我尝试使用我从类似的问卷调查中找到的样本代码“K意味着聚类”,但未能获得输出,因为它与单个文本文件相关,但不在两个文本文件之间。 我试过的代码:

import os
import pandas as pd
import numpy as np
from sklearn import metrics
import glob
df = pd.read_csv('/home/danny/Downloads/assignment/sample_data.csv')
can=df.drop(columns =['pat'])
from sklearn.cluster import DBSCAN
dbscan=DBSCAN(eps=3,min_samples=4)
X = can.iloc[:, [1,2,3,4]].values
X.shape
model=dbscan.fit(X)
labels=model.labels_
sample_cores=np.zeros_like(labels,dtype=bool)
sample_cores[dbscan.core_sample_indices_]=True
n_clusters=len(set(labels))- (1 if -1 in labels else 0)
n_clusters