Python 如何对产品推荐数据集使用k均值_Python_Data Mining_K Means_Recommendation Engine_Sklearn Pandas

Python 如何对产品推荐数据集使用k均值

python

Python 如何对产品推荐数据集使用k均值,python,data-mining,k-means,recommendation-engine,sklearn-pandas,Python,Data Mining,K Means,Recommendation Engine,Sklearn Pandas,我有一个数据集，列标题为产品名称、品牌、评级（1:5）、评论文本、评论帮助性。我需要的是提出一个使用评论的推荐算法。我必须在这里使用python进行编码。数据集为.csv格式为了确定数据集的性质，我需要在数据集上使用kmeans。如何在此数据集上使用k均值于是我就这样做了， 1.数据预处理， 2.查看文本数据清理， 3.情绪分析， 4.根据他们获得的情绪值（通过情绪分析给出），将情绪评分从1到5，并将评论标记为非常消极、消极、中性、积极、非常积极完成这些步骤后，我的数据集中有以下列：产品名

我有一个数据集，列标题为产品名称、品牌、评级（1:5）、评论文本、评论帮助性。我需要的是提出一个使用评论的推荐算法。我必须在这里使用python进行编码。数据集为.csv格式

为了确定数据集的性质，我需要在数据集上使用kmeans。如何在此数据集上使用k均值

于是我就这样做了，
1.数据预处理，
2.查看文本数据清理，
3.情绪分析，
4.根据他们获得的情绪值（通过情绪分析给出），将情绪评分从1到5，并将评论标记为非常消极、消极、中性、积极、非常积极

完成这些步骤后，我的数据集中有以下列：产品名称、品牌、评级（1:5）、评论文本、评论帮助性、情感价值、情感标签。

这是到数据集的链接

我试图得到k意味着使用下面的代码它运行没有错误。但我不知道这是否有用，或者是否有其他方法可以在这个数据集上使用kmeans来获得其他有用的输出。要确定更多关于数据的信息，我应该如何在此数据集中使用k means

import pandas as pd
import numpy as np
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
df.info()
X = np.array(df.drop(['sentiment_value'], 1).astype(float))
y = np.array(df['rating'])
kmeans = KMeans(n_clusters=2)
kmeans.fit(X)
KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,
    n_clusters=2, n_init=10, n_jobs=1, precompute_distances='auto',
    random_state=None, tol=0.0001, verbose=0)
plt.show()

你没有策划任何事情

所以什么都没有出现。

除非你更具体地说明你想要实现什么，否则我们无法提供帮助。弄清楚你到底想预测什么。你是只想根据他们的情绪分数对产品进行分类，而这并不是特别有希望，还是想在一个新的数据集上预测实际的产品偏好

如果你想建立一个推荐系统，唯一的可能性（考虑到你的数据集）是根据评级/情绪识别类似的产品。这就是你想要的吗

你能附上数据集吗？或者至少有一个csv文件的样本，这样我们就可以使用了？好的。谢谢你的回复这是数据集的链接