Machine learning 基于文本字段的机器学习预测文本字段_Machine Learning_Amazon_Prediction_Ibm Watson_Predictionio

Machine learning 基于文本字段的机器学习预测文本字段

machine-learning

Machine learning 基于文本字段的机器学习预测文本字段,machine-learning,amazon,prediction,ibm-watson,predictionio,Machine Learning,Amazon,Prediction,Ibm Watson,Predictionio,我从事机器学习和预测大约一个月。我尝试过IBM watson与bluemix、amazon机器学习和predictionIO的合作。我想做的是基于其他字段预测文本字段。我的csv文件有四个文本字段，分别命名为问题、摘要、描述、答案和大约4500行/record。上载的数据集中没有数字字段。典型的记录如下所示 {'Question':'sys down','Summary':'does not boot after OS update','Description':'Desktop does no

我从事机器学习和预测大约一个月。我尝试过IBM watson与bluemix、amazon机器学习和predictionIO的合作。我想做的是基于其他字段预测文本字段。我的csv文件有四个

文本字段

，分别命名为

问题、摘要、描述、答案

和大约4500行/record。上载的数据集中没有数字字段。典型的记录如下所示

{'Question':'sys down','Summary':'does not boot after OS update','Description':'Desktop does not boot','Answer':'Switch to safemode and rollback last update'}

在IBM watson上，我发现了一个问题和一个回复，即目前无法进行自定义语料库上传。然后我转到亚马逊机器学习。我遵循他们的文档，并能够使用api在自定义应用程序中实现预测。我测试了一下，一切都是数字的。我成功地上传了数据，并通过他们的库获得了电影推荐。当我尝试上载我的csv文件时，我遇到的问题是，

无法选择任何文本字段作为目标

。然后我添加了csv中每个值对应的数值。这种方法使预测成功，但精度不正确。可能csv必须以更好的方式格式化

movielens数据的记录粘贴在下面。它说userid196在时间（unix时间戳）881250949时给了电影id242一个双星评级

196 242 3   881250949

目前我正在努力。movielens数据库上的测试已成功运行，没有出现使用建议模板中所述的问题。但是仍然不清楚基于其他文本字段预测文本字段的可能性

预测是仅在数值字段上运行，还是可以基于其他文本字段预测文本字段？

否，预测不仅仅在数值字段上运行。它可以是任何东西，包括文本。我猜MovieLens数据使用ID而不是实际的用户名和电影名，因为

这节省了存储空间（此数据集在那里存在很长一段时间，那时存储肯定是一个问题），并且

无需知道实际用户名（隐私问题）

对于您的情况，您可能需要查看文本分类模板。您需要对每个记录的分类方式进行建模