Machine learning 基于文本字段的机器学习预测文本字段

Machine learning 基于文本字段的机器学习预测文本字段,machine-learning,amazon,prediction,ibm-watson,predictionio,Machine Learning,Amazon,Prediction,Ibm Watson,Predictionio,我从事机器学习和预测大约一个月。我尝试过IBM watson与bluemix、amazon机器学习和predictionIO的合作。我想做的是基于其他字段预测文本字段。我的csv文件有四个文本字段,分别命名为问题、摘要、描述、答案和大约4500行/record。上载的数据集中没有数字字段。典型的记录如下所示 {'Question':'sys down','Summary':'does not boot after OS update','Description':'Desktop does no

我从事机器学习和预测大约一个月。我尝试过IBM watson与bluemix、amazon机器学习和predictionIO的合作。我想做的是基于其他字段预测文本字段。我的csv文件有四个
文本字段
,分别命名为
问题、摘要、描述、答案
和大约4500行/record。上载的数据集中没有数字字段。典型的记录如下所示

{'Question':'sys down','Summary':'does not boot after OS update','Description':'Desktop does not boot','Answer':'Switch to safemode and rollback last update'}
在IBM watson上,我发现了一个问题和一个回复,即目前无法进行自定义语料库上传。然后我转到亚马逊机器学习。我遵循他们的文档,并能够使用api在自定义应用程序中实现预测。我测试了一下,一切都是数字的。我成功地上传了数据,并通过他们的库获得了电影推荐。当我尝试上载我的csv文件时,我遇到的问题是,
无法选择任何文本字段作为目标
。然后我添加了csv中每个值对应的数值。这种方法使预测成功,但精度不正确。可能csv必须以更好的方式格式化

movielens数据的记录粘贴在下面。它说userid196在时间(unix时间戳)881250949时给了电影id242一个双星评级

196 242 3   881250949
目前我正在努力。movielens数据库上的测试已成功运行,没有出现使用建议模板中所述的问题。但是仍然不清楚基于其他文本字段预测文本字段的可能性


预测是仅在数值字段上运行,还是可以基于其他文本字段预测文本字段?

否,预测不仅仅在数值字段上运行。它可以是任何东西,包括文本。我猜MovieLens数据使用ID而不是实际的用户名和电影名,因为

  • 这节省了存储空间(此数据集在那里存在很长一段时间,那时存储肯定是一个问题),并且

  • 无需知道实际用户名(隐私问题)

  • 对于您的情况,您可能需要查看文本分类模板。您需要对每个记录的分类方式进行建模