Amazon web services 基于AWS机器学习的文本分类

Amazon web services 基于AWS机器学习的文本分类,amazon-web-services,machine-learning,document-classification,Amazon Web Services,Machine Learning,Document Classification,我一直在考虑使用AWS机器学习为我的项目实现一个分类程序。我有大约40000个文档,这些文档有几个纯文本功能。例如:名称(

我一直在考虑使用AWS机器学习为我的项目实现一个分类程序。我有大约40000个文档,这些文档有几个纯文本功能。例如:名称(<200个字符)和描述(可能有数百/数千个单词)

简而言之,我希望根据每个文档的内容为其分配类别(0或更多)

我已经阅读了AWS ML教程,并查阅了其他一些资料,但可用的资料似乎涉及数字、布尔值、日期时间或其他非文本的特征字段

AWS机器学习是否能够主要(或可能仅)基于文本字段对文档执行多类分类?如果有,是否有任何参考资料可用于这一特定途径

主要来说,您不需要“文本字段”,首先您必须从语料库(文本)中创建向量空间模型(VTM),然后您可以使用tf idf对VTM进行加权,还可以使用数字字段

您确定要应用AWS ML来训练只有40000个文档的语料库吗