Text 如何创建培训集?-文本分类

Text 如何创建培训集?-文本分类,text,Text,我想创建一个文本分类器,将音乐歌词分类到它的相关类别。 在我阅读了一些相关研究后,他们说,首先我们需要使用一些文档手动创建培训集。 但是,这真的是手册吗?我的意思是,我们是否在没有指南或一些技巧的情况下对培训集文档进行分组? 关于这个话题,我真的需要一些明确的解释或建议。谢谢。您可以将样本集拆分为训练集和测试集。例如,您可以使用70%的样本作为训练集,剩余的30%作为测试集。如果应该随机进行。你会想在这个问题上应用机器学习技术。也就是说,你有一套从你的歌词中衍生出来的功能(例如,关键词的频率或类

我想创建一个文本分类器,将音乐歌词分类到它的相关类别。 在我阅读了一些相关研究后,他们说,首先我们需要使用一些文档手动创建培训集。 但是,这真的是手册吗?我的意思是,我们是否在没有指南或一些技巧的情况下对培训集文档进行分组?
关于这个话题,我真的需要一些明确的解释或建议。谢谢。

您可以将样本集拆分为训练集和测试集。例如,您可以使用70%的样本作为训练集,剩余的30%作为测试集。如果应该随机进行。

你会想在这个问题上应用机器学习技术。也就是说,你有一套从你的歌词中衍生出来的功能(例如,关键词的频率或类似的,尽管我从未处理过这个特定的问题),这些功能映射到一些标签(流行音乐、摇滚乐等)

现在,机器学习算法需要一些参考分类,因为它不知道流行歌曲中出现的词比摇滚歌曲中出现的词更频繁

不管它们来自何处,你可以从图表列表(流行图表、摇滚图表等)中选择分类,例如,你从每个图表中选择歌曲列表,并将歌词与相应标签一起提供给学习者。 在这种情况下,结果将是一个预测模型,其中一首新歌将出现在这些图表中


或者,可以使用歌词和标签手动定义训练集。这完全取决于你想学什么。如果您计划创建您的个性化库,那么使用手动定义的测试用例是有意义的。如果是关于测试算法或类似的问题,请使用一些易于访问的数据,如图表。在这种情况下,您应该尝试学习“黑盒”方法,该方法决定某首歌曲属于哪个图表(例如,创建购物车列表的人的音乐品味)。

@hfernandez-我认为该人不想知道如何将整个样本分割到训练和测试集中。