Text 需要运动、娱乐、健康等类别和所有子类别的培训数据

Text 需要运动、娱乐、健康等类别和所有子类别的培训数据,text,machine-learning,wikipedia,document-classification,Text,Machine Learning,Wikipedia,Document Classification,我正在试验ML中的分类算法,并寻找一些语料库来训练我的模型,以区分不同的类别,如体育、天气、科技、足球、板球等 我需要一些关于在哪里可以找到这些类别的数据集的指针 对我来说,另一个选择是浏览维基百科,获取30多个类别的数据,但如果有更好的方法,我需要一些头脑风暴和意见 编辑 针对这些类别,使用单词袋方法训练模型 测试-根据网页的内容将新的/未知的网站分类为这些预定义的类别。包含用于监督学习的可搜索数据集存档 如果您提供关于理想数据集的输入和输出的更具体信息,您可能会得到更好的答案 编辑: 看起

我正在试验ML中的分类算法,并寻找一些语料库来训练我的模型,以区分不同的类别,如体育、天气、科技、足球、板球等

我需要一些关于在哪里可以找到这些类别的数据集的指针

对我来说,另一个选择是浏览维基百科,获取30多个类别的数据,但如果有更好的方法,我需要一些头脑风暴和意见

编辑 针对这些类别,使用单词袋方法训练模型 测试-根据网页的内容将新的/未知的网站分类为这些预定义的类别。

包含用于监督学习的可搜索数据集存档

如果您提供关于理想数据集的输入和输出的更具体信息,您可能会得到更好的答案

编辑:

  • 看起来像
  • ,按科目分类
包含用于监督学习的可搜索数据集档案

如果您提供关于理想数据集的输入和输出的更具体信息,您可能会得到更好的答案

编辑:

  • 看起来像
  • ,按科目分类

您想对什么进行分类?图像?新闻报道?音频评论?我正在尝试对网页进行分类(只对网页中的文本进行分类),这可能更适合吗?你想对什么进行分类?图像?新闻报道?音频评论?我正在尝试对网页(仅网页中的文本)进行分类,这是否更适合?