Machine learning 使用谷歌搜索词汇列表,以便为特定类别构建一个词汇包

Machine learning 使用谷歌搜索词汇列表,以便为特定类别构建一个词汇包,machine-learning,text-classification,supervised-learning,multiclass-classification,Machine Learning,Text Classification,Supervised Learning,Multiclass Classification,我很难理解构建一个单词包的过程。这将是一个多类分类监督机器学习问题,其中一个网页或一段文本被分配到多个预定义类别中的一个类别。现在,我在为特定类别(例如“数学”)构建一个单词包时所熟悉的方法是收集大量与数学相关的网页。从那里,我将执行一些数据处理(例如删除停止词和执行TF-IDF),以获得类别“Math”的词包 问:我正在考虑的另一种方法是在谷歌上搜索类似“与数学相关的术语列表”的东西来构建我的单词包。我想问一下,这种方法是否可行 另一个问题:在这个问题的上下文中,单词袋和语料库的意思是一样的吗

我很难理解构建一个单词包的过程。这将是一个多类分类监督机器学习问题,其中一个网页或一段文本被分配到多个预定义类别中的一个类别。现在,我在为特定类别(例如“数学”)构建一个单词包时所熟悉的方法是收集大量与数学相关的网页。从那里,我将执行一些数据处理(例如删除停止词和执行TF-IDF),以获得类别“Math”的词包

问:我正在考虑的另一种方法是在谷歌上搜索类似“与数学相关的术语列表”的东西来构建我的单词包。我想问一下,这种方法是否可行

另一个问题:在这个问题的上下文中,单词袋和语料库的意思是一样的吗


提前谢谢你

这不是一袋文字。单词袋是一个术语,用于描述表示给定文档的特定方式。也就是说,文档(段落、句子、网页)表示为表单的映射

word: how many times this word is present in a document
例如,“John喜欢猫和狗”将表示为:{John:1,likes:2,cats:1,and:1,dogs:1}。这种表示可以很容易地输入到典型的ML方法中(特别是假设总词汇量是有限的,所以我们最终使用数字向量)

请注意,这不是关于“为类别创建一袋单词”的。在典型的监督学习中,类别由多个文档组成,每个文档独立地表示为一袋单词


特别是,这会使您向google询问与类别相关的单词的最终建议无效——这不是典型的ML方法的工作方式。你会得到很多文档,将它们表示为一袋单词(或其他东西),然后执行统计分析(构建模型)以找出区分类别的最佳规则集。这些规则通常不是简单的“如果存在X这个词,这与Y有关”

你能给我一些例子说明你所说的执行统计分析(构建模型)是什么意思吗?链接也很好。我的意思是,比如训练一个朴素贝叶斯分类器,或者支持向量机,或者构建任何其他类型的P(分类样本)近似值哦,我明白了。我只是想澄清一下。对于网页分类问题,这是一个合适的过程吗?收集语料库/网页,并用预定义的类别(如“数学”或“体育”)->在测试集和训练集之间划分语料库->使用训练集,为特定类别构建词包->然后进行测试?你不会为类别构建词包。您可以将文本文档表示为一袋单词,然后对这些文档执行分类任务,分配标签并训练模型。正如@shirowww所说,正如答案中所述,单词袋是表示文档的一种方式,而不是类别。一旦这些文档呈弓形,就可以使用它们来学习到类别的映射