Machine learning 使用谷歌搜索词汇列表，以便为特定类别构建一个词汇包_Machine Learning_Text Classification_Supervised Learning_Multiclass Classification

Machine learning 使用谷歌搜索词汇列表，以便为特定类别构建一个词汇包

machine-learning

Machine learning 使用谷歌搜索词汇列表，以便为特定类别构建一个词汇包,machine-learning,text-classification,supervised-learning,multiclass-classification,Machine Learning,Text Classification,Supervised Learning,Multiclass Classification,我很难理解构建一个单词包的过程。这将是一个多类分类监督机器学习问题，其中一个网页或一段文本被分配到多个预定义类别中的一个类别。现在，我在为特定类别（例如“数学”）构建一个单词包时所熟悉的方法是收集大量与数学相关的网页。从那里，我将执行一些数据处理（例如删除停止词和执行TF-IDF），以获得类别“Math”的词包问：我正在考虑的另一种方法是在谷歌上搜索类似“与数学相关的术语列表”的东西来构建我的单词包。我想问一下，这种方法是否可行另一个问题：在这个问题的上下文中，单词袋和语料库的意思是一样的吗

我很难理解构建一个单词包的过程。这将是一个多类分类监督机器学习问题，其中一个网页或一段文本被分配到多个预定义类别中的一个类别。现在，我在为特定类别（例如“数学”）构建一个单词包时所熟悉的方法是收集大量与数学相关的网页。从那里，我将执行一些数据处理（例如删除停止词和执行TF-IDF），以获得类别“Math”的词包

问：我正在考虑的另一种方法是在谷歌上搜索类似“与数学相关的术语列表”的东西来构建我的单词包。我想问一下，这种方法是否可行

另一个问题：在这个问题的上下文中，单词袋和语料库的意思是一样的吗

提前谢谢你

这不是一袋文字。单词袋是一个术语，用于描述表示给定文档的特定方式。也就是说，文档（段落、句子、网页）表示为表单的映射

word: how many times this word is present in a document
例如，“John喜欢猫和狗”将表示为：{John:1，likes:2，cats:1，and:1，dogs:1}。这种表示可以很容易地输入到典型的ML方法中（特别是假设总词汇量是有限的，所以我们最终使用数字向量）
请注意，这不是关于“为类别创建一袋单词”的。在典型的监督学习中，类别由多个文档组成，每个文档独立地表示为一袋单词

特别是，这会使您向google询问与类别相关的单词的最终建议无效——这不是典型的ML方法的工作方式。你会得到很多文档，将它们表示为一袋单词（或其他东西），然后执行统计分析（构建模型）以找出区分类别的最佳规则集。这些规则通常不是简单的“如果存在X这个词，这与Y有关”
你能给我一些例子说明你所说的执行统计分析（构建模型）是什么意思吗？链接也很好。我的意思是，比如训练一个朴素贝叶斯分类器，或者支持向量机，或者构建任何其他类型的P（分类样本）近似值哦，我明白了。我只是想澄清一下。对于网页分类问题，这是一个合适的过程吗？收集语料库/网页，并用预定义的类别（如“数学”或“体育”）->在测试集和训练集之间划分语料库->使用训练集，为特定类别构建词包->然后进行测试？你不会为类别构建词包。您可以将文本文档表示为一袋单词，然后对这些文档执行分类任务，分配标签并训练模型。正如@shirowww所说，正如答案中所述，单词袋是表示文档的一种方式，而不是类别。一旦这些文档呈弓形，就可以使用它们来学习到类别的映射