Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/288.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 机器学习将公司名称按行业分类_Python_Machine Learning_Text Classification_Multilabel Classification - Fatal编程技术网

Python 机器学习将公司名称按行业分类

Python 机器学习将公司名称按行业分类,python,machine-learning,text-classification,multilabel-classification,Python,Machine Learning,Text Classification,Multilabel Classification,我试图做的是让用户输入一个公司名称,例如微软,并能够预测它在计算机软件行业。我有大约15万个名字和60多个行业。有些名称不是英文公司名称 我曾尝试使用仅基于公司名称的Gensim训练Word2Vec模型,并在将其输入SKlearn的逻辑回归之前对单词向量进行平均,但结果很糟糕。我的问题是: 有人试过这种任务吗?通过谷歌搜索短文本分类,我可以看到分类短句子而不是纯名称的结果。如果有人曾经尝试过这个,介意分享一些关于这个任务的关键词或研究论文吗 如果我对每家公司都有一个简短的描述,而不是只使用他们的

我试图做的是让用户输入一个公司名称,例如微软,并能够预测它在计算机软件行业。我有大约15万个名字和60多个行业。有些名称不是英文公司名称

我曾尝试使用仅基于公司名称的Gensim训练Word2Vec模型,并在将其输入SKlearn的逻辑回归之前对单词向量进行平均,但结果很糟糕。我的问题是:

  • 有人试过这种任务吗?通过谷歌搜索短文本分类,我可以看到分类短句子而不是纯名称的结果。如果有人曾经尝试过这个,介意分享一些关于这个任务的关键词或研究论文吗

  • 如果我对每家公司都有一个简短的描述,而不是只使用他们的名字,会更好吗?这对我的Word2Vec模型有多大帮助,而不是只使用公司名称


  • 不知道你想要什么

    如果重点是只使用公司名称,可以将名称分解为音节/音素,然后根据这些数据进行训练


    如果重点是使用Word2Vec,我建议为每家公司打开维基百科页面(比“关于我”更容易自动化)。

    对于你的问题,这只是公司-行业关系,因此,您必须使用公司描述数据训练word2vec,因为word2vec用于计算与给定单词相关的相似单词。因此,如果您进行训练,基于公司名称,这会给你带来不好的结果。如果你在描述方面进行培训,那么这会给你与特定行业相关的类似词汇。通过使用这些词汇,你可以得到它所属的行业


    如果您想根据公司名称进行培训,NER(命名实体标记器)将非常有用。但这并不准确。

    我删除了“关于我”部分,因为我不想强调如何获取数据。根据公司描述训练的Word2Vec模型会比根据音节训练的Word2Vec模型好吗?@Ayynonnim根据公司描述训练Word2Vec模型会很好。因为这样你可以捕捉公司名称使用的上下文,从而获得它所属的行业。请检查我的答案。你可以尝试使用带有
    softmax
    输出层的神经网络进行分类,因为您已经通过神经网络获得了单词向量。也可以与分类层同时训练嵌入字层,您的意思是“训练字嵌入层与分类层同时进行?”@黄建一个带a的网络)。输入层(公司名称或说明)。b) .单词嵌入层和c)<代码>softmax输出(分类)层。然后按行业(作为类别标签)对网络进行培训。