是否有一个Python文本挖掘脚本来对具有多个分类的文本进行分类?

是否有一个Python文本挖掘脚本来对具有多个分类的文本进行分类?,python,text,classification,mining,Python,Text,Classification,Mining,分类说明 我有一个问题,涉及到确定文本描述属于哪一类。这些文本描述由用户输入,可能包含可与特定类别匹配的关键字。每个类别都有一组可以匹配的关键字和短语。大约有100个类别。 例如,文本描述可能如下所示,“粗麻布过道跑步者w/borders”,类别“Fabric”包含关键字“Burlap”,因此文本描述可能属于该类别 文字说明/类别 橙色粗麻布过道流道,带边框/面料 然而,有几个例外情况使得分类过程更加困难 首先,存在包含与多个类别匹配的关键字的文本描述。例如,一个文本描述可能属于20个不同的类别

分类说明

我有一个问题,涉及到确定文本描述属于哪一类。这些文本描述由用户输入,可能包含可与特定类别匹配的关键字。每个类别都有一组可以匹配的关键字和短语。大约有100个类别。 例如,文本描述可能如下所示,“粗麻布过道跑步者w/borders”,类别“Fabric”包含关键字“Burlap”,因此文本描述可能属于该类别

文字说明/类别

橙色粗麻布过道流道,带边框/面料

然而,有几个例外情况使得分类过程更加困难

首先,存在包含与多个类别匹配的关键字的文本描述。例如,一个文本描述可能属于20个不同的类别(100个类别中的一个),因为这些类别中有相同的关键字。这不允许对文本描述进行正确分类

例如,文本描述为“橙色粗麻布过道跑步者w/borders”,其关键字“Orang”属于“水果”类别,同时由于关键字“粗麻布”也属于“织物”类别

文字说明/类别

橙色粗麻布过道跑鞋,带边框/面料、水果

其次,文本描述中有一些关键字与任何类别都不直接匹配。同样,这不允许对文本描述进行正确分类

例如,包含关键字“鼠标”的文本描述与类别“计算机附件”不直接匹配

有谁能推荐一种算法或python库,它可以对文本描述进行分类,而无需直接分类,并消除多重分类

我已经分解了文本描述和类别的关键字,然后匹配它们

这是我用来将文本描述与类别匹配的代码

%LivyPy3.pyspark

entries['category']=list(map(lambda i:list(map(categories_list.get,i)),entries['text_description']))
但是,从这个脚本中,要么有多个分类,要么根本没有分类。

我建议您查找,单词到向量化允许对短语和句子进行向量化,以便为单词应用更多上下文。Word-to-vec模型可以创建更好的单词关联模型

我也会搜索谷歌学者的论文,包括NLP和word2vec以及NIPS和分类。这项搜索产生了4300多篇论文,将为您解决问题提供很多方向。如果你只想选择一个类别,这是一项非常困难的任务。我看到了一个关于#Mailchimps NLP模型的演示,该模型用于将客户内容分类为多个类别,有时正确的类别实际上是第四个类别。他们创建的模型做得很好,但仍然无法检测到一些边缘情况,并且包含了一些典型的偏向于更常见的类别而非不太常见的类别


推荐引擎论文与您的任务相关,因为预测少量单词的上下文以提出搜索建议的复杂性也是一个类似的问题

这个问题对于堆栈溢出来说太广泛了。您已经概括地描述了自然语言处理、文本矢量化和推荐系统领域的一半。一个开始的地方可能是sklearn的精彩页面非常感谢你,Hearn先生,非常感谢。