Python 用于自动化的文本标记/分类
我有机会自动化并使用ML来释放我的时间 在DevOps jerkin automation中,我需要标准化阶段名称,但在企业中,对于2000+项目,一些阶段名称会自动基于项目名称、存储库名称进行框显,这可能不符合标准。有一个报告,它提取所有这些未分类的新管线阶段名称,并使用模式匹配,将它们手动分类到不同的桶中。 当我尝试使用sci工具包时,大多数算法都不接受字符串作为输入。Python 用于自动化的文本标记/分类,python,machine-learning,classification,Python,Machine Learning,Classification,我有机会自动化并使用ML来释放我的时间 在DevOps jerkin automation中,我需要标准化阶段名称,但在企业中,对于2000+项目,一些阶段名称会自动基于项目名称、存储库名称进行框显,这可能不符合标准。有一个报告,它提取所有这些未分类的新管线阶段名称,并使用模式匹配,将它们手动分类到不同的桶中。 当我尝试使用sci工具包时,大多数算法都不接受字符串作为输入。 这组人中的任何人都可以指出正确的算法和样本以供使用这是机器学习中的一个常见问题,许多算法都假设您已将分类列更改为数字列 首
这组人中的任何人都可以指出正确的算法和样本以供使用这是机器学习中的一个常见问题,许多算法都假设您已将分类列更改为数字列 首先,你可以用遗嘱 使用0到n_class-1之间的值对标签进行编码 此方法将字符串转换为整数 然后,您需要考虑这个方法是否相关。通常不是这样,因为在不同的单词之间会有一个层次结构,算法可能会认为单词5大于单词4(事实并非如此) 您可以使用(在使用LabelEncoder之后,因为OneHotEncoder对数字列进行编码) 这将为每个类别创建一个二进制列,并返回一个稀疏矩阵或密集数组 请注意,OneHotEncoder将使功能数量成倍增加,这可能是训练模型的一个问题 您还可以使用而不是LabelEncoder和OneHotEncoder。看看这两种方法的比较 许多NLP算法也使用“”模型。看看图书馆,它可能会帮助你们解决你们的问题