Python 编码独特特征
我有一张excel表格,有两列:Python 编码独特特征,python,machine-learning,scikit-learn,Python,Machine Learning,Scikit Learn,我有一张excel表格,有两列: 单词2。语言 每行只有一个单词,它与一种语言直接相关 如何将这些单词和语言格式化为机器学习可接受的数据 我正在使用scikit学习和思考单词包,但在我看来,每个单词的索引化并不能传达每个单词的特征。从你的问题中,我想你是在问如何从单词中提取特征,用于训练分类器以确定单词的语言。我认为单词的长度和单词中的字符bigrams是一个很好的特征。看一看提取字符双字符图的方法。此外,可能适合使用NLTK分类器。比如说, from nltk.classify import
我正在使用scikit学习和思考单词包,但在我看来,每个单词的索引化并不能传达每个单词的特征。从你的问题中,我想你是在问如何从单词中提取特征,用于训练分类器以确定单词的语言。我认为单词的长度和单词中的字符bigrams是一个很好的特征。看一看提取字符双字符图的方法。此外,可能适合使用NLTK分类器。比如说,
from nltk.classify import NaiveBayesClassifier
nb = NaiveBayesClassifier.train(train_set)
其中,
train\u set
应该是形式为[(特征,标签)]
的元组列表,其中features
是形式为{feature\u name:feature\u value}
的dict
你的分类任务是什么?您希望培训系统的输入和输出是什么?@Hossein任务是将给定的单词分类为英语或荷兰语。这很有效,谢谢!您还知道如何在scikit learn中实现这一点吗?或者这些类型的分类问题应该只由nltk完成吗?@JesseVermeulen您也可以使用scikit学习。看,谢谢你的帮助!