Python 编码独特特征_Python_Machine Learning_Scikit Learn

Python 编码独特特征

python machine-learning scikit-learn

Python 编码独特特征,python,machine-learning,scikit-learn,Python,Machine Learning,Scikit Learn,我有一张excel表格，有两列：单词2。语言每行只有一个单词，它与一种语言直接相关如何将这些单词和语言格式化为机器学习可接受的数据我正在使用scikit学习和思考单词包，但在我看来，每个单词的索引化并不能传达每个单词的特征。从你的问题中，我想你是在问如何从单词中提取特征，用于训练分类器以确定单词的语言。我认为单词的长度和单词中的字符bigrams是一个很好的特征。看一看提取字符双字符图的方法。此外，可能适合使用NLTK分类器。比如说, from nltk.classify import

我有一张excel表格，有两列：

单词2。语言

每行只有一个单词，它与一种语言直接相关

如何将这些单词和语言格式化为机器学习可接受的数据

我正在使用scikit学习和思考单词包，但在我看来，每个单词的索引化并不能传达每个单词的特征。

从你的问题中，我想你是在问如何从单词中提取特征，用于训练分类器以确定单词的语言。我认为单词的长度和单词中的字符bigrams是一个很好的特征。看一看提取字符双字符图的方法。此外，可能适合使用NLTK分类器。比如说,

from nltk.classify import NaiveBayesClassifier
nb = NaiveBayesClassifier.train(train_set)

其中，

train\u set

应该是形式为

[（特征，标签）]

的元组列表，其中

features

是形式为

{feature\u name:feature\u value}

的

dict

你的分类任务是什么？您希望培训系统的输入和输出是什么？@Hossein任务是将给定的单词分类为英语或荷兰语。这很有效，谢谢！您还知道如何在scikit learn中实现这一点吗？或者这些类型的分类问题应该只由nltk完成吗？@JesseVermeulen您也可以使用scikit学习。看，谢谢你的帮助！