Python 编码独特特征

Python 编码独特特征,python,machine-learning,scikit-learn,Python,Machine Learning,Scikit Learn,我有一张excel表格,有两列: 单词2。语言 每行只有一个单词,它与一种语言直接相关 如何将这些单词和语言格式化为机器学习可接受的数据 我正在使用scikit学习和思考单词包,但在我看来,每个单词的索引化并不能传达每个单词的特征。从你的问题中,我想你是在问如何从单词中提取特征,用于训练分类器以确定单词的语言。我认为单词的长度和单词中的字符bigrams是一个很好的特征。看一看提取字符双字符图的方法。此外,可能适合使用NLTK分类器。比如说, from nltk.classify import

我有一张excel表格,有两列:

  • 单词2。语言
  • 每行只有一个单词,它与一种语言直接相关

    如何将这些单词和语言格式化为机器学习可接受的数据


    我正在使用scikit学习和思考单词包,但在我看来,每个单词的索引化并不能传达每个单词的特征。

    从你的问题中,我想你是在问如何从单词中提取特征,用于训练分类器以确定单词的语言。我认为单词的长度和单词中的字符bigrams是一个很好的特征。看一看提取字符双字符图的方法。此外,可能适合使用NLTK分类器。比如说,

    from nltk.classify import NaiveBayesClassifier
    nb = NaiveBayesClassifier.train(train_set)
    

    其中,
    train\u set
    应该是形式为
    [(特征,标签)]
    的元组列表,其中
    features
    是形式为
    {feature\u name:feature\u value}
    dict

    你的分类任务是什么?您希望培训系统的输入和输出是什么?@Hossein任务是将给定的单词分类为英语或荷兰语。这很有效,谢谢!您还知道如何在scikit learn中实现这一点吗?或者这些类型的分类问题应该只由nltk完成吗?@JesseVermeulen您也可以使用scikit学习。看,谢谢你的帮助!