Machine learning 不同值可能超过一百万的分类数据使用什么编码

Machine learning 不同值可能超过一百万的分类数据使用什么编码,machine-learning,scikit-learn,Machine Learning,Scikit Learn,我的机器学习用例是根据姓名和国籍这两个特征来分类性别是男性(1)还是女性(2)。记录总数为8000万条。示例如下所示: Name Nationality Gender John 201 1 Sue 401 2 Smith 401 1 .... Millions of rows (but to start I'm just picking 10K records) 据我所知,分类数据必须进行编码。我已经看过很多例

我的机器学习用例是根据姓名和国籍这两个特征来分类性别是男性(1)还是女性(2)。记录总数为8000万条。示例如下所示:

Name    Nationality Gender
John    201           1
Sue     401           2
Smith   401           1
.... Millions of rows (but to start I'm just picking 10K records)
据我所知,分类数据必须进行编码。我已经看过很多例子,我可以看到这些例子中的不同值是合理的,而在我的用例中,不同值甚至可以是一百万。我一开始只是使用大约10K的样本,实现了labelEncoder和不同的算法。一点也不准确。decisionTreeClassifier的最佳值为0.78。机器学习新手,我有以下问题:

  • 我认为只需要对名称进行编码。你觉得怎么样
  • 考虑到可能存在以下情况,在这种情况下使用什么编码器 数十万个不同的值
  • 您认为哪种算法更适合这种情况 有问题吗

  • 尝试在功能探索方面做更多的工作,例如n-gams可能会有用 这可能有助于你了解未知的例子


    仅仅是一个名字对你没有多大帮助,它只是一个记忆

    试着在功能探索方面做更多的工作,例如n-gams可能会有用 这可能有助于你了解未知的例子

    一个名字对你没有多大帮助,只是记忆而已