Machine learning 不同值可能超过一百万的分类数据使用什么编码_Machine Learning_Scikit Learn

Machine learning 不同值可能超过一百万的分类数据使用什么编码

machine-learning scikit-learn

Machine learning 不同值可能超过一百万的分类数据使用什么编码,machine-learning,scikit-learn,Machine Learning,Scikit Learn,我的机器学习用例是根据姓名和国籍这两个特征来分类性别是男性（1）还是女性（2）。记录总数为8000万条。示例如下所示： Name Nationality Gender John 201 1 Sue 401 2 Smith 401 1 .... Millions of rows (but to start I'm just picking 10K records) 据我所知，分类数据必须进行编码。我已经看过很多例

我的机器学习用例是根据姓名和国籍这两个特征来分类性别是男性（1）还是女性（2）。记录总数为8000万条。示例如下所示：

Name    Nationality Gender
John    201           1
Sue     401           2
Smith   401           1
.... Millions of rows (but to start I'm just picking 10K records)

据我所知，分类数据必须进行编码。我已经看过很多例子，我可以看到这些例子中的不同值是合理的，而在我的用例中，不同值甚至可以是一百万。我一开始只是使用大约10K的样本，实现了labelEncoder和不同的算法。一点也不准确。decisionTreeClassifier的最佳值为0.78。机器学习新手，我有以下问题：

我认为只需要对名称进行编码。你觉得怎么样

考虑到可能存在以下情况，在这种情况下使用什么编码器数十万个不同的值

您认为哪种算法更适合这种情况有问题吗

尝试在功能探索方面做更多的工作，例如n-gams可能会有用这可能有助于你了解未知的例子

仅仅是一个名字对你没有多大帮助，它只是一个记忆

试着在功能探索方面做更多的工作，例如n-gams可能会有用这可能有助于你了解未知的例子

一个名字对你没有多大帮助，只是记忆而已