Python 处理分类自变量中的多个类

Python 处理分类自变量中的多个类,python,machine-learning,anomaly-detection,Python,Machine Learning,Anomaly Detection,数据集有4个分类变量、1个数字变量和一个时间戳变量。在4个类别变量中,有3个类别变量的类别超过100个。我没有此数据的标记变量。数据集的大小为100万行 我尝试使用“pd.get_dummies()”方法对整个数据集进行一次热编码,列数从6增加到6000。做虚拟变量的时间消耗超过3分钟 当您想要使用这些变量来构建一个使用机器学习来检测异常的模型时,如果您有一个一百万行的数据集,那么应该如何处理分类变量?是否应将其视为时间序列数据,但可以记录每天的数据,但不能以固定的间隔记录?什么模型可以应用于此

数据集有4个分类变量、1个数字变量和一个时间戳变量。在4个类别变量中,有3个类别变量的类别超过100个。我没有此数据的标记变量。数据集的大小为100万行

我尝试使用“pd.get_dummies()”方法对整个数据集进行一次热编码,列数从6增加到6000。做虚拟变量的时间消耗超过3分钟

当您想要使用这些变量来构建一个使用机器学习来检测异常的模型时,如果您有一个一百万行的数据集,那么应该如何处理分类变量?是否应将其视为时间序列数据,但可以记录每天的数据,但不能以固定的间隔记录?什么模型可以应用于此类数据集