Numpy 使用数字属性处理标称值的策略

Numpy 使用数字属性处理标称值的策略,numpy,machine-learning,pandas,scikit-learn,feature-selection,Numpy,Machine Learning,Pandas,Scikit Learn,Feature Selection,我正在使用一个数据集,该数据集主要由SFDC的标称值组成(例如EE名称、标题、角色、潜在客户来源、帐户名称等),并试图将这些特征与销售潜在客户是否转换为销售联系人的布尔类相关联 我想通过一些基本的特征选择算法来运行这些数据,但大多数只需要数值。我可以使用布尔映射方案将每个独特的分类映射到一个新字段(特征),但随后我将生成大量新特征,我不确定这是否会产生有意义的输出。诚然,最好的解决方案可能是通过决策树运行数据,但希望了解社区中是否有其他人提出的其他策略,用于处理在实际应用程序中成功使用的主要是名

我正在使用一个数据集,该数据集主要由SFDC的标称值组成(例如EE名称、标题、角色、潜在客户来源、帐户名称等),并试图将这些特征与销售潜在客户是否转换为销售联系人的布尔类相关联

我想通过一些基本的特征选择算法来运行这些数据,但大多数只需要数值。我可以使用布尔映射方案将每个独特的分类映射到一个新字段(特征),但随后我将生成大量新特征,我不确定这是否会产生有意义的输出。诚然,最好的解决方案可能是通过决策树运行数据,但希望了解社区中是否有其他人提出的其他策略,用于处理在实际应用程序中成功使用的主要是名义数据的数据集

我正在将python与scipy/numpy/pandas/scikit结合使用,学习如何进行分析。

我将首先尝试使用,然后尝试使用能够处理稀疏数据表示的Chi2单变量特征选择。例如,scikit learn中有一个对稀疏文本数据的chi2特征选择应用程序:

不幸的是,scikit learn的决策树和集成还不能用于稀疏表示