Python 对新传入数据使用哈希技巧_Python_Pandas_Feature Extraction_Dummy Variable_One Hot Encoding

Python 对新传入数据使用哈希技巧

python pandas

Python 对新传入数据使用哈希技巧,python,pandas,feature-extraction,dummy-variable,one-hot-encoding,Python,Pandas,Feature Extraction,Dummy Variable,One Hot Encoding,在我训练和部署我的模型之后，是否还有使用散列技巧的方法？假设我有以下数据，并按如下方式启动了Cat功能： from sklearn.feature_extraction import FeatureHasher D = {"ID": [1,2,3,4,5,6,7,8,9,10], "Cat": ["A", "A", "B", "A", "A", "B", "A", "B", "B", "B"]} df = pd.DataFrame(D) fh = FeatureHasher(n_featur

在我训练和部署我的模型之后，是否还有使用散列技巧的方法？假设我有以下数据，并按如下方式启动了

Cat

功能：

from sklearn.feature_extraction import FeatureHasher 

D = {"ID": [1,2,3,4,5,6,7,8,9,10], "Cat": ["A", "A", "B", "A", "A", "B", "A", "B", "B", "B"]}
df = pd.DataFrame(D)
fh = FeatureHasher(n_features=1, input_type='string')
hashed_features = fh.fit_transform(df['Cat'])
hashed_features.toarray()

如何使用taser散列传入的新数据？我在找一些东西，比如：

fh.predict('A')

我是否应该在培训期间从散列过程构建一个字典，然后将新的传入数据映射到构建字典？有更好的办法吗

使用

FeatureHasher.transform（）

。例如，在代码中尝试以下操作：

fh.transform(['A','B']).toarray()

# array([[ 1.], [-1.]])