Python 对新传入数据使用哈希技巧
在我训练和部署我的模型之后,是否还有使用散列技巧的方法?假设我有以下数据,并按如下方式启动了Python 对新传入数据使用哈希技巧,python,pandas,feature-extraction,dummy-variable,one-hot-encoding,Python,Pandas,Feature Extraction,Dummy Variable,One Hot Encoding,在我训练和部署我的模型之后,是否还有使用散列技巧的方法?假设我有以下数据,并按如下方式启动了Cat功能: from sklearn.feature_extraction import FeatureHasher D = {"ID": [1,2,3,4,5,6,7,8,9,10], "Cat": ["A", "A", "B", "A", "A", "B", "A", "B", "B", "B"]} df = pd.DataFrame(D) fh = FeatureHasher(n_featur
Cat
功能:
from sklearn.feature_extraction import FeatureHasher
D = {"ID": [1,2,3,4,5,6,7,8,9,10], "Cat": ["A", "A", "B", "A", "A", "B", "A", "B", "B", "B"]}
df = pd.DataFrame(D)
fh = FeatureHasher(n_features=1, input_type='string')
hashed_features = fh.fit_transform(df['Cat'])
hashed_features.toarray()
如何使用taser散列传入的新数据?我在找一些东西,比如:
fh.predict('A')
我是否应该在培训期间从散列过程构建一个字典,然后将新的传入数据映射到构建字典?有更好的办法吗 使用
FeatureHasher.transform()
。例如,在代码中尝试以下操作:
fh.transform(['A','B']).toarray()
# array([[ 1.], [-1.]])