Python 什么是功能散列(散列技巧)?
我知道特征散列(散列技巧)被用来降低维数和处理位向量的稀疏性,但我不明白它到底是如何工作的。有人能给我解释一下吗?有没有python库可以用来做特性哈希Python 什么是功能散列(散列技巧)?,python,hash,vector,machine-learning,Python,Hash,Vector,Machine Learning,我知道特征散列(散列技巧)被用来降低维数和处理位向量的稀疏性,但我不明白它到底是如何工作的。有人能给我解释一下吗?有没有python库可以用来做特性哈希 谢谢。(很抱歉,由于某些原因,我无法将此添加为评论。)此外,的第一页对其进行了很好的解释。关于熊猫,您可以使用以下内容: import pandas as pd import numpy as np data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'], '
谢谢。(很抱歉,由于某些原因,我无法将此添加为评论。)此外,的第一页对其进行了很好的解释。关于熊猫,您可以使用以下内容:
import pandas as pd
import numpy as np
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
'year': [2000, 2001, 2002, 2001, 2002],
'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}
data = pd.DataFrame(data)
def hash_col(df, col, N):
cols = [col + "_" + str(i) for i in range(N)]
def xform(x): tmp = [0 for i in range(N)]; tmp[hash(x) % N] = 1; return pd.Series(tmp,index=cols)
df[cols] = df[col].apply(xform)
return df.drop(col,axis=1)
print hash_col(data, 'state',4)
输出将是
pop year state_0 state_1 state_2 state_3
0 1.5 2000 0 1 0 0
1 1.7 2001 0 1 0 0
2 3.6 2002 0 1 0 0
3 2.4 2001 0 0 0 1
4 2.9 2002 0 0 0 1
同样在系列级,您可以
将numpy作为np、os导入
导入系统,作为pd
def hash_col(df, col, N):
df = df.replace('',np.nan)
cols = [col + "_" + str(i) for i in range(N)]
tmp = [0 for i in range(N)]
tmp[hash(df.ix[col]) % N] = 1
res = df.append(pd.Series(tmp,index=cols))
return res.drop(col)
a = pd.Series(['new york',30,''],index=['city','age','test'])
b = pd.Series(['boston',30,''],index=['city','age','test'])
print hash_col(a,'city',10)
print hash_col(b,'city',10)
这将适用于每个系列,列名称将假定为索引。它还将空白字符串替换为nan,并浮动所有内容
age 30
test NaN
city_0 0
city_1 0
city_2 0
city_3 0
city_4 0
city_5 0
city_6 0
city_7 1
city_8 0
city_9 0
dtype: object
age 30
test NaN
city_0 0
city_1 0
city_2 0
city_3 0
city_4 0
city_5 1
city_6 0
city_7 0
city_8 0
city_9 0
dtype: object
然而,如果有一个词汇表,并且您只想进行一次热编码,那么您可以使用
import numpy as np
import pandas as pd, os
import scipy.sparse as sps
def hash_col(df, col, vocab):
cols = [col + "=" + str(v) for v in vocab]
def xform(x): tmp = [0 for i in range(len(vocab))]; tmp[vocab.index(x)] = 1; return pd.Series(tmp,index=cols)
df[cols] = df[col].apply(xform)
return df.drop(col,axis=1)
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
'year': [2000, 2001, 2002, 2001, 2002],
'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}
df = pd.DataFrame(data)
df2 = hash_col(df, 'state', ['Ohio','Nevada'])
print sps.csr_matrix(df2)
这将给
pop year state=Ohio state=Nevada
0 1.5 2000 1 0
1 1.7 2001 1 0
2 3.6 2002 1 0
3 2.4 2001 0 1
4 2.9 2002 0 1
我还添加了最终数据帧的稀疏化。在增量设置中,我们可能事先没有遇到所有值(但我们以某种方式获得了所有可能值的列表),可以使用上述方法。增量ML方法在每次增量时需要相同数量的特征,因此一个热编码必须在每批中产生相同数量的行。大型稀疏特征可以从交互中衍生出来,U作为用户,X作为电子邮件,因此U X X的维数是内存密集型的。通常,像垃圾邮件过滤这样的任务也有时间限制 散列技巧像其他散列函数一样存储二进制位(索引),这使得大规模训练成为可能。从理论上讲,散列长度越长,性能就越高,如原论文所示 它将原始特征分配到不同的bucket(特征空间的有限长度)中,以保持它们的语义。即使垃圾邮件发送者使用拼写错误,也会错过雷达。虽然存在失真错误,但其散列形式仍然很接近 比如说, “快速棕色狐狸”转换为:
h(the) mod 5 = 0
h(quick) mod 5 = 1
h(brown) mod 5 = 1
h(fox) mod 5 = 3
使用索引而不是文本值,可以节省空间
要总结一些应用程序,请执行以下操作:
- 高维特征向量的降维
- 邮件分类任务中的文本,协同过滤垃圾邮件
- 稀疏化
- 空话
- 跨产品特性
- 多任务学习
- 原稿:
- 功能哈希用于大规模多任务学习
- 施,Q.,佩特森,J.,德罗,G.,兰福德,J.,斯莫拉,A.,斯特雷尔,A.,维什瓦纳森,V.(2009)散列内核
- Gionis,A.,Indyk,p.,和Motwani,R.(1999)。基于散列的高维相似性搜索
- 兰福德,J.,李,L.,和斯特雷尔,A.(2007)。WAW-pal wabbit在线学习项目(技术报告)李>
散列
可能会使用随机种子(在较新的Python 3.x中,默认情况下称为Python-R
)。脚本运行之间的结果可能不同。有关更健壮的实现,请参见我的答案。请随意使用任何其他hash()函数来代替上面所示的简单函数。除此之外,该代码段还完成了我所需要的一切——基于Pandas进行列重命名,基于N进行一次热编码,等等。您能否对选择用于特征哈希的维度数发表评论?@user423805。你能为字典“国家”中的另一个栏目重写第一段代码吗:[“美国”,“俄亥俄州”,“巴基斯坦”,“印度”,“印度]?我现在还不熟悉python,正在学习它。我只是想验证我对Langford等人的原始论文的理解。@user423805,我知道这篇文章已经结束了,但是我可以问你一个关于你给Maggie提供的答案的问题吗?我的问题是,为什么要将“state”变量存储为4个特性(state_0、state_1、state_2和state_3),而不是存储为5或6个特性?您能否评论特性哈希对学习模型的影响?因为会有散列冲突。是的,我知道它们是不可能的和最小的等等,但是碰撞会发生;这些碰撞对学习模型有什么影响?任何研究这个问题的建议都是值得赞赏的。有一点很清楚,从散列特性中学习到的模型不能保证与从原始未散列特性中获得的模型相同。Kai I'v补充了关于这个话题的原始论文。对误差边界和经验结果进行了分析。请看一看。我可以问一下为什么当“快速”和“棕色”是不同的词时,“h(快速)mod 5”和“h(棕色)mod 5”都等于1吗?