以字母数字代码为特征的Tensorflow分类
我正在尝试构建Tensorflow分类模型,该模型使用字母数字代码作为特征。以下是数据集中的几个示例:以字母数字代码为特征的Tensorflow分类,tensorflow,machine-learning,neural-network,Tensorflow,Machine Learning,Neural Network,我正在尝试构建Tensorflow分类模型,该模型使用字母数字代码作为特征。以下是数据集中的几个示例: Code1 Code2 Code3 Class1 Class2 K21 LZ82 RR90 0 1 K99 LZ82 OPN1 0 1 N21 Z93 Z33 1 0 我知道我需要将这些字母数字字符串转换为某种向量/整数/浮点。我已经尝试过在语料库中使用最小-最大缩放的单词包(B
Code1 Code2 Code3 Class1 Class2
K21 LZ82 RR90 0 1
K99 LZ82 OPN1 0 1
N21 Z93 Z33 1 0
我知道我需要将这些字母数字字符串转换为某种向量/整数/浮点。我已经尝试过在语料库中使用最小-最大缩放的单词包(BOW),但是我的模型没有达到很好的准确性
在我总共6000个代码的语料库中,有些代码的使用次数高达40000次,因此从BOW开始有相当多的值。例如,在最小-最大缩放后,我得到的数据如下所示:
Code1 Code2 Code3 Class1 Class2
0.8736080064 0.2166280429 0.0008203277 0 1
作为补充信息,以下是我的网络体系结构:
const model = tf.sequential()
model.add(tf.layers.dense({ units: 200, activation: 'relu', inputShape [this.NUM_CODES_PER_RECORD] }))
model.add(tf.layers.dense({ units: 150, activation: 'relu' }))
model.add(tf.layers.dense({ units: 100, activation: 'relu' }))
model.add(tf.layers.dense({ units: this.NUM_CLASSES, activation: 'softmax' }))
根据我的理解,单词嵌入似乎比我的任务更与自然语言处理相关,所以我还没有尝试过嵌入
对于如何将这些字母数字代码转换为向量/整数/浮点数的建议,我将不胜感激。您是否尝试过“一种热编码”?谢谢你的建议,我考虑过一个热编码,但对于6000个唯一的代码,我认为它太稀疏了。是的,但那应该没问题。你会建议将每个代码转换成一个长度为6000的热数组吗?在我的例子中,我有3个长度为6000的数组,这是正确的。