以字母数字代码为特征的Tensorflow分类_Tensorflow_Machine Learning_Neural Network

以字母数字代码为特征的Tensorflow分类

tensorflow machine-learning neural-network

以字母数字代码为特征的Tensorflow分类,tensorflow,machine-learning,neural-network,Tensorflow,Machine Learning,Neural Network,我正在尝试构建Tensorflow分类模型，该模型使用字母数字代码作为特征。以下是数据集中的几个示例： Code1 Code2 Code3 Class1 Class2 K21 LZ82 RR90 0 1 K99 LZ82 OPN1 0 1 N21 Z93 Z33 1 0 我知道我需要将这些字母数字字符串转换为某种向量/整数/浮点。我已经尝试过在语料库中使用最小-最大缩放的单词包（B

我正在尝试构建Tensorflow分类模型，该模型使用字母数字代码作为特征。以下是数据集中的几个示例：

Code1   Code2   Code3   Class1  Class2
K21     LZ82    RR90    0       1
K99     LZ82    OPN1    0       1
N21     Z93     Z33     1       0

我知道我需要将这些字母数字字符串转换为某种向量/整数/浮点。我已经尝试过在语料库中使用最小-最大缩放的单词包（BOW），但是我的模型没有达到很好的准确性

在我总共6000个代码的语料库中，有些代码的使用次数高达40000次，因此从BOW开始有相当多的值。例如，在最小-最大缩放后，我得到的数据如下所示：

Code1           Code2           Code3           Class1  Class2
0.8736080064    0.2166280429    0.0008203277    0       1

作为补充信息，以下是我的网络体系结构：

const model = tf.sequential()
model.add(tf.layers.dense({ units: 200, activation: 'relu', inputShape [this.NUM_CODES_PER_RECORD] }))
model.add(tf.layers.dense({ units: 150, activation: 'relu' }))
model.add(tf.layers.dense({ units: 100, activation: 'relu' }))
model.add(tf.layers.dense({ units: this.NUM_CLASSES, activation: 'softmax' }))

根据我的理解，单词嵌入似乎比我的任务更与自然语言处理相关，所以我还没有尝试过嵌入

对于如何将这些字母数字代码转换为向量/整数/浮点数的建议，我将不胜感激。

您是否尝试过“一种热编码”？谢谢你的建议，我考虑过一个热编码，但对于6000个唯一的代码，我认为它太稀疏了。是的，但那应该没问题。你会建议将每个代码转换成一个长度为6000的热数组吗？在我的例子中，我有3个长度为6000的数组，这是正确的。