Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/tensorflow/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
以字母数字代码为特征的Tensorflow分类_Tensorflow_Machine Learning_Neural Network - Fatal编程技术网

以字母数字代码为特征的Tensorflow分类

以字母数字代码为特征的Tensorflow分类,tensorflow,machine-learning,neural-network,Tensorflow,Machine Learning,Neural Network,我正在尝试构建Tensorflow分类模型,该模型使用字母数字代码作为特征。以下是数据集中的几个示例: Code1 Code2 Code3 Class1 Class2 K21 LZ82 RR90 0 1 K99 LZ82 OPN1 0 1 N21 Z93 Z33 1 0 我知道我需要将这些字母数字字符串转换为某种向量/整数/浮点。我已经尝试过在语料库中使用最小-最大缩放的单词包(B

我正在尝试构建Tensorflow分类模型,该模型使用字母数字代码作为特征。以下是数据集中的几个示例:

Code1   Code2   Code3   Class1  Class2
K21     LZ82    RR90    0       1
K99     LZ82    OPN1    0       1
N21     Z93     Z33     1       0
我知道我需要将这些字母数字字符串转换为某种向量/整数/浮点。我已经尝试过在语料库中使用最小-最大缩放的单词包(BOW),但是我的模型没有达到很好的准确性

在我总共6000个代码的语料库中,有些代码的使用次数高达40000次,因此从BOW开始有相当多的值。例如,在最小-最大缩放后,我得到的数据如下所示:

Code1           Code2           Code3           Class1  Class2
0.8736080064    0.2166280429    0.0008203277    0       1
作为补充信息,以下是我的网络体系结构:

const model = tf.sequential()
model.add(tf.layers.dense({ units: 200, activation: 'relu', inputShape [this.NUM_CODES_PER_RECORD] }))
model.add(tf.layers.dense({ units: 150, activation: 'relu' }))
model.add(tf.layers.dense({ units: 100, activation: 'relu' }))
model.add(tf.layers.dense({ units: this.NUM_CLASSES, activation: 'softmax' }))
根据我的理解,单词嵌入似乎比我的任务更与自然语言处理相关,所以我还没有尝试过嵌入


对于如何将这些字母数字代码转换为向量/整数/浮点数的建议,我将不胜感激。

您是否尝试过“一种热编码”?谢谢你的建议,我考虑过一个热编码,但对于6000个唯一的代码,我认为它太稀疏了。是的,但那应该没问题。你会建议将每个代码转换成一个长度为6000的热数组吗?在我的例子中,我有3个长度为6000的数组,这是正确的。