Machine learning 处理文本数据进行分类

Machine learning 处理文本数据进行分类,machine-learning,neural-network,Machine Learning,Neural Network,假设我们有由离散值和文本字符串组成的输入数据,并且输出应该是一组标记 要将这些数据转换成可以输入神经网络的数据,我很难弄清楚如何处理文本输入 仅使用文本输入,我假设生成思想向量的RNN可以工作,但是我有点不确定如何提供其余的输入数据。如果您使用RNN处理文本输入,那么RNN的输出可以与离散特征的一个热编码连接。然后,可以将串联的向量馈送到输出层(例如,用于计算跨多个标签的交叉熵损失的logistic) 类似地,如果使用嵌入层映射输入文本,也可以学习离散特征的另一种嵌入。然后可以将两个嵌入的要素族

假设我们有由离散值和文本字符串组成的输入数据,并且输出应该是一组标记

要将这些数据转换成可以输入神经网络的数据,我很难弄清楚如何处理文本输入


仅使用文本输入,我假设生成思想向量的RNN可以工作,但是我有点不确定如何提供其余的输入数据。

如果您使用RNN处理文本输入,那么RNN的输出可以与离散特征的一个热编码连接。然后,可以将串联的向量馈送到输出层(例如,用于计算跨多个标签的交叉熵损失的logistic)

类似地,如果使用嵌入层映射输入文本,也可以学习离散特征的另一种嵌入。然后可以将两个嵌入的要素族连接起来,以输入到输出层中


稍微无关的后续问题:你能详细说明年龄的4维嵌入吗?我举了一个离散特征的例子。我假设您有几个有效值,例如:18或更少、19到35、36到45、46或更高。因为基数很低,所以我使用了一个低嵌入维度。谢谢你的澄清!非常感谢。我会尝试正常化年龄,只使用一个维度;然而,这听起来很有趣!