Python 如何将多个序列设置为KERAS中的特征
我想用Keras建立命名实体识别模型。 以下是我遵循的链接: 数据如下所示:Python 如何将多个序列设置为KERAS中的特征,python,machine-learning,keras,nlp,Python,Machine Learning,Keras,Nlp,我想用Keras建立命名实体识别模型。 以下是我遵循的链接: 数据如下所示: word label 0 Thousands O 1 of O 2 demonstrators O 3 have O 4 marched O ... ... ... 44187 there
word label
0 Thousands O
1 of O
2 demonstrators O
3 have O
4 marched O
... ... ...
44187 there O
44188 accidentally O
44189 or O
44190 deliberately O
44191 . O
他们使用单词到向量,因此他们对单词和标签进行索引,因此X
是我的特征(单词索引序列),而y
是我的结果(标签索引序列):
但如果我有这样的数据集呢:
这里我有另一个专栏,那就是POS
。如何将POS
列的值添加到我的功能中?
因此,基本上,我不希望在我的X*中只包含word
值,我还希望在我的X*中包含POS
值(或任何其他值)
如果我有多个列,例如:
word
POS
is_capital_letter
word_length
如何将所有这些列添加到Keras expect中的我的功能中[samples,timesteps,features]
- 样本是典型的独立观测值。在你的情况下,我假设这些是句子
- Timesteps是连续提供给模型的独立输入变量。这些应该是一句话中的单词
- 特征是一个观察的单独度量,也称为。一个单词的特征
transforms=(word2idx,pos2idx,…)
X=[[[i][w[i]]]表示范围内的i(n)]表示s中的w]表示s中的s
Y=[[label2idx[w[n]]表示s中的w]表示s中的s
当然,如果您有数字或其他类型的功能,那么您应该使用其他方法进行转换,而不是word2idx、pos2idx等。。。dicts,例如单词长度的MinMaxScaling等
填充也适用于新的X和Y,但它使用相同的值扩展每个特征,使其长度max_len。根据每个特征的subtitute值,这里很可能使用详细的填充
word
POS
is_capital_letter
word_length