如何将已知单词添加为python?

如何将已知单词添加为python?,python,keras,nlp,data-science,tokenize,Python,Keras,Nlp,Data Science,Tokenize,我想将文本转换为序列使用印尼语言的keras。但是keras标记器只检测已知单词 如何在keras中添加已知单词?或者有什么解决方案可以将文本转换为序列 from keras.preprocessing.text import Tokenizer tokenizer = Tokenizer(num_words=n_most_common_words, filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~', lower=True) tokenize

我想将文本转换为序列使用印尼语言的keras。但是keras标记器只检测已知单词

如何在keras中添加已知单词?或者有什么解决方案可以将文本转换为序列

from keras.preprocessing.text import Tokenizer
tokenizer = Tokenizer(num_words=n_most_common_words, filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~', lower=True)
tokenizer.fit_on_texts(concated['TITLE'].values)
txt = ["bisnis di indonesia sangat maju"]
seq = list(tokenizer.texts_to_sequences_generator(txt))
来自keras.preprocessing.text导入标记器的

标记器=标记器(num\u words=n\u最常见的\u单词,过滤器='!“\$%&()*+,-./:;?@[\]^ `{124;},下限=真)
标记器.fit_on_文本(concated['TITLE']值)
txt=[“印度尼西亚的比斯尼群岛”]
seq=列表(标记器.文本\u到\u序列\u生成器(txt))
如果我使用印尼语言,“seq”变量会产生空数组,如果我使用英语单词,它会工作得很好。如何在不同的语言中使用keras?或者在keras中添加一些已知的单词

谢谢

Keras不懂任何语言或单词。您可以使用
fit\u on_text
fit\u on_sequences
方法创建词汇表

我猜你是
fit
在一些英文文本(即
concated['TITLE'])上设置了标记符。值
。因此,内部词汇表只包含英语单词(而不包含印度尼西亚单词)。这解释了为什么
seq
如果
txt
只包含非英语单词,那么
seq
将为空


此外,您还可以查看。

不可能重现您的示例。您可以包含用于匹配标记器的文本吗?(连接的['TITLE'].值)。语言对标记器不重要。非常感谢,我的代码目前正在运行。是的,keras只知道fit_on_序列中的单词。