如何将已知单词添加为python？_Python_Keras_Nlp_Data Science_Tokenize

如何将已知单词添加为python？

python keras nlp

如何将已知单词添加为python？,python,keras,nlp,data-science,tokenize,Python,Keras,Nlp,Data Science,Tokenize,我想将文本转换为序列使用印尼语言的keras。但是keras标记器只检测已知单词如何在keras中添加已知单词？或者有什么解决方案可以将文本转换为序列 from keras.preprocessing.text import Tokenizer tokenizer = Tokenizer(num_words=n_most_common_words, filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~', lower=True) tokenize

我想将文本转换为序列使用印尼语言的keras。但是keras标记器只检测已知单词

如何在keras中添加已知单词？或者有什么解决方案可以将文本转换为序列

from keras.preprocessing.text import Tokenizer
tokenizer = Tokenizer(num_words=n_most_common_words, filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~', lower=True)
tokenizer.fit_on_texts(concated['TITLE'].values)
txt = ["bisnis di indonesia sangat maju"]
seq = list(tokenizer.texts_to_sequences_generator(txt))

来自keras.preprocessing.text导入标记器的


标记器=标记器（num\u words=n\u最常见的\u单词，过滤器='！“\$%&（）*+，-./：；？@[\]^ `{124;}，下限=真）
标记器.fit_on_文本（concated['TITLE']值）
txt=[“印度尼西亚的比斯尼群岛”]
seq=列表（标记器.文本\u到\u序列\u生成器（txt））

如果我使用印尼语言，“seq”变量会产生空数组，如果我使用英语单词，它会工作得很好。如何在不同的语言中使用keras？或者在keras中添加一些已知的单词

谢谢

Keras不懂任何语言或单词。您可以使用

fit\u on_text

或

fit\u on_sequences

方法创建词汇表

我猜你是

fit

在一些英文文本（即

concated['TITLE']）上设置了标记符。值

。因此，内部词汇表只包含英语单词（而不包含印度尼西亚单词）。这解释了为什么

seq

如果

txt

只包含非英语单词，那么

seq

将为空

此外，您还可以查看。

不可能重现您的示例。您可以包含用于匹配标记器的文本吗？（连接的['TITLE'].值）。语言对标记器不重要。非常感谢，我的代码目前正在运行。是的，keras只知道fit_on_序列中的单词。