如何将已知单词添加为python?
我想将文本转换为序列使用印尼语言的keras。但是keras标记器只检测已知单词 如何在keras中添加已知单词?或者有什么解决方案可以将文本转换为序列如何将已知单词添加为python?,python,keras,nlp,data-science,tokenize,Python,Keras,Nlp,Data Science,Tokenize,我想将文本转换为序列使用印尼语言的keras。但是keras标记器只检测已知单词 如何在keras中添加已知单词?或者有什么解决方案可以将文本转换为序列 from keras.preprocessing.text import Tokenizer tokenizer = Tokenizer(num_words=n_most_common_words, filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~', lower=True) tokenize
from keras.preprocessing.text import Tokenizer
tokenizer = Tokenizer(num_words=n_most_common_words, filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~', lower=True)
tokenizer.fit_on_texts(concated['TITLE'].values)
txt = ["bisnis di indonesia sangat maju"]
seq = list(tokenizer.texts_to_sequences_generator(txt))
来自keras.preprocessing.text导入标记器的
标记器=标记器(num\u words=n\u最常见的\u单词,过滤器='!“\$%&()*+,-./:;?@[\]^ `{124;},下限=真)
标记器.fit_on_文本(concated['TITLE']值)
txt=[“印度尼西亚的比斯尼群岛”]
seq=列表(标记器.文本\u到\u序列\u生成器(txt))
如果我使用印尼语言,“seq”变量会产生空数组,如果我使用英语单词,它会工作得很好。如何在不同的语言中使用keras?或者在keras中添加一些已知的单词
谢谢Keras不懂任何语言或单词。您可以使用fit\u on_text
或fit\u on_sequences
方法创建词汇表
我猜你是fit
在一些英文文本(即concated['TITLE'])上设置了标记符。值
。因此,内部词汇表只包含英语单词(而不包含印度尼西亚单词)。这解释了为什么seq
如果txt
只包含非英语单词,那么seq
将为空
此外,您还可以查看。不可能重现您的示例。您可以包含用于匹配标记器的文本吗?(连接的['TITLE'].值)。语言对标记器不重要。非常感谢,我的代码目前正在运行。是的,keras只知道fit_on_序列中的单词。