Python 如何使用标记器函数tensorflow标记标点
我使用Python 如何使用标记器函数tensorflow标记标点,python,tensorflow,keras,nlp,tokenize,Python,Tensorflow,Keras,Nlp,Tokenize,我使用tensorflow.keras.preprocessing.text中的Tokenizer()函数作为: from tensorflow.keras.preprocessing.text import Tokenizer s = ["The quick brown fox jumped over the lazy dog."] t = Tokenizer() t.fit_on_texts(s) print(t.word_index) 输出: {'the': 1, '
tensorflow.keras.preprocessing.text中的Tokenizer()
函数作为:
from tensorflow.keras.preprocessing.text import Tokenizer
s = ["The quick brown fox jumped over the lazy dog."]
t = Tokenizer()
t.fit_on_texts(s)
print(t.word_index)
输出:
{'the': 1, 'quick': 2, 'brown': 3, 'fox': 4, 'jumped': 5, 'over': 6, 'lazy': 7, 'dog': 8}
标记器函数不包括标点符号。如何标记标点符号呢?(
,在本例中。)一种可能性是用空格将标点符号与单词分开。我使用预处理函数pad\u标点符号
来实现这一点。在此之后,我使用filter=''
结果:
{'the': 1, 'quick': 2, 'brown': 3, 'fox': 4, 'jumped': 5, 'over': 6, 'lazy': 7, 'dog': 8, '.': 9}
pad\u标点符号
功能对所有标点符号都有效
{'the': 1, 'quick': 2, 'brown': 3, 'fox': 4, 'jumped': 5, 'over': 6, 'lazy': 7, 'dog': 8, '.': 9}