Python 将文本数据预处理为整数索引(如tensorFlow文本分类示例中的imdb数据集)

Python 将文本数据预处理为整数索引(如tensorFlow文本分类示例中的imdb数据集),python,tensorflow,keras,Python,Tensorflow,Keras,我一直在学习TensorFlow文本分类教程,对IMDB评论进行分类。 IMDB数据是keras发行版的一部分,下载时经过预处理。 我想尝试一下我自己的文本。是否有一种有效的方法将我自己的文本预处理为word->int表示?我尝试过使用字典、元组和排序,但效率很低。我觉得有一种更有效的方法 我已经扫描了nltk和keras预处理工具,但可能忽略了其中的一些内容。对于从文本序列到整数序列的简单转换,我们可以使用keras.preprocessing.text.Tokenizer模块 标记器为语料库

我一直在学习TensorFlow文本分类教程,对IMDB评论进行分类。 IMDB数据是keras发行版的一部分,下载时经过预处理。 我想尝试一下我自己的文本。是否有一种有效的方法将我自己的文本预处理为word->int表示?我尝试过使用字典、元组和排序,但效率很低。我觉得有一种更有效的方法


我已经扫描了nltk和keras预处理工具,但可能忽略了其中的一些内容。

对于从文本序列到整数序列的简单转换,我们可以使用keras.preprocessing.text.Tokenizer模块

标记器为语料库中的每个单词分配一个不为零的索引。使用这个词汇表,文本被标记化

假设,文本是你拥有的句子列表。那么

tokenizer = keras.preprocessing.text.Tokenizer()
tokenizer.fit_on_texts( texts )
tokenized_messages = tokenizer.texts_to_sequences( texts )
padded_messages = keras.preprocessing.sequence.pad_sequences( tokenized_messages , maxlen )
其中maxlen是标记化消息将主要通过添加零来填充的最大长度