Python 将文本数据预处理为整数索引（如tensorFlow文本分类示例中的imdb数据集）_Python_Tensorflow_Keras

Python 将文本数据预处理为整数索引（如tensorFlow文本分类示例中的imdb数据集）

python tensorflow keras

Python 将文本数据预处理为整数索引（如tensorFlow文本分类示例中的imdb数据集）,python,tensorflow,keras,Python,Tensorflow,Keras,我一直在学习TensorFlow文本分类教程，对IMDB评论进行分类。 IMDB数据是keras发行版的一部分，下载时经过预处理。我想尝试一下我自己的文本。是否有一种有效的方法将我自己的文本预处理为word->int表示？我尝试过使用字典、元组和排序，但效率很低。我觉得有一种更有效的方法我已经扫描了nltk和keras预处理工具，但可能忽略了其中的一些内容。对于从文本序列到整数序列的简单转换，我们可以使用keras.preprocessing.text.Tokenizer模块标记器为语料库

我一直在学习TensorFlow文本分类教程，对IMDB评论进行分类。 IMDB数据是keras发行版的一部分，下载时经过预处理。我想尝试一下我自己的文本。是否有一种有效的方法将我自己的文本预处理为word->int表示？我尝试过使用字典、元组和排序，但效率很低。我觉得有一种更有效的方法

我已经扫描了nltk和keras预处理工具，但可能忽略了其中的一些内容。

对于从文本序列到整数序列的简单转换，我们可以使用keras.preprocessing.text.Tokenizer模块

标记器为语料库中的每个单词分配一个不为零的索引。使用这个词汇表，文本被标记化

假设，文本是你拥有的句子列表。那么

tokenizer = keras.preprocessing.text.Tokenizer()
tokenizer.fit_on_texts( texts )
tokenized_messages = tokenizer.texts_to_sequences( texts )
padded_messages = keras.preprocessing.sequence.pad_sequences( tokenized_messages , maxlen )

其中maxlen是标记化消息将主要通过添加零来填充的最大长度