Python 构建具有可变长度文本的数据集_Python_Tensorflow_Keras_Nlp_Dataset

Python 构建具有可变长度文本的数据集

python tensorflow keras nlp

Python 构建具有可变长度文本的数据集,python,tensorflow,keras,nlp,dataset,Python,Tensorflow,Keras,Nlp,Dataset,我正在用Tensorflow构建一个歌词生成器。为此，我收集了数千首不同长度歌曲的数据集到目前为止，我已经根据tensorflow文档中的basic构建了一个生成器。该版本使用一个大的文本语料库，切成100个字符的块进行训练。为了更好地训练歌曲的结构，我想用单曲作为张量现在，我已经在的文档中迷失了方向，试图找到某种方法将这些可变长度的文本转换为可学习的数据集。我研究了和，但这两个选项似乎要么用于文本分类，要么也需要固定的序列长度我探索的另一个选择是填充。然而，我的数据集中最长的文本几

我正在用Tensorflow构建一个歌词生成器。为此，我收集了数千首不同长度歌曲的数据集

到目前为止，我已经根据tensorflow文档中的basic构建了一个生成器。该版本使用一个大的文本语料库，切成100个字符的块进行训练。为了更好地训练歌曲的结构，我想用单曲作为张量

现在，我已经在的文档中迷失了方向，试图找到某种方法将这些可变长度的文本转换为可学习的数据集。我研究了和，但这两个选项似乎要么用于文本分类，要么也需要固定的序列长度

我探索的另一个选择是填充。然而，我的数据集中最长的文本几乎有5800个字符，而平均只有1100个。因此，将我所有的文本填充到可能的最长长度5800将导致比实际文本更多的填充，因此这似乎也不是一个明智的解决方案

有没有更好的方法来创建具有不同长度张量的数据集？

您这样做是为了学习更多关于低级张量流的知识吗？针对您的用例，建议在歌词语料库上微调GPT-2。