Python 构建具有可变长度文本的数据集
我正在用Tensorflow构建一个歌词生成器。 为此,我收集了数千首不同长度歌曲的数据集 到目前为止,我已经根据tensorflow文档中的basic构建了一个生成器。该版本使用一个大的文本语料库,切成100个字符的块进行训练。 为了更好地训练歌曲的结构,我想用单曲作为张量 现在,我已经在的文档中迷失了方向,试图找到某种方法将这些可变长度的文本转换为可学习的数据集。 我研究了和,但这两个选项似乎要么用于文本分类,要么也需要固定的序列长度 我探索的另一个选择是填充。然而,我的数据集中最长的文本几乎有5800个字符,而平均只有1100个。因此,将我所有的文本填充到可能的最长长度5800将导致比实际文本更多的填充,因此这似乎也不是一个明智的解决方案Python 构建具有可变长度文本的数据集,python,tensorflow,keras,nlp,dataset,Python,Tensorflow,Keras,Nlp,Dataset,我正在用Tensorflow构建一个歌词生成器。 为此,我收集了数千首不同长度歌曲的数据集 到目前为止,我已经根据tensorflow文档中的basic构建了一个生成器。该版本使用一个大的文本语料库,切成100个字符的块进行训练。 为了更好地训练歌曲的结构,我想用单曲作为张量 现在,我已经在的文档中迷失了方向,试图找到某种方法将这些可变长度的文本转换为可学习的数据集。 我研究了和,但这两个选项似乎要么用于文本分类,要么也需要固定的序列长度 我探索的另一个选择是填充。然而,我的数据集中最长的文本几
有没有更好的方法来创建具有不同长度张量的数据集?您这样做是为了学习更多关于低级张量流的知识吗?针对您的用例,建议在歌词语料库上微调GPT-2。