Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/tensorflow/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 构建具有可变长度文本的数据集_Python_Tensorflow_Keras_Nlp_Dataset - Fatal编程技术网

Python 构建具有可变长度文本的数据集

Python 构建具有可变长度文本的数据集,python,tensorflow,keras,nlp,dataset,Python,Tensorflow,Keras,Nlp,Dataset,我正在用Tensorflow构建一个歌词生成器。 为此,我收集了数千首不同长度歌曲的数据集 到目前为止,我已经根据tensorflow文档中的basic构建了一个生成器。该版本使用一个大的文本语料库,切成100个字符的块进行训练。 为了更好地训练歌曲的结构,我想用单曲作为张量 现在,我已经在的文档中迷失了方向,试图找到某种方法将这些可变长度的文本转换为可学习的数据集。 我研究了和,但这两个选项似乎要么用于文本分类,要么也需要固定的序列长度 我探索的另一个选择是填充。然而,我的数据集中最长的文本几

我正在用Tensorflow构建一个歌词生成器。 为此,我收集了数千首不同长度歌曲的数据集

到目前为止,我已经根据tensorflow文档中的basic构建了一个生成器。该版本使用一个大的文本语料库,切成100个字符的块进行训练。 为了更好地训练歌曲的结构,我想用单曲作为张量

现在,我已经在的文档中迷失了方向,试图找到某种方法将这些可变长度的文本转换为可学习的数据集。 我研究了和,但这两个选项似乎要么用于文本分类,要么也需要固定的序列长度

我探索的另一个选择是填充。然而,我的数据集中最长的文本几乎有5800个字符,而平均只有1100个。因此,将我所有的文本填充到可能的最长长度5800将导致比实际文本更多的填充,因此这似乎也不是一个明智的解决方案


有没有更好的方法来创建具有不同长度张量的数据集?

您这样做是为了学习更多关于低级张量流的知识吗?针对您的用例,建议在歌词语料库上微调GPT-2。