Python 3.x 如何为textsum准备测试数据?
我已经能够成功运行预先训练的模型(Tensorflow 1.2.1)。输出包括CNN和Dailymail文章的摘要(在测试之前,将其压缩成bin格式) 我还能够为CNN/Dailymail文章和vocab文件创建上述bin格式的测试数据(按照说明)。但是,我无法创建自己的测试数据来检查摘要的好坏。我已尝试修改Python 3.x 如何为textsum准备测试数据?,python-3.x,tensorflow,nlp,pre-trained-model,textsum,Python 3.x,Tensorflow,Nlp,Pre Trained Model,Textsum,我已经能够成功运行预先训练的模型(Tensorflow 1.2.1)。输出包括CNN和Dailymail文章的摘要(在测试之前,将其压缩成bin格式) 我还能够为CNN/Dailymail文章和vocab文件创建上述bin格式的测试数据(按照说明)。但是,我无法创建自己的测试数据来检查摘要的好坏。我已尝试修改make_datafiles.py代码以删除had编码值。我能够创建标记化文件,但下一步似乎失败了。如果有人能帮助我了解url\u列表的用途,那就太好了。根据github自述- “对于每个u
make_datafiles.py
代码以删除had编码值。我能够创建标记化文件,但下一步似乎失败了。如果有人能帮助我了解url\u列表的用途,那就太好了。根据github自述-
“对于每个url列出的所有_train.txt、所有_val.txt和所有_test.txt,相应的标记化故事将从文件中读取、小写并写入序列化的二进制文件train.bin、val.bin和test.bin。这些文件将放在新创建的finished_files目录中。”
URL(例如)如何映射到我的数据文件夹中的相应故事?如果有人成功地做到了这一点,请让我知道如何去做这件事。提前谢谢 更新:我能够想出如何使用自己的数据创建bin文件进行测试(并避免使用url\u列表
)
这将有助于:
一旦我弄明白如何修正盗贼得分,我会更新答案