Xml WMT&x27;15新闻测试数据集:.sgm格式

Xml WMT&x27;15新闻测试数据集:.sgm格式,xml,machine-learning,nlp,moses,Xml,Machine Learning,Nlp,Moses,将newstest数据集从.sgm格式转换为未格式化格式(如europarl数据集)使用了哪些脚本(以及如何使用) e、 g.下载的newstest数据集位于: 包含(提取时)文件,如newstest2015-ende-ref.de.sgm 我如何使其类似于europarl数据集,其中每行表示一个没有格式的句子 注: 我在moses目录(从wmt站点链接)中找到了一个脚本,名为。 它在测试部分提到,它用于转到.sgm格式,但脚本本身不包含任何文档(我对perl一无所知)sgm文件有点恼人,因此我

将newstest数据集从.sgm格式转换为未格式化格式(如europarl数据集)使用了哪些脚本(以及如何使用)

e、 g.下载的newstest数据集位于:

包含(提取时)文件,如newstest2015-ende-ref.de.sgm

我如何使其类似于europarl数据集,其中每行表示一个没有格式的句子

注:

我在moses目录(从wmt站点链接)中找到了一个脚本,名为。
它在测试部分提到,它用于转到.sgm格式,但脚本本身不包含任何文档(我对perl一无所知)

sgm文件有点恼人,因此我们创建了这样一个文件:顺便说一句,WMT测试集不应该来自Europarl。可能,如果您正在寻找Europarl,这就是您正在寻找的内容,例如,纯文本格式:。Jorg Tiedeman=)@alvas辛苦编辑感谢您的回复,我正在寻找wtm'15与luong/Chung的机器翻译结果进行比较。我尝试运行您提供的脚本,通过注释底部和放置范围(14,15)中的内容,得到了一个关于缺少
'metric\u data/WMT14/references/newstest2014-ref.hi-en'
的错误,但这不是sgm格式?这是如何处理.sgm格式的?sgm文件有点恼人,所以我们创建了这个:顺便说一句,WMT测试集不应该来自Europarl。可能,如果您正在寻找Europarl,这就是您正在寻找的内容,例如,纯文本格式:。Jorg Tiedeman=)@alvas辛苦编辑感谢您的回复,我正在寻找wtm'15与luong/Chung的机器翻译结果进行比较。我尝试运行您提供的脚本,通过注释底部和放置范围(14,15)中的内容,得到了一个关于缺少
'metric\u data/WMT14/references/newstest2014-ref.hi-en'
的错误,但这不是sgm格式?这是如何处理.sgm格式的?