Nlp 有关于giza+的教程吗+;?
其“自述”文件中的URL无效(和)。有关于giza++的好教程吗?或者是否有一些具有完整文档的替代方案 也许是这个Nlp 有关于giza+的教程吗+;?,nlp,machine-translation,giza++,Nlp,Machine Translation,Giza++,其“自述”文件中的URL无效(和)。有关于giza++的好教程吗?或者是否有一些具有完整文档的替代方案 也许是这个 完整来源:以下内容摘自我为一门课准备的教程。(注意:这假设您已在*nix系统上成功安装GIZA++-v2。) 从两个数据文件开始,其中包含已标记的平行句子,每行一句。例如,一对平行的英文-法文文件可能如下所示 示例1-列车.en I gave him the book . He read the book . He loved the book . 示例2-train.f
完整来源:以下内容摘自我为一门课准备的教程。(注意:这假设您已在*nix系统上成功安装GIZA++-v2。)
列车.en
I gave him the book .
He read the book .
He loved the book .
示例2-train.fr
Je lui ai donne/ le livre .
Il a lu le livre .
Il aimait le livre .
plain2snt.out
运行这些文件,以获取目标和源词汇表文件(*.vcb
)以及句子对文件(*.snt
)./plain2snt.out TEXT1 TEXT2
其中TEXT1
和TEXT2
是步骤1中描述的数据文件
这将在与TEXT1
和TEXT2
相同的目录中生成四个文件(假设它们位于相同的目录中):
- TEXT1_TEXT2.snt
- TEXT1.vcb
- TEXT2_TEXT1.snt
- TEXT2.vcb
*.snt
文件的命名约定,第一个文件假定为源文件,第二个文件假定为目标语言。例如,在文件TEXT1_TEXT2.snt
中,第一行是语料库中第一对句子出现的次数,第二行是与TEXT1.vcb
文件中的单词对应的数字字符串,第三行是与TEXT2.vcb
文件中的单词对应的数字字符串
TEXT1.vcb
、TEXT2.vcb
,以及两个*.snt
文件中的任何一个都可以用作GIZA++的输入,以生成对齐./GIZA++ -s TEXT1.vcb -t TEXT2.vcb -c TEXT1_TEXT2.snt
但请注意,当我尝试运行此程序时,我必须将
TEXT1_TEXT2.snt
重命名为名称中没有下划线的名称,以便获得正确的输出。这里有一个关于如何格式化输入文件以及如何运行GIZA++的补充说明:
这篇Powerpoint教程对我很有用:这篇非常有用: IIT-B学者已经为GIZA++和MOSES的设置和使用做了详细的介绍 其中包括:
第二个链接已断开。这个问题有点争议(什么是“好”的教程?)。你应该在它关闭之前尝试改进它。两个链接都已失效…另请参阅,谢谢你这么长时间完整的回答!:)如果出现类似“error:NO COOCURRENCE FILE gived!”的错误,您应该生成一个带有“snt2cooc.out train.en.vcb train.fr.vcb corpus.snt>cooc.cooc”的COOCURRENCE文件,然后运行“GIZA++-S train.en.vcb-T train.fr.vcb-C corpus.snt-COOCURRENCE FILE cooc.cooc”在一些教程中,我发现它们告诉您生成一个*.vcb.classes文件,但我找不到关于它是什么或为什么需要它的任何信息。你能详细说明一下吗?不再有了。不再有了。