Nlp 有关于giza+的教程吗+；？_Nlp_Machine Translation_Giza++

Nlp 有关于giza+的教程吗+；？

nlp

Nlp 有关于giza+的教程吗+；？,nlp,machine-translation,giza++,Nlp,Machine Translation,Giza++,其“自述”文件中的URL无效（和）。有关于giza++的好教程吗？或者是否有一些具有完整文档的替代方案也许是这个完整来源：以下内容摘自我为一门课准备的教程。（注意：这假设您已在*nix系统上成功安装GIZA++-v2。）从两个数据文件开始，其中包含已标记的平行句子，每行一句。例如，一对平行的英文-法文文件可能如下所示示例1-列车.en I gave him the book . He read the book . He loved the book . 示例2-train.f

其“自述”文件中的URL无效（和）。有关于giza++的好教程吗？或者是否有一些具有完整文档的替代方案

也许是这个

完整来源：

以下内容摘自我为一门课准备的教程。（注意：这假设您已在*nix系统上成功安装GIZA++-v2。）

从两个数据文件开始，其中包含已标记的平行句子，每行一句。例如，一对平行的英文-法文文件可能如下所示

示例1-

列车.en

I gave him the book . 
He read the book . 
He loved the book .

示例2-

train.fr

Je lui ai donne/ le livre .
Il a lu le livre .
Il aimait le livre .

通过

plain2snt.out

运行这些文件，以获取目标和源词汇表文件（

*.vcb

）以及句子对文件（

*.snt

）

从GIZA++目录中，运行：

./plain2snt.out TEXT1 TEXT2

其中

TEXT1

和

TEXT2

是步骤1中描述的数据文件

这将在与

TEXT1

和

TEXT2

相同的目录中生成四个文件（假设它们位于相同的目录中）：

TEXT1_TEXT2.snt
TEXT1.vcb
TEXT2_TEXT1.snt
TEXT2.vcb

vocab文件包含文本中每个单词的唯一（整数）ID（注意：未标记化/标记化）、单词/字符串以及该字符串出现的次数。它们由单个空格字符分隔

句子文件包含数字。对于每个句子对，有三行：第一行是句子对在语料库中出现的次数计数，第二行和第三行是与vocab文件中的单词条目相对应的（空格分隔的）数字字符串。根据

*.snt

文件的命名约定，第一个文件假定为源文件，第二个文件假定为目标语言。例如，在文件

TEXT1_TEXT2.snt

中，第一行是语料库中第一对句子出现的次数，第二行是与

TEXT1.vcb

文件中的单词对应的数字字符串，第三行是与

TEXT2.vcb

文件中的单词对应的数字字符串

现在，

TEXT1.vcb

、

TEXT2.vcb

，以及两个

*.snt

文件中的任何一个都可以用作GIZA++的输入，以生成对齐

例如：

./GIZA++ -s TEXT1.vcb -t TEXT2.vcb -c TEXT1_TEXT2.snt

但请注意，当我尝试运行此程序时，我必须将

TEXT1_TEXT2.snt

重命名为名称中没有下划线的名称，以便获得正确的输出。

这里有一个关于如何格式化输入文件以及如何运行GIZA++的补充说明：

这篇Powerpoint教程对我很有用：

这篇非常有用：

IIT-B学者已经为GIZA++和MOSES的设置和使用做了详细的介绍

其中包括：

第二个链接已断开。这个问题有点争议（什么是“好”的教程？）。你应该在它关闭之前尝试改进它。两个链接都已失效…另请参阅，谢谢你这么长时间完整的回答！：）如果出现类似“error:NO COOCURRENCE FILE gived！”的错误，您应该生成一个带有“snt2cooc.out train.en.vcb train.fr.vcb corpus.snt>cooc.cooc”的COOCURRENCE文件，然后运行“GIZA++-S train.en.vcb-T train.fr.vcb-C corpus.snt-COOCURRENCE FILE cooc.cooc”在一些教程中，我发现它们告诉您生成一个*.vcb.classes文件，但我找不到关于它是什么或为什么需要它的任何信息。你能详细说明一下吗？不再有了。不再有了。