Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/asp.net/33.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Nlp 有关于giza+的教程吗+;?_Nlp_Machine Translation_Giza++ - Fatal编程技术网

Nlp 有关于giza+的教程吗+;?

Nlp 有关于giza+的教程吗+;?,nlp,machine-translation,giza++,Nlp,Machine Translation,Giza++,其“自述”文件中的URL无效(和)。有关于giza++的好教程吗?或者是否有一些具有完整文档的替代方案 也许是这个 完整来源:以下内容摘自我为一门课准备的教程。(注意:这假设您已在*nix系统上成功安装GIZA++-v2。) 从两个数据文件开始,其中包含已标记的平行句子,每行一句。例如,一对平行的英文-法文文件可能如下所示 示例1-列车.en I gave him the book . He read the book . He loved the book . 示例2-train.f

其“自述”文件中的URL无效(和)。有关于giza++的好教程吗?或者是否有一些具有完整文档的替代方案

也许是这个


完整来源:

以下内容摘自我为一门课准备的教程。(注意:这假设您已在*nix系统上成功安装GIZA++-v2。)


  • 从两个数据文件开始,其中包含已标记的平行句子,每行一句。例如,一对平行的英文-法文文件可能如下所示
  • 示例1-
    列车.en

    I gave him the book . 
    He read the book . 
    He loved the book .
    
    示例2-
    train.fr

    Je lui ai donne/ le livre .
    Il a lu le livre .
    Il aimait le livre .
    
  • 通过
    plain2snt.out
    运行这些文件,以获取目标和源词汇表文件(
    *.vcb
    )以及句子对文件(
    *.snt
  • 从GIZA++目录中,运行:

    ./plain2snt.out TEXT1 TEXT2
    
    其中
    TEXT1
    TEXT2
    是步骤1中描述的数据文件

    这将在与
    TEXT1
    TEXT2
    相同的目录中生成四个文件(假设它们位于相同的目录中):

    • TEXT1_TEXT2.snt
    • TEXT1.vcb
    • TEXT2_TEXT1.snt
    • TEXT2.vcb
    vocab文件包含文本中每个单词的唯一(整数)ID(注意:未标记化/标记化)、单词/字符串以及该字符串出现的次数。它们由单个空格字符分隔

    句子文件包含数字。对于每个句子对,有三行:第一行是句子对在语料库中出现的次数计数,第二行和第三行是与vocab文件中的单词条目相对应的(空格分隔的)数字字符串。根据
    *.snt
    文件的命名约定,第一个文件假定为源文件,第二个文件假定为目标语言。例如,在文件
    TEXT1_TEXT2.snt
    中,第一行是语料库中第一对句子出现的次数,第二行是与
    TEXT1.vcb
    文件中的单词对应的数字字符串,第三行是与
    TEXT2.vcb
    文件中的单词对应的数字字符串

  • 现在,
    TEXT1.vcb
    TEXT2.vcb
    ,以及两个
    *.snt
    文件中的任何一个都可以用作GIZA++的输入,以生成对齐
  • 例如:

    ./GIZA++ -s TEXT1.vcb -t TEXT2.vcb -c TEXT1_TEXT2.snt
    

    但请注意,当我尝试运行此程序时,我必须将
    TEXT1_TEXT2.snt
    重命名为名称中没有下划线的名称,以便获得正确的输出。

    这里有一个关于如何格式化输入文件以及如何运行GIZA++的补充说明:


    这篇Powerpoint教程对我很有用:

    这篇非常有用:

    IIT-B学者已经为GIZA++和MOSES的设置和使用做了详细的介绍

    其中包括:


    第二个链接已断开。这个问题有点争议(什么是“好”的教程?)。你应该在它关闭之前尝试改进它。两个链接都已失效…另请参阅,谢谢你这么长时间完整的回答!:)如果出现类似“error:NO COOCURRENCE FILE gived!”的错误,您应该生成一个带有“snt2cooc.out train.en.vcb train.fr.vcb corpus.snt>cooc.cooc”的COOCURRENCE文件,然后运行“GIZA++-S train.en.vcb-T train.fr.vcb-C corpus.snt-COOCURRENCE FILE cooc.cooc”在一些教程中,我发现它们告诉您生成一个*.vcb.classes文件,但我找不到关于它是什么或为什么需要它的任何信息。你能详细说明一下吗?不再有了。不再有了。