Nlp 从Wordnet命令行工具获取POS概率

Nlp 从Wordnet命令行工具获取POS概率,nlp,wordnet,Nlp,Wordnet,我正在写一些关于ruby通过wn命令行工具访问wordnet的实验,因为我放弃了让wordnet gem工作 我希望能够查找词义的频率,最终能够计算出给定单词是名词/形容词/动词/副词的概率 我试过文档,但并不总是那么明确 如果不使用wn工具,这是否可行?我写的是thinking wordnet包含这一信息吗?据我所知,它本身并不包含频率,尽管在返回结果中,语法集是从最频繁到最不频繁排序的 您可以通过多种方式获得实际频率。也许最可靠的方法是使用像Penn TreeBank这样的POS标记语料库,

我正在写一些关于ruby通过wn命令行工具访问wordnet的实验,因为我放弃了让wordnet gem工作

我希望能够查找词义的频率,最终能够计算出给定单词是名词/形容词/动词/副词的概率

我试过文档,但并不总是那么明确


如果不使用wn工具,这是否可行?我写的是thinking wordnet包含这一信息吗?

据我所知,它本身并不包含频率,尽管在返回结果中,语法集是从最频繁到最不频繁排序的


您可以通过多种方式获得实际频率。也许最可靠的方法是使用像Penn TreeBank这样的POS标记语料库,然后自己计算值。不幸的是,如果你不是在大学里,获得免费的副本是很困难的。另一种选择是构建自己的语料库(可能来自博客、古腾堡计划书籍、维基百科等等),在其上运行POS标记器,然后计算频率。显然,这种方法会有偏差,但它比手动标记语料库容易得多。

据我所知,它本身并不包括频率,尽管语法集在返回结果中按从最频繁到最不频繁的顺序排列


您可以通过多种方式获得实际频率。也许最可靠的方法是使用像Penn TreeBank这样的POS标记语料库,然后自己计算值。不幸的是,如果你不是在大学里,获得免费的副本是很困难的。另一种选择是构建自己的语料库(可能来自博客、古腾堡计划书籍、维基百科等等),在其上运行POS标记器,然后计算频率。显然,这种方法会有偏差,但它比手动标记语料库容易得多。

谢谢。我认为你是对的,wordnet并没有明确包含全面的频率数据,尽管它确实给出了不同感觉的观察计数(我不确定是什么),从中可以估计频率。这些计数出现在
wn-over
输出中的检测定义旁边。也就是说,我一直在使用现成的解析器(比如Engtager),谢谢。我认为你是对的,wordnet并没有明确包含全面的频率数据,尽管它确实给出了不同感觉的观察计数(我不确定是什么),从中可以估计频率。这些计数出现在
wn-over
输出中的检测定义旁边。也就是说,我一直在使用现成的解析器(比如Engtager)