Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/c/72.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
C 用于简单词性标注的NLP库_C_Nlp_Artificial Intelligence_Tagging - Fatal编程技术网

C 用于简单词性标注的NLP库

C 用于简单词性标注的NLP库,c,nlp,artificial-intelligence,tagging,C,Nlp,Artificial Intelligence,Tagging,我是一名学生,正在NLP做一个暑期项目。我是这个领域的新手,所以如果有一个非常明显的解决方案,我很抱歉。该项目使用C语言,这是因为我对它很熟悉,而且该项目的计算密集型(我的语料库是维基百科的纯文本转储) 我正在研究一种关系提取的方法,利用一致性原则尝试学习(在一定的错误阈值内)一组规则,这些规则指示哪些语法对象簇暗示这些对象之间的连接 算法的第一个步骤之一是找到给定单词可以引用的所有可能语法对象的集合(词性消歧在后面的步骤由算法隐式完成)。我已经看过几个解析器,但它们似乎都自己做消歧步骤,这(从

我是一名学生,正在NLP做一个暑期项目。我是这个领域的新手,所以如果有一个非常明显的解决方案,我很抱歉。该项目使用C语言,这是因为我对它很熟悉,而且该项目的计算密集型(我的语料库是维基百科的纯文本转储)

我正在研究一种关系提取的方法,利用一致性原则尝试学习(在一定的错误阈值内)一组规则,这些规则指示哪些语法对象簇暗示这些对象之间的连接

算法的第一个步骤之一是找到给定单词可以引用的所有可能语法对象的集合(词性消歧在后面的步骤由算法隐式完成)。我已经看过几个解析器,但它们似乎都自己做消歧步骤,这(从我的角度来看)会适得其反。我正在寻找一些现成的东西(理想情况下)给我一个命令方式来打开这些信息

这样的事情存在吗?如果没有,是否存在一个包含这些信息的可由机器解析的现有词典


谢谢你的帮助。

看看CMU斯芬克斯。一个开源NLP项目。我认为它是C++的,但是你可以把它集成起来,或者至少可以得到关于事情的想法。< /P> < P>看看CMU狮身人面像。一个开源NLP项目。我认为它是C++的,但是你可以把它集成起来,或者至少能想出如何处理事情的方法。

< p>如果调用一个外部的POS标签作为shell脚本,或者如果你觉得活泼,就把它打包在HTTP服务中。
Java和Python拥有绝大多数NLP库,因此利用它们是有意义的。如果您可以在脚本中使用NLTK标记东西,那么可以从C调用此脚本,这样做会更简单。

如果您觉得有意思,可以将外部POS标记器作为shell脚本调用,或者将其包装到http服务中


Java和Python拥有绝大多数NLP库,因此利用它们是有意义的。如果您可以在脚本中使用NLTK来标记内容,请从C调用此脚本,这样会更容易。

那么您希望将自己的词性标记作为联合词性标记和其他任务的一部分,而不是使用现有的词性标记器或甚至现有的解析器作为关系提取系统的输入?为什么要一次彻底改造每一个轮子?为什么不尝试关系提取任务,例如,应用您的方法重新排列现有的关系提取程序,或者从best-k依赖项解析开始,然后再修复较低的部分或进行联合推断?这实际上可能更难。在我使用的算法中,原则上,你应该得到基本上免费的词性标注,作为一些其他过程的副作用。我要坦率地告诉你:我真的不知道我在做什么。几周前,在深夜阅读了一本关于信息论的书后,我在梦中突然想到了这个算法。与其说我对得到一个功能强大的解析器感兴趣,不如说我想看看这个算法的性能是否真的高于偶然水平。为此,实施一项快速且肮脏的(因此,您希望将自己的词性标记作为联合词性标记和其他任务的一部分,而不是使用现有的词性标记或甚至现有的解析器作为关系提取系统的输入?为什么要一次重新设计每个轮子?为什么不尝试关系提取任务,例如,应用您的方法对exis进行重新排序使用关系提取器,或者从best-k依赖项解析开始,然后才开始修复较低的部分或进行联合推理?这实际上可能更难。原则上,我使用的算法基本上应该免费获得词性标记,作为其他一些过程的副作用。我将直截了当地告诉你:我真的不知道我在做什么。几周前,在深夜阅读了一本关于信息论的书后,我在梦中突然想到了这个算法。我对得到一个功能强大的解析器不太感兴趣,而更感兴趣的是看看这个算法的性能是否真的超过了偶然水平。为此,实现一个快速而肮脏的算法(