Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/three.js/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/iphone/35.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何开始建立NLP研究的语料库_Nlp - Fatal编程技术网

如何开始建立NLP研究的语料库

如何开始建立NLP研究的语料库,nlp,Nlp,我正试图为一种资源不足的语言建立一个NLP语料库,因为没有可用于NLP研究的数据。任何人都可以建议,如何建立或继续使其成为一个标准的NLP语料库,任何标准的方法或论文或链接。 谢谢你, < p>我建议联系像Fei Xia这样的人,他在华盛顿大学的PeN树库工作,是一个专家,或者PNN的一些人。 构建用于解析和标记的完整树库不是一项简单的任务。你到底想干什么?目标是什么? -解析/标记? -语义学? -信息提取? -语音学 老实说,根据评论,这听起来像是整个语言学家团队的一个项目。到目前为止,你发

我正试图为一种资源不足的语言建立一个NLP语料库,因为没有可用于NLP研究的数据。任何人都可以建议,如何建立或继续使其成为一个标准的NLP语料库,任何标准的方法或论文或链接。
谢谢你,

< p>我建议联系像Fei Xia这样的人,他在华盛顿大学的PeN树库工作,是一个专家,或者PNN的一些人。

构建用于解析和标记的完整树库不是一项简单的任务。你到底想干什么?目标是什么? -解析/标记? -语义学? -信息提取? -语音学


老实说,根据评论,这听起来像是整个语言学家团队的一个项目。

到目前为止,你发现或尝试了什么?语料库语言学有许多不同的领域和许多不同的数据收集方法。对于一种更稀有/更少的“数字”语言来说,它在现场工作方面更加劳动密集&这通常不是程序员的工作领域。我尝试使用的语言的数字资源非常少。因此,我正试图为NLP研究目的构建一个语料库,这无疑是一项艰巨的任务,但我也需要技术信息,或者是否有任何标准格式可用于为不同大学的英语等语言构建语料库。你应该咨询语言学系,尤其是那些擅长为较少学习的语言收集语料库的人。这通常由硕士或博士生承担,作为一个长期过程的一部分。坐下来重新做一件事可不容易。这并不是要劝阻你,而是反映出收集这样的数据是相当昂贵的,比如说,千句话(或者百万字,如果你愿意的话)。有一个以前执行过的好计划有助于降低成本并提高数据的信噪比。这种语言已经有一组标签了吗?我不知道你是否想要一个工具,让用户浏览“文档”中的每一个单词,并让用户轻松地选择一个标记,或者你是否正在尝试构建一组标记。你说的“没有可用数据”到底是什么意思?那真是太假了。有许多可用的语料库,包括具有不同数量标记的内容。