使用Hadoop MapReduce的计算语言学项目构想

使用Hadoop MapReduce的计算语言学项目构想,hadoop,mapreduce,nlp,Hadoop,Mapreduce,Nlp,我需要做一个关于计算语言学课程的项目。是否存在任何有趣的“语言”问题,这些问题的数据密集程度足以使用Hadoop map reduce。解决方案或算法应该尝试和分析,并在“语言”领域提供一些见解。但是,它应该适用于大型数据集,这样我就可以使用hadoop来实现它。我知道有一个用于hadoop的python自然语言处理工具包。如果你有一些“不寻常”语言的大型语料库(在“有限数量的计算语言学已经被执行的语言”的意义上),重复一些已经为非常流行的语言执行的现有计算语言学工作(如英语、汉语、阿拉伯语等)

我需要做一个关于计算语言学课程的项目。是否存在任何有趣的“语言”问题,这些问题的数据密集程度足以使用Hadoop map reduce。解决方案或算法应该尝试和分析,并在“语言”领域提供一些见解。但是,它应该适用于大型数据集,这样我就可以使用hadoop来实现它。我知道有一个用于hadoop的python自然语言处理工具包。

如果你有一些“不寻常”语言的大型语料库(在“有限数量的计算语言学已经被执行的语言”的意义上),重复一些已经为非常流行的语言执行的现有计算语言学工作(如英语、汉语、阿拉伯语等)是一个非常合适的项目(特别是在学术环境中,但它也可能非常适合于工业——当我在IBM Research学习计算语言学时,我收集了一个意大利语语料库,并重复了一遍,这让我受益匪浅[[在罗马相对较新的IBM科学中心]]与约克敦高地的IBM研究团队(我曾是其中一员)在英语方面所做的工作非常相似

艰苦的工作通常是寻找/准备这样的语料库(这无疑是我当时工作中最重要的部分,尽管IBM意大利公司竭诚帮助我与拥有相关数据的出版公司取得联系)

因此,这个问题非常突出,只有你才能回答:你可以访问什么样的语料库,或者可以获取什么样的语料库(和清理等),尤其是在“不寻常”中语言?如果你所能做的就是,比如说英语,使用已经很流行的语料库,那么做新奇有趣的工作的机会当然会更大,尽管当然可能会有一些


顺便说一句,我想你是在严格考虑处理“书面”文本,对吗?如果你有一个口语材料库(最好有好的成绩单),机会将是无限的(在处理口语文本方面的工作要少得多,例如,在同一书面文本上参数化不同母语人士的发音变体——事实上,这些问题在本科CL课程中甚至没有提到!)。

正如您所提到的,有一个名为NLTK的Python工具包,可以与dumbo一起使用,以利用Hadoop

PyCon 2010就这一主题进行了很好的演讲。您可以使用下面的链接访问演讲中的幻灯片


从生物医学中心发表的6万篇OA论文中下载3亿字。尝试发现命题态度和相关的情感结构。重点是生物医学文献中充满了模糊限制语和相关结构,因为很难对生物世界及其生物做出平淡的陈述-它们的形态和功能以及遗传学和生物化学

我对Hadoop的感觉是,它是一个需要考虑的工具,但是在你完成了设定目标的重要任务之后要考虑。你的目标、策略和数据应该决定你如何进行计算。注意钉子在研究指甲方法中的作用。

这是我实验室努力工作的一部分

  • 鲍勃·福特雷尔

    BioNLP.org

    东北大学


CL中的一个计算密集型问题是从大型语料库中推断语义。其基本思想是收集大量文本,并从词的分布(同义词、反义词、下义词、上义词等)推断词之间的语义关系,即它们与什么词一起出现或接近什么词

这涉及大量数据预处理,然后可能涉及许多最近邻搜索和nxn比较,非常适合MapReduce风格的并行化

请查看本教程:


想法很好,但我希望项目的时间框架很短,大约一个月或最多一个半月。有什么想法吗?我在想,如果对大量文档进行文档分类可能是个好主意。@Aditya,没有我要求的关键澄清(你能用什么样的大型语料库来完成这项工作,特别是在探索较少的语言中?)不可能提供相关的建议。我不明白你为什么选择不回答我在上面第3段中提到的“问题”,即“很大”。