使用Hadoop MapReduce的计算语言学项目构想
我需要做一个关于计算语言学课程的项目。是否存在任何有趣的“语言”问题,这些问题的数据密集程度足以使用Hadoop map reduce。解决方案或算法应该尝试和分析,并在“语言”领域提供一些见解。但是,它应该适用于大型数据集,这样我就可以使用hadoop来实现它。我知道有一个用于hadoop的python自然语言处理工具包。如果你有一些“不寻常”语言的大型语料库(在“有限数量的计算语言学已经被执行的语言”的意义上),重复一些已经为非常流行的语言执行的现有计算语言学工作(如英语、汉语、阿拉伯语等)是一个非常合适的项目(特别是在学术环境中,但它也可能非常适合于工业——当我在IBM Research学习计算语言学时,我收集了一个意大利语语料库,并重复了一遍,这让我受益匪浅[[在罗马相对较新的IBM科学中心]]与约克敦高地的IBM研究团队(我曾是其中一员)在英语方面所做的工作非常相似 艰苦的工作通常是寻找/准备这样的语料库(这无疑是我当时工作中最重要的部分,尽管IBM意大利公司竭诚帮助我与拥有相关数据的出版公司取得联系) 因此,这个问题非常突出,只有你才能回答:你可以访问什么样的语料库,或者可以获取什么样的语料库(和清理等),尤其是在“不寻常”中语言?如果你所能做的就是,比如说英语,使用已经很流行的语料库,那么做新奇有趣的工作的机会当然会更大,尽管当然可能会有一些使用Hadoop MapReduce的计算语言学项目构想,hadoop,mapreduce,nlp,Hadoop,Mapreduce,Nlp,我需要做一个关于计算语言学课程的项目。是否存在任何有趣的“语言”问题,这些问题的数据密集程度足以使用Hadoop map reduce。解决方案或算法应该尝试和分析,并在“语言”领域提供一些见解。但是,它应该适用于大型数据集,这样我就可以使用hadoop来实现它。我知道有一个用于hadoop的python自然语言处理工具包。如果你有一些“不寻常”语言的大型语料库(在“有限数量的计算语言学已经被执行的语言”的意义上),重复一些已经为非常流行的语言执行的现有计算语言学工作(如英语、汉语、阿拉伯语等)
顺便说一句,我想你是在严格考虑处理“书面”文本,对吗?如果你有一个口语材料库(最好有好的成绩单),机会将是无限的(在处理口语文本方面的工作要少得多,例如,在同一书面文本上参数化不同母语人士的发音变体——事实上,这些问题在本科CL课程中甚至没有提到!)。正如您所提到的,有一个名为NLTK的Python工具包,可以与dumbo一起使用,以利用Hadoop PyCon 2010就这一主题进行了很好的演讲。您可以使用下面的链接访问演讲中的幻灯片
- 鲍勃·福特雷尔 BioNLP.org 东北大学
想法很好,但我希望项目的时间框架很短,大约一个月或最多一个半月。有什么想法吗?我在想,如果对大量文档进行文档分类可能是个好主意。@Aditya,没有我要求的关键澄清(你能用什么样的大型语料库来完成这项工作,特别是在探索较少的语言中?)不可能提供相关的建议。我不明白你为什么选择不回答我在上面第3段中提到的“问题”,即“很大”。