使用Hadoop MapReduce的计算语言学项目构想_Hadoop_Mapreduce_Nlp

使用Hadoop MapReduce的计算语言学项目构想

hadoop mapreduce nlp

使用Hadoop MapReduce的计算语言学项目构想,hadoop,mapreduce,nlp,Hadoop,Mapreduce,Nlp,我需要做一个关于计算语言学课程的项目。是否存在任何有趣的“语言”问题，这些问题的数据密集程度足以使用Hadoop map reduce。解决方案或算法应该尝试和分析，并在“语言”领域提供一些见解。但是，它应该适用于大型数据集，这样我就可以使用hadoop来实现它。我知道有一个用于hadoop的python自然语言处理工具包。如果你有一些“不寻常”语言的大型语料库（在“有限数量的计算语言学已经被执行的语言”的意义上），重复一些已经为非常流行的语言执行的现有计算语言学工作（如英语、汉语、阿拉伯语等）

我需要做一个关于计算语言学课程的项目。是否存在任何有趣的“语言”问题，这些问题的数据密集程度足以使用Hadoop map reduce。解决方案或算法应该尝试和分析，并在“语言”领域提供一些见解。但是，它应该适用于大型数据集，这样我就可以使用hadoop来实现它。我知道有一个用于hadoop的python自然语言处理工具包。

如果你有一些“不寻常”语言的大型语料库（在“有限数量的计算语言学已经被执行的语言”的意义上），重复一些已经为非常流行的语言执行的现有计算语言学工作（如英语、汉语、阿拉伯语等）是一个非常合适的项目（特别是在学术环境中，但它也可能非常适合于工业——当我在IBM Research学习计算语言学时，我收集了一个意大利语语料库，并重复了一遍，这让我受益匪浅[[在罗马相对较新的IBM科学中心]]与约克敦高地的IBM研究团队（我曾是其中一员）在英语方面所做的工作非常相似

艰苦的工作通常是寻找/准备这样的语料库（这无疑是我当时工作中最重要的部分，尽管IBM意大利公司竭诚帮助我与拥有相关数据的出版公司取得联系）

因此，这个问题非常突出，只有你才能回答：你可以访问什么样的语料库，或者可以获取什么样的语料库（和清理等），尤其是在“不寻常”中语言？如果你所能做的就是，比如说英语，使用已经很流行的语料库，那么做新奇有趣的工作的机会当然会更大，尽管当然可能会有一些

顺便说一句，我想你是在严格考虑处理“书面”文本，对吗？如果你有一个口语材料库（最好有好的成绩单），机会将是无限的（在处理口语文本方面的工作要少得多，例如，在同一书面文本上参数化不同母语人士的发音变体——事实上，这些问题在本科CL课程中甚至没有提到！）。

正如您所提到的，有一个名为NLTK的Python工具包，可以与dumbo一起使用，以利用Hadoop

PyCon 2010就这一主题进行了很好的演讲。您可以使用下面的链接访问演讲中的幻灯片

从生物医学中心发表的6万篇OA论文中下载3亿字。尝试发现命题态度和相关的情感结构。重点是生物医学文献中充满了模糊限制语和相关结构，因为很难对生物世界及其生物做出平淡的陈述-它们的形态和功能以及遗传学和生物化学

我对Hadoop的感觉是，它是一个需要考虑的工具，但是在你完成了设定目标的重要任务之后要考虑。你的目标、策略和数据应该决定你如何进行计算。注意钉子在研究指甲方法中的作用。

这是我实验室努力工作的一部分

鲍勃·福特雷尔
BioNLP.org
东北大学

CL中的一个计算密集型问题是从大型语料库中推断语义。其基本思想是收集大量文本，并从词的分布（同义词、反义词、下义词、上义词等）推断词之间的语义关系，即它们与什么词一起出现或接近什么词

这涉及大量数据预处理，然后可能涉及许多最近邻搜索和nxn比较，非常适合MapReduce风格的并行化

请查看本教程：

想法很好，但我希望项目的时间框架很短，大约一个月或最多一个半月。有什么想法吗？我在想，如果对大量文档进行文档分类可能是个好主意。@Aditya，没有我要求的关键澄清（你能用什么样的大型语料库来完成这项工作，特别是在探索较少的语言中？）不可能提供相关的建议。我不明白你为什么选择不回答我在上面第3段中提到的“问题”，即“很大”。