Parsing 自然语言处理项目的想法?
我得为我的计算语言学课做一个期末专题。我们一直在使用OCaml,但我对Java也很熟悉。我们学习了形态学、FSMs、收集解析树、CYK解析、尝试、下推自动机、正则表达式、形式语言理论、一些语义等 以下是我想到的一些想法。你有什么你认为很酷的吗Parsing 自然语言处理项目的想法?,parsing,nlp,ocaml,Parsing,Nlp,Ocaml,我得为我的计算语言学课做一个期末专题。我们一直在使用OCaml,但我对Java也很熟悉。我们学习了形态学、FSMs、收集解析树、CYK解析、尝试、下推自动机、正则表达式、形式语言理论、一些语义等 以下是我想到的一些想法。你有什么你认为很酷的吗 一个脚本,它扫描Facebook线程中的讨厌的*评论,并用JS悄悄隐藏它们(显然,这将在用户同意的情况下运行) 使用语义、语法、标点符号使用和其他指标对一篇文章进行分析,试图“指认”作者。它可以用来确定两部作品是否可能由同一位作者所写。或者,有人可以把他随
*讨厌的被定义为遵循初中生典型的某些模式。这个术语的模糊性不是一个问题;为了获得荣誉,我可以定义我想要的任何东西,并以此为目标。我只想说我喜欢你的第二个想法。看起来这一切都与NLP有关。我觉得很有趣。依我看,我肯定会选择这个。但你也应该考虑一个更吸引你的人,而不仅仅是别人的意见。
至于要选择的语言,我认为你应该选择一种你更熟悉的语言。我不熟悉库,但我见过许多用Python和Java实现NLP的东西。1a。扫描facebook的脚本。。。 你打算如何定义“讨厌的”。听起来很难 2a。相似性语法和语义,以及其他“语言学”的东西听起来很难。然而,人们已经用其他数值方法做了类似的事情,并取得了巨大的成功,例如使用奇异值分解。我认为,这种方法也已被纳入用于检查剽窃的软件中。这种方法也经常被称为潜在语义分析或潜在语义映射 svdlibc: 1b。fsm的东西。我不知道你所说的“证明传感器最小”是什么意思。这是一个相当标准的操作,几乎包含在您可能遇到的任何工具包中。如果您对FSM感兴趣,请查看 AT&T工具包: 或 OpenFST工具包: FSM作为一种有原则的、统一的语音识别方法,正日益受到人们的欢迎。我的研究生工作集中在这个主题上,它确实非常有趣
构建一个基于hmm的解析器或分块器,或者一个简单的维特比解码器怎么样?如果你把一个像样的训练集放在一起(首先你必须自己给它贴标签),你可以近似地使用一个简单版本的“讨厌的评论”标签,并使用它,也许可以使用某种分类器来“审查”或删除讨厌的评论 使用推特API从社交对话中提取所有推特,并将内容合并\汇总\发布为一篇文章\文章\博客\等,以便有人可以在一篇文章中阅读。关联概念和想法,扩展参考文献,改进语法。有点像,但是用NLP增强了