nlp:交替拼写识别

nlp:交替拼写识别,nlp,Nlp,非常感谢编辑我的问题标题和标签的帮助 有时,我的“对话”语料库中的一个参与者会提到另一个使用昵称的参与者,通常是缩写或拼写错误,但此后我只会说“昵称”。比如说,我愿意手动告诉我的软件,我是否认为各种可能的昵称实际上都是昵称,但我想让软件列出一个可能匹配的列表,在识别人的句柄和可能的昵称之间。我该怎么做呢 我和我的语料库的背景:我没有自然语言处理的经验,但我是R的一名称职的数据分析师。我的数据由70个团队生成,每个团队预测未来某个时间发生100个不同事件的可能性。结果是,我有70 x 100=70

非常感谢编辑我的问题标题和标签的帮助

有时,我的“对话”语料库中的一个参与者会提到另一个使用昵称的参与者,通常是缩写或拼写错误,但此后我只会说“昵称”。比如说,我愿意手动告诉我的软件,我是否认为各种可能的昵称实际上都是昵称,但我想让软件列出一个可能匹配的列表,在识别人的句柄和可能的昵称之间。我该怎么做呢

我和我的语料库的背景:我没有自然语言处理的经验,但我是R的一名称职的数据分析师。我的数据由70个团队生成,每个团队预测未来某个时间发生100个不同事件的可能性。结果是,我有70 x 100=7000个文本文件,其中包含参与者做出的预测流以及他们在预测中包含的评论。我将在下面粘贴这些文本文件中的一个非常短的片段,这一个与马里政府是否会与MNLA进行谈判有关:

2013年12月2日20:10:过去的回报回答是:(50%)

当我在上一份报告中写下时,我没有做过很多研究 占位符。。。由于道格的预测,我的工资上涨了很多

2013年12月2日19:31:道格尔回答是:(60%)

弱小的总统特拉奥雷希望在民族解放军放弃领土主张的情况下进行谈判。 马里军方可能不希望谈判。法国希望谈判。苏格吉斯酒店 它只需要自治。但7周后呢

2013年12月2日10:59:过去的回报回答否:(75%)

占位符预测。。。


我最初的想法:显然,我可以从提供我想要匹配的名称开始。。。在上面的例子中,它们将是过去的_returns和DougL(尽管上面没有使用昵称)。我不认为让一台计算机猜出一些小的拼写错误会有那么难(尽管我个人不知道从哪里开始)。我可以想象还可以使用其他技巧,比如假设一个字符串更可能是一个昵称,如果它被一个团队比其他团队使用得多的话。昵称更可能是指最近发言的人,而不是很久以前发言的人,或者根本不关心这个问题。它们应该以类似于语料库中通常使用全名/屏幕名的方式在句子中使用。但是我很想知道一些简单的方法,以及那些尝试更复杂的技术。

< P>这可能和你想做的一样复杂。从半语言的角度来看,研究主题包括(检测已知姓名/昵称的轻微拼写错误)和(首先检测姓名/昵称的任务)。事实上,NER值得一读,但现有的系统在论坛句柄和昵称方面可能帮不了你多少忙

想到的第一个粗略想法是,您可以对英语词典(可能是从Wiktionary或类似工具编译的数据集)运行语料库的标记化版本,以找到候选名称的单词,然后通过一些启发式方法过滤这些单词(它们是否以与已知全名相同的字母开头?它们与已知名称的距离是否较低?它们是否被多次使用?)

您还可以针对非单词标记尝试一些集群或监督的ML算法。这可能会揭示一些非单词标记,这些标记经常出现在与给定用户名相同的线程中;同样,启发式可以帮助排除一些误报


祝你好运;听起来像是个有趣的问题-希望我至少提到了一件你还没有想到的事情。

当然,在意识到这个问题已经5个月大之前,我写了所有这些。我可以阅读;我保证…+1,你回答一个老问题应该获得额外的学分。谢谢你的建议,我已经忙于其他分析了在过去的5个月里,但可能会回到这一点。你最终做了什么?我面临着一个类似的问题,请看。。。