Twitter 如何处理luv、kool和brb等推文中的俚语和简短形式?

Twitter 如何处理luv、kool和brb等推文中的俚语和简短形式?,twitter,nlp,Twitter,Nlp,我正在使用Python对tweet进行预处理。然而,使用的很多单词都是其他单词的缩写形式,如luv、kool等,还有brb、ttyl等缩写词 现在,我只能考虑使用一个巨大的Hashmap,其中单词作为键,实际单词或扩展作为值。使用NLP还有其他更好的方法吗 注:我知道这个问题似乎太模糊了。但是请不要报告。我这样问是为了让业余爱好者能从这些知识中受益 PS:有一个格式很好的文本列表可以下载和使用吗?写下的链接很好,但当我复制并粘贴它时,它们的格式不容易解析破译缩写的唯一方法是使用外部资源。这就是为

我正在使用Python对tweet进行预处理。然而,使用的很多单词都是其他单词的缩写形式,如luv、kool等,还有brb、ttyl等缩写词

现在,我只能考虑使用一个巨大的Hashmap,其中单词作为键,实际单词或扩展作为值。使用NLP还有其他更好的方法吗

注:我知道这个问题似乎太模糊了。但是请不要报告。我这样问是为了让业余爱好者能从这些知识中受益


PS:有一个格式很好的文本列表可以下载和使用吗?写下的链接很好,但当我复制并粘贴它时,它们的格式不容易解析

破译缩写的唯一方法是使用外部资源。这就是为什么有许多人类缩略语词典的原因。虽然人类可以通过使用常识知识和已知的缩写来预测意义,但即使是他们也做得很糟糕,所以现在NLP没有希望了

有时,也可以在同一文本中找到缩写词的定义,但twitter或(非和)俚语并非如此

所以,是的,您必须存储从首字母缩略词到其扩展的映射。要获取它们,请在词典中搜索首字母缩略词,例如,或,或


至于其他俚语,如“kool”,你可以尝试拼写纠正算法,请参见。

是否有格式良好的文本列表可供我下载和使用?正如我所说,最后一个可以轻松解析:你只需在任何浏览器中打开其页面的源代码,将所需的片段复制到文本文件中,最后将所有内容保存在-标记中(或者用首字母缩略词写一行,跳过2行,用定义写一行,跳过4行,然后重复)即使是regexp也不需要,所以它确实是格式很好的文本。