Nlp 为SMS文本规范化注释语料库

Nlp 为SMS文本规范化注释语料库,nlp,corpus,Nlp,Corpus,我想建立一个短信文本规范使用监督学习技术。SMS文本规范化是将SMS行话转换为正确英语的任务 怎么了?“你怎么了?”会变成“怎么了?”?你在家吗 理想情况下,我想要一个随时可用的语料库,其中包含SMS文本和后续的英语文本作为培训数据。然而,我在网上找不到任何公开的数据集。(SMS文本语料库可用,但没有语法正确的英语对应文本)以前处理过类似问题的人似乎已经手动注释了文本 哪种方法是注释此文本的最快方法?可能的话,你可以从标准短信转换网站/城市词典中获取每个单词标记的数据,以获得等效的英语单词。但这

我想建立一个短信文本规范使用监督学习技术。SMS文本规范化是将SMS行话转换为正确英语的任务

怎么了?“你怎么了?”会变成“怎么了?”?你在家吗

理想情况下,我想要一个随时可用的语料库,其中包含SMS文本和后续的英语文本作为培训数据。然而,我在网上找不到任何公开的数据集。(SMS文本语料库可用,但没有语法正确的英语对应文本)以前处理过类似问题的人似乎已经手动注释了文本

  • 哪种方法是注释此文本的最快方法?可能的话,你可以从标准短信转换网站/城市词典中获取每个单词标记的数据,以获得等效的英语单词。但这只适用于标准SMS文本,只会略微减少手动操作

  • 对语料库进行分区并要求个人手动注释,但这将非常缓慢,尤其是对于大量文本


  • 构建带注释的语料库需要大量工作(请参阅中的相关工作)。您现在必须选择:

    • 您可以从头开始做所有注释。(耗时长且容易出错)
    • 您可以使用生成注释的工具(例如lemmatizer)并对其进行更正。(更快的方式)
    对我们来说,使用自定义注释工具是可行的(参见本文的链接)。此工具结合了这两种解决方案并加快了注释过程