Nlp 为SMS文本规范化注释语料库
我想建立一个短信文本规范使用监督学习技术。SMS文本规范化是将SMS行话转换为正确英语的任务 怎么了?“你怎么了?”会变成“怎么了?”?你在家吗 理想情况下,我想要一个随时可用的语料库,其中包含SMS文本和后续的英语文本作为培训数据。然而,我在网上找不到任何公开的数据集。(SMS文本语料库可用,但没有语法正确的英语对应文本)以前处理过类似问题的人似乎已经手动注释了文本Nlp 为SMS文本规范化注释语料库,nlp,corpus,Nlp,Corpus,我想建立一个短信文本规范使用监督学习技术。SMS文本规范化是将SMS行话转换为正确英语的任务 怎么了?“你怎么了?”会变成“怎么了?”?你在家吗 理想情况下,我想要一个随时可用的语料库,其中包含SMS文本和后续的英语文本作为培训数据。然而,我在网上找不到任何公开的数据集。(SMS文本语料库可用,但没有语法正确的英语对应文本)以前处理过类似问题的人似乎已经手动注释了文本 哪种方法是注释此文本的最快方法?可能的话,你可以从标准短信转换网站/城市词典中获取每个单词标记的数据,以获得等效的英语单词。但这
构建带注释的语料库需要大量工作(请参阅中的相关工作)。您现在必须选择:
- 您可以从头开始做所有注释。(耗时长且容易出错)
- 您可以使用生成注释的工具(例如lemmatizer)并对其进行更正。(更快的方式)