Python 2.7 如何优化文本数据?

Python 2.7 如何优化文本数据?,python-2.7,nlp,nltk,text-mining,Python 2.7,Nlp,Nltk,Text Mining,我构建了许多spider来从不同的网站获取新闻文章,我有一个api来将文本转换为音频片段,但我需要一个框架或python工具来优化文章的文本,例如: 正在删除与源相关的任何内容。删除任何日期格式。 删除URL。将首字母缩写词(如CEO)更改为首席执行官 例如删除特殊字符和打字错误 确保在所有编辑之后,句子写得正确。 使用以前编辑的文章作为新文章的参考 我正在使用python、nltk和re,但这很累人,每次我想我涵盖了所有的案例,我都会发现需要添加新的案例,我觉得我陷入了一个无限循环 有什么建议

我构建了许多spider来从不同的网站获取新闻文章,我有一个api来将文本转换为音频片段,但我需要一个框架或python工具来优化文章的文本,例如:

正在删除与源相关的任何内容。删除任何日期格式。 删除URL。将首字母缩写词(如CEO)更改为首席执行官 例如删除特殊字符和打字错误

确保在所有编辑之后,句子写得正确。 使用以前编辑的文章作为新文章的参考

我正在使用python、nltk和re,但这很累人,每次我想我涵盖了所有的案例,我都会发现需要添加新的案例,我觉得我陷入了一个无限循环

有什么建议吗

首先,它是非常重要的,可能不应被视为刮削的一部分,而应被视为第二步处理的一部分(参见)

不幸的是,清理刮取的数据是乏味的:没有神奇的解决方案,因为每个人都有兴趣跳过与您不同的内容-例如,有些人可能只对URL感兴趣。然而,你没有试过使用吗?-这是一个Python库,它提供了一个非常好的API,用于处理许多与刮片相关的常见任务