Python 2.7 如何优化文本数据？_Python 2.7_Nlp_Nltk_Text Mining

Python 2.7 如何优化文本数据？

python-2.7 nlp

Python 2.7 如何优化文本数据？,python-2.7,nlp,nltk,text-mining,Python 2.7,Nlp,Nltk,Text Mining,我构建了许多spider来从不同的网站获取新闻文章，我有一个api来将文本转换为音频片段，但我需要一个框架或python工具来优化文章的文本，例如：正在删除与源相关的任何内容。删除任何日期格式。删除URL。将首字母缩写词（如CEO）更改为首席执行官例如删除特殊字符和打字错误确保在所有编辑之后，句子写得正确。使用以前编辑的文章作为新文章的参考我正在使用python、nltk和re，但这很累人，每次我想我涵盖了所有的案例，我都会发现需要添加新的案例，我觉得我陷入了一个无限循环有什么建议

我构建了许多spider来从不同的网站获取新闻文章，我有一个api来将文本转换为音频片段，但我需要一个框架或python工具来优化文章的文本，例如：

正在删除与源相关的任何内容。删除任何日期格式。删除URL。将首字母缩写词（如CEO）更改为首席执行官例如删除特殊字符和打字错误

确保在所有编辑之后，句子写得正确。使用以前编辑的文章作为新文章的参考

我正在使用python、nltk和re，但这很累人，每次我想我涵盖了所有的案例，我都会发现需要添加新的案例，我觉得我陷入了一个无限循环

有什么建议吗

首先，它是非常重要的，可能不应被视为刮削的一部分，而应被视为第二步处理的一部分（参见）

不幸的是，清理刮取的数据是乏味的：没有神奇的解决方案，因为每个人都有兴趣跳过与您不同的内容-例如，有些人可能只对URL感兴趣。然而，你没有试过使用吗？-这是一个Python库，它提供了一个非常好的API，用于处理许多与刮片相关的常见任务