使用python对整个文本文件进行高效的自动更正?

使用python对整个文本文件进行高效的自动更正?,python,data-science,linguistics,Python,Data Science,Linguistics,我目前正在预处理大约100000个句子。 为了改进ML预测,我们可能应该对数据运行某种自动更正/拼写检查。然而,到目前为止,我发现python中的大多数实现都很慢。有没有一种高效且简单的方法可以在python中自动更正整个文本文件 我试着在中使用它,但它需要相对较长的时间(我没有很好地实现它,但我想已经有人在某处完成了)正如@Vishnudev提到的,我更喜欢使用 根据基准测试,它比其他拼写纠正实现快几个数量级。 请参考这个 如果您阅读了autocorrect背后的代码,它会提到它基于Peter

我目前正在预处理大约100000个句子。 为了改进ML预测,我们可能应该对数据运行某种自动更正/拼写检查。然而,到目前为止,我发现python中的大多数实现都很慢。有没有一种高效且简单的方法可以在python中自动更正整个文本文件


我试着在中使用它,但它需要相对较长的时间(我没有很好地实现它,但我想已经有人在某处完成了)

正如@Vishnudev提到的,我更喜欢使用

根据基准测试,它比其他拼写纠正实现快几个数量级。 请参考这个

如果您阅读了autocorrect背后的代码,它会提到它基于Peter Norvig可用的实现

还尝试了基准测试,但无法将性能时间提高超过+15-20%

其他改善措施:

  • 利用python多处理模块
  • 如果您使用的是pandas,请考虑使用Dask框架进行并行处理

祝你工作顺利

运行自动更正(慢慢地)真的能改善你的预测吗?它为我们节省了一些维度和空间,因为像yesss和yes这样的词现在是一回事了。这可能更多的是为了降低复杂性。只需考虑自动更正是不可靠的。有时字典中“最近”的单词不是人类试图拼写的单词。我最近也尝试过类似的方法,在抽查了自动更正后,我决定不使用自动更正。当然,你的语料库和字典和我的不同,但在担心速度之前一定要检查正确性。@SLuck看一看,我已经注意到类似的问题,但希望有一些更简单(可能更可靠)的方法来使用symspell Composite,这是一个非常好而且灵活的解决方案