使用python对整个文本文件进行高效的自动更正？_Python_Data Science_Linguistics

使用python对整个文本文件进行高效的自动更正？

python

使用python对整个文本文件进行高效的自动更正？,python,data-science,linguistics,Python,Data Science,Linguistics,我目前正在预处理大约100000个句子。为了改进ML预测，我们可能应该对数据运行某种自动更正/拼写检查。然而，到目前为止，我发现python中的大多数实现都很慢。有没有一种高效且简单的方法可以在python中自动更正整个文本文件我试着在中使用它，但它需要相对较长的时间（我没有很好地实现它，但我想已经有人在某处完成了）正如@Vishnudev提到的，我更喜欢使用根据基准测试，它比其他拼写纠正实现快几个数量级。请参考这个如果您阅读了autocorrect背后的代码，它会提到它基于Peter

我目前正在预处理大约100000个句子。为了改进ML预测，我们可能应该对数据运行某种自动更正/拼写检查。然而，到目前为止，我发现python中的大多数实现都很慢。有没有一种高效且简单的方法可以在python中自动更正整个文本文件

我试着在中使用它，但它需要相对较长的时间（我没有很好地实现它，但我想已经有人在某处完成了）

正如@Vishnudev提到的，我更喜欢使用

根据基准测试，它比其他拼写纠正实现快几个数量级。请参考这个

如果您阅读了autocorrect背后的代码，它会提到它基于Peter Norvig可用的实现

还尝试了基准测试，但无法将性能时间提高超过+15-20%

其他改善措施：

利用python多处理模块
如果您使用的是pandas，请考虑使用Dask框架进行并行处理

祝你工作顺利

运行自动更正（慢慢地）真的能改善你的预测吗？它为我们节省了一些维度和空间，因为像yesss和yes这样的词现在是一回事了。这可能更多的是为了降低复杂性。只需考虑自动更正是不可靠的。有时字典中“最近”的单词不是人类试图拼写的单词。我最近也尝试过类似的方法，在抽查了自动更正后，我决定不使用自动更正。当然，你的语料库和字典和我的不同，但在担心速度之前一定要检查正确性。@SLuck看一看，我已经注意到类似的问题，但希望有一些更简单（可能更可靠）的方法来使用symspell Composite，这是一个非常好而且灵活的解决方案