Python 文本预处理中的快速拼写纠正

Python 文本预处理中的快速拼写纠正,python,nlp,spell-checking,Python,Nlp,Spell Checking,在处理文本数据时,我以如下不同的方式应用Python代码进行拼写更正 from spellchecker import SpellChecker import re spell = SpellChecker() def spell_correct(x): for w in spell.unknown(x.split()): x=re.sub(w,spell.correction(w),x) return x df['twitts'] = df['twitts']

在处理文本数据时,我以如下不同的方式应用Python代码进行拼写更正

from spellchecker import SpellChecker
import re

spell = SpellChecker()

def spell_correct(x):
   for w in spell.unknown(x.split()):
       x=re.sub(w,spell.correction(w),x)
   return x


df['twitts'] = df['twitts'].apply(lambda x :spell_correct(x))
我尝试的另一种方法是:

from textblob import TextBlob
df['twitts'] = df['twitts'].apply(lambda x :TextBlob(x).correct())
上面提到的两个python代码在df中执行30000行数据所需的时间都非常长。(实际上,必须手动停止执行)


如果有人知道以更有效的方式进行拼写检查的诀窍,请分享或评论。

您是否多次看到相同的未知单词?感谢您帮助@tripleee。不,事实上,不认识的单词不会重复<代码>拼写.unknown('I'm going to going to restzarant..restzarant.split())结果是-{'going',restzarant'}当然,但是如果重复的
x
包含一些相同的单词,您可能会对其进行优化。是的,当然,我们会检查这个。但即使是TextBlob也会占用很多时间。。我想我错过了一些重要的一点。。。将更新优化的代码。