Python 文本预处理中的快速拼写纠正_Python_Nlp_Spell Checking

Python 文本预处理中的快速拼写纠正

python nlp

Python 文本预处理中的快速拼写纠正,python,nlp,spell-checking,Python,Nlp,Spell Checking,在处理文本数据时，我以如下不同的方式应用Python代码进行拼写更正 from spellchecker import SpellChecker import re spell = SpellChecker() def spell_correct(x): for w in spell.unknown(x.split()): x=re.sub(w,spell.correction(w),x) return x df['twitts'] = df['twitts']

在处理文本数据时，我以如下不同的方式应用Python代码进行拼写更正

from spellchecker import SpellChecker
import re

spell = SpellChecker()

def spell_correct(x):
   for w in spell.unknown(x.split()):
       x=re.sub(w,spell.correction(w),x)
   return x


df['twitts'] = df['twitts'].apply(lambda x :spell_correct(x))

我尝试的另一种方法是：

from textblob import TextBlob
df['twitts'] = df['twitts'].apply(lambda x :TextBlob(x).correct())

上面提到的两个python代码在df中执行30000行数据所需的时间都非常长。（实际上，必须手动停止执行）

如果有人知道以更有效的方式进行拼写检查的诀窍，请分享或评论。

您是否多次看到相同的未知单词？感谢您帮助@tripleee。不，事实上，不认识的单词不会重复<代码>拼写.unknown（'I'm going to going to restzarant..restzarant.split（））结果是-{'going'，restzarant'}当然，但是如果重复的

包含一些相同的单词，您可能会对其进行优化。是的，当然，我们会检查这个。但即使是TextBlob也会占用很多时间。。我想我错过了一些重要的一点。。。将更新优化的代码。