python中有没有办法自动更正一列excel文件中多行的拼写错误?

python中有没有办法自动更正一列excel文件中多行的拼写错误?,python,nlp,spell-checking,Python,Nlp,Spell Checking,我正在为一个大学项目做情绪分析。我有一个excel文件,其中有一个名为“comments”的“column”,它有“1000行”。这些行中的句子有拼写错误,为了进行分析,我需要纠正它们。我不知道如何处理这一点,以便使用python代码获得和列正确的句子 我找到的所有方法都是纠正单词的拼写错误,而不是句子,也不是在100行的列级别上。你可以使用拼写检查器来完成你的工作 import pandas as pd from spellchecker import SpellChecker spell

我正在为一个大学项目做情绪分析。我有一个excel文件,其中有一个名为“comments”的“column”,它有“1000行”。这些行中的句子有拼写错误,为了进行分析,我需要纠正它们。我不知道如何处理这一点,以便使用python代码获得和列正确的句子


我找到的所有方法都是纠正单词的拼写错误,而不是句子,也不是在100行的列级别上。你可以使用拼写检查器来完成你的工作

import pandas as pd
from spellchecker import SpellChecker

spell  = SpellChecker()

df = pd.DataFrame(['hooww good mrning playing fotball studyiing hard'], columns = ['text'])

def spell_check(x):
    correct_word = []
    mispelled_word = x.split()
    for word in mispelled_word:
        correct_word.append(spell.correction(word))
    return ' '.join(correct_word)


df['spell_corrected_sentence'] = df['text'].apply(lambda x: spell_check(x))

但是我必须在一个大数据集上工作[正如你在数据集中所观察到的那样][2]。当我尝试使用textblob库进行同样的操作时,它会将“bihday”更改为“midday”。
如何修复这些类型的错误。

你说的列级别是什么意思?我的意思是说,如果我有一个excel或CSV文件,其中有多个列,而一个列只包含文本。对于该列是可能的。请尝试使用拼写检查器,并检查哪一个适合您。。