Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/go/7.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Nlp 拼写纠正模型的一些评估是什么?_Nlp_Spell Checking_Spelling_Misspelling - Fatal编程技术网

Nlp 拼写纠正模型的一些评估是什么?

Nlp 拼写纠正模型的一些评估是什么?,nlp,spell-checking,spelling,misspelling,Nlp,Spell Checking,Spelling,Misspelling,我一直在研究拼写纠正模型,并试图找到一些评估指标。如果你认为假阴性试图修复一个已经正确的单词和错误的正误,那么你就可以计算精度、回忆和准确度。但是,这些指标并没有说明更正模型的质量(无论它是否成功地将错误的单词更正为用户想要键入的单词),只评估拼写检查功能,而不是更正功能 在许多语言中,最困难的部分是在许多候选语言中选择正确的替代者。例如,lck应该是lock,lick,lock,ick,还是luck?(当然,断章取义,你说不出来!) 因此,您要寻找的指标是准确更正的数量。您没有尝试修复的错误,

我一直在研究拼写纠正模型,并试图找到一些评估指标。如果你认为假阴性试图修复一个已经正确的单词和错误的正误,那么你就可以计算精度、回忆和准确度。但是,这些指标并没有说明更正模型的质量(无论它是否成功地将错误的单词更正为用户想要键入的单词),只评估拼写检查功能,而不是更正功能

在许多语言中,最困难的部分是在许多候选语言中选择正确的替代者。例如,
lck
应该是
lock
lick
lock
ick
,还是
luck
?(当然,断章取义,你说不出来!)

因此,您要寻找的指标是准确更正的数量。您没有尝试修复的错误,以及您错误地替换的正确单词将被您发现但未准确更正的错误淹没,尽管您可能仍希望分别统计这些情况


如果您的修正候选排序算法是独立的,您可以通过单独评估来显著地调整流程。

这样我就可以测量成功修正的错误百分比?我会将什么指定为假阴性和假阳性来衡量纠正的质量?假阴性和假阳性在这里并没有多大意义;它们是分类度量,而不是校正度量。快速的谷歌搜索出现了,但我不能马上判断这是否有用。(我注意到他们的摘要中有一个标点符号错误,tee-hee。)如果你想将其压缩到FP/FN模型中,可能会将系统没有试图纠正的错误视为假阴性,而将没有产生正确结果的任何纠正视为假阳性。因此,真正的否定词是拼写正确的单词,没有改变;真正的肯定词是成功的更正。(这颠倒了“积极”和“消极”的含义,但这对我来说更有意义。)我想我可以把它放在FP/FN模型中,但我觉得这样做会产生不太能代表校正器的结果。也许要对拼写错误的单词进行整体准确度和准确度的校正?从长远来看,一个数字或一对数字可能没有用处,特别是如果它们不是标准的衡量标准。分为错误检测的准确性和校正候选生成的准确性可能是未来的方向。