Language agnostic 有没有关于经常输入错误的键的统计数据?

Language agnostic 有没有关于经常输入错误的键的统计数据?,language-agnostic,statistics,Language Agnostic,Statistics,我需要为我正在进行的一个项目在键盘上找到一个经常输入错误的按键列表。基本上,我需要知道用户试图按下的键和他们实际按下的键,以及这种情况发生频率的比较度量 我所说的“比较度量”是指我想说的是,知道一个用户错误地键入了“c”键,他们更可能是按了“x”键而不是“v”键(基本上是下面的“共性”列) 我的理想清单如下,让你了解我在寻找什么 Target Key Actual Key Commonness... ---------- ----------- ------------- v

我需要为我正在进行的一个项目在键盘上找到一个经常输入错误的按键列表。基本上,我需要知道用户试图按下的键和他们实际按下的键,以及这种情况发生频率的比较度量

我所说的“比较度量”是指我想说的是,知道一个用户错误地键入了“c”键,他们更可能是按了“x”键而不是“v”键(基本上是下面的“共性”列)

我的理想清单如下,让你了解我在寻找什么

Target Key    Actual Key   Commonness...
----------    -----------  -------------
v             c            100
v             b            95
c             x            100
c             v            90
等等


有没有人遇到过任何有可能提供这些信息的可靠消息来源?到目前为止,我还没有运气……

我不知道有什么统计数据来源,但(1)由于手指位置不好,有人按错了键,而大多数打字员会立即退格并即时更正,这两者之间似乎有很大的区别,因此,关于这类事件的统计数据只能实时捕获,而不是将大多数拼写纠正者遇到的情况制成表格,(2)打字员由于速度/分心/神经元原因,按了正确的键,但顺序错误(“naem”而不是“名称”),(3)打字员由于不知道如何拼写而按了错误的键(“维护”而不是“维护”)

对于案例1,如果是E、T、A……那么很有可能这些键也是最容易丢失的键,按顺序排列,尽管这并不能告诉你像“w”和“r”这样的相邻键中,哪一个被击中的次数最多。一个打字员尝试使用像“A”这样的行尾键,实际上可能会错误地击中大写字母锁,错误地击中“s”的次数也一样多


就我个人而言,我通常会怀念那些非字母,尤其是在狩猎和啄食/vs\,{vs[,'vs',逗号vs句号,在输入格式化的数字和货币时,漏掉移位,得到的是8而不是*,等等,由于非字母类型在编程时非常普遍,这些情况对程序员来说可能比非程序员更为常见。

几年前,我实际上不得不研究一个类似的问题e项目我不知道从哪里开始,所以希望我能为你和其他任何人在同样的情况下节省一些时间

底线是你可以利用在其他领域所做的大量工作。我发现,这些领域中最重要的是域名注册

例如,站点DomainTools有一个“”,它根据您输入的父域名生成键入域名列表

鉴于专业域名所有者(aks抢占者)在任何注册商的业务中占很大一部分,很容易看出这个工具是为谁设计的(也就是说,擅自占用者对获取高流量域名的常见拼写错误感兴趣——即使高流量域名的错误率为2%,对于拼写错误的域名来说也是一个巨大的流量

此外,我还推荐微软研究院(MicrosoftResearch)在2005年对这一问题进行的非常全面的研究

最后,计算语言学中的一个关键概念源自Levenshtein距离,称为,它将Levenshtein关于编辑距离的基本思想扩展到人类在键盘上打字的特殊问题

他在1964年的研究论文中得出的主要结论是,80%的打字错误都可以通过四种操作中的一种来描述——插入、删除、替换单个字符或两个字符的换位

Damerau不仅区分了这四种编辑操作,还指出它们对应于80%以上的人类拼写错误。(我为D-L提供的唯一链接是Wikipedia的文章;我这样做是因为我认为这是一篇优秀而简短的介绍,而且它包含了D-L算法的伪代码,最后这篇文章提供了D-L的主要在线来源的链接。

由Kernighan、Church和Gale撰写。在那篇文章中,作者将打字错误作为作者和计算机之间的嘈杂通道。附录中有美联社出版物语料库中出现的打字错误表格。以下每种打字错误都有一个表格:

  • 删除
  • 插入
  • 替代品
  • 换位

例如,在检查插入表时,我们可以看到l被错误地插入了128次(该列中的最大数字)。使用这些表,您可以计算与所需数字相似的数字。

我的iPhone/Touch上键入错误最多的键:

c代表f!“克里德·克莱斯·克罗姆·克兰斯到辛兰去了!”

此外,iPhone键盘底部一行中任意字母的空格键:


“鲍勃听了一首歌,唱得很好。”

你在找这个吗?我认为这个问题应该是有条件的——这样做会有用得多。这也是一个更难的问题,但谷歌对条件概率下了很大赌注。很抱歉,这听起来很模糊。它只是在帮助用户搜索、拼写、语言间翻译等方面发挥了重要作用。不,我不这么认为,但现在我想这么做学习如何使用“单手程序员dvorak”打字相关问题:有意思。虽然我对非字母有问题,但我想说字母中最麻烦的是x、c、v,而不是e、t、a。我怀疑,虽然这些字母可能是最常见的字母,但打字员在打字时不太可能按错键,因为它们的位置和使用频率都很高。如果您发现任何有关此的可靠统计数据,请务必告诉我。链接已断开。