Language agnostic 自动断字任意文本

Language agnostic 自动断字任意文本,language-agnostic,linguistics,Language Agnostic,Linguistics,自动断字面临哪些挑战?看起来你可以一个字一个字地画,当线条的长度超过视口的长度时(或者当我们将文本包装在其中时)打断,在尽可能多的字符后放置连字符(前提是至少两个字符合适,单词至少四个字符),跳过已经包含连字符的单词(没有要求单词必须连字符) 但我注意到Firefox和IE需要一个字典才能与CSS的连字符连字。这似乎意味着我们在哪里可以放置连字符还有更多的问题 这些是什么类型的问题?英语中是否存在任何问题,或者它们只存在于其他语言中?所有语言中都存在这些问题。正如已经指出的,您只能在拆分后产生有

自动断字面临哪些挑战?看起来你可以一个字一个字地画,当线条的长度超过视口的长度时(或者当我们将文本包装在其中时)打断,在尽可能多的字符后放置连字符(前提是至少两个字符合适,单词至少四个字符),跳过已经包含连字符的单词(没有要求单词必须连字符)

但我注意到Firefox和IE需要一个字典才能与CSS的
连字符连字。这似乎意味着我们在哪里可以放置连字符还有更多的问题


这些是什么类型的问题?英语中是否存在任何问题,或者它们只存在于其他语言中?

所有语言中都存在这些问题。正如已经指出的,您只能在拆分后产生有意义标记的地方放置连字符。例如,您不想拆分“wr ong”这样的单词

这可能是一个音节,也可能不是一个音节,但在大多数语言中(包括英语)是这样。但是重点是你不能简单地用一些简单的规则来很容易地把它拆掉。你需要考虑很多音韵学来获得一个高度精确的结果,而且这些规则因语言而异。

有了这样的背景,我明白了为什么人们会选择字典,坦率地说,作为一名计算语言学家,这也是我可能会选择的

如果你真的想寻求一个自动解决方案,我建议你做一些关于英语音节音韵学的研究,或者所谓的音节化。你可以从维基百科上的这篇文章开始:


不能在适当的文本中任意放置连字符(与推特、快速电子邮件等相反)。它们应该放在音节之间,并且不要在每一行的单词中留下太少的字母。字典提供音节中断。此外,贪婪算法可能不会产生最佳结果。例如,如果有一个长而不可断的单词,你可能会发现如果你有意中断,你会得到更均匀的行长度有几行很早。