在javascript中捕获表情符号

在javascript中捕获表情符号,javascript,parsing,emoji,Javascript,Parsing,Emoji,我必须用javascript编写一个模块来检测表情符号,并用带有图像链接的div标记来替换它们 (表情符号是以下形式的字符串:):-)等) 问题是我有几百个,试图写一个正则表达式来捕获所有的不是一个好主意 如果我有一个hashmap,其中的键是emoji字符串,值是十六进制值,有没有办法做到这一点。(所有表情符号都在一个范围内) 谢谢 编辑:所以我说问题的方式可能不清楚。假设你有一本10万字的字典,每个字有4-5个字符。和一系列行,每行包含100-150个字符。如何查找行中的单词?不幸的是,Ja

我必须用javascript编写一个模块来检测表情符号,并用带有图像链接的div标记来替换它们

(表情符号是以下形式的字符串:):-)等)

问题是我有几百个,试图写一个正则表达式来捕获所有的不是一个好主意

如果我有一个hashmap,其中的键是emoji字符串,值是十六进制值,有没有办法做到这一点。(所有表情符号都在一个范围内)

谢谢


编辑:所以我说问题的方式可能不清楚。假设你有一本10万字的字典,每个字有4-5个字符。和一系列行,每行包含100-150个字符。如何查找行中的单词?

不幸的是,Javascript字符串是16位无符号整数码点序列,通常表示Unicode字符串的UTF-16编码。因此,BMP之外的Unicode字符(从
U+10000开始的代码点)表示为代理项对,每个代理项对有两个“字符”长。这在正则表达式中是可见的;如果要匹配,例如,
U+1F623
(“持之以恒的脸”),则需要匹配
\uD83D\uDE23

虽然令人恼火,但这并非完全不切实际。范围仍然很容易匹配。例如,假设您认为表情符号的范围为
U+1F300…U+1F64F
,这是中表情符号转录数据中列出的大部分字符,但不是所有字符,则您可以使用正则表达式:

/\uD83C[\uDF00-\uDFFF]|\uD83D[\uDC00-\uDE4F]/
要计算这些代码,您需要了解从非BMP Unicode代码点到两个代理字符的映射。这并不复杂:)首先,从Unicode代码点减去
U+10000
(UTF-16的设计者选择避免在已经适合16位的代码点上浪费代码空间)。这就给您留下了一个20位的数字,因为最大的有效Unicode代码点是
U+10FFFF
。现在,您需要将20位数字拆分为两个10位块。高阶10位添加到
U+D800
以形成第一个代理代码,低阶10位添加到
U+DC00
以形成第二个代理代码

使用“坚持不懈的脸”示例:

U+1F623 => 0F623       (subtract 0x10000)
        => 0000 1111 0110 0010 0011  (in binary)
        => 00 0011 1101, 10 0010 0011 (two 10-bit chunks)
        =>  03D,  223  (back to hex)
        => D83D, DE23  (add D800 to first and DC00 to second) 
如果您有
bash
iconv
实用程序,让您的计算机执行这些计算的“简单”方法是:

printf $'\U1F623\U1F3A9' |
iconv -f utf8 -t utf16le | hexdump -e '8/2 "%04x " "\n"'

(我将它分成两行显示,但您可以只键入一行。您可以在传递给
printf
的字符串中放入任意数量的代码)

可能您正在避免使用正则表达式,因为到目前为止还没有找到一个可以正常工作的正则表达式。你可以试试这个,也许有用

/(?:[\u2700-\u27bf]|(?:\ud83c[\udde6-\uddff]){2}|[\ud800-\udbff][\udc00-\udfff]|[\u0023-\u0039]\ufe0f?\u20e3|\u3299|\u3297|\u303d|\u3030|\u24c2|\ud83c[\udd70-\udd71]|\ud83c[\udd7e-\udd7f]|\ud83c\udd8e|\ud83c[\udd91-\udd9a]|\ud83c[\udde6-\uddff]|[\ud83c[\ude01-\ude02]|\ud83c\ude1a|\ud83c\ude2f|[\ud83c[\ude32-\ude3a]|[\ud83c[\ude50-\ude51]|\u203c|\u2049|[\u25aa-\u25ab]|\u25b6|\u25c0|[\u25fb-\u25fe]|\u00a9|\u00ae|\u2122|\u2139|\ud83c\udc04|[\u2600-\u26FF]|\u2b05|\u2b06|\u2b07|\u2b1b|\u2b1c|\u2b50|\u2b55|\u231a|\u231b|\u2328|\u23cf|[\u23e9-\u23f3]|[\u23f8-\u23fa]|\ud83c\udccf|\u2934|\u2935|[\u2190-\u21ff])/g

我希望这能帮助你

为什么还不够好?它可以在没有正则表达式的情况下工作。“形式为
:)
:-)
等的字符串”是表情符号,而不是表情符号。表情符号是a中的特殊字符。也许你可以使用loop。JS字符串可能是UTF-16,但是否有任何东西表明正则表达式引擎是基于UTF-16工作的,与实际代码点上的匹配相反?@ChrisJester-Young:ECMAScript标准说字符串是一个无符号16位整数序列。虽然字符串被假定为UTF-16序列,但它们不需要是;也就是说,无效序列不会引发错误。该语法不提供在BMP之外插入unicode代码点的机制,尽管一致性实现可以接受UTF-8编码的程序,将非BMP字符转换为两个16位代理(根据UTF-16)。具体来说,组成代理项对的两个代码是单独的字符,包括用于正则表达式匹配的字符。