在javascript中捕获表情符号_Javascript_Parsing_Emoji

在javascript中捕获表情符号

javascript parsing

在javascript中捕获表情符号,javascript,parsing,emoji,Javascript,Parsing,Emoji,我必须用javascript编写一个模块来检测表情符号，并用带有图像链接的div标记来替换它们（表情符号是以下形式的字符串：）：-）等）问题是我有几百个，试图写一个正则表达式来捕获所有的不是一个好主意如果我有一个hashmap，其中的键是emoji字符串，值是十六进制值，有没有办法做到这一点。（所有表情符号都在一个范围内）谢谢编辑：所以我说问题的方式可能不清楚。假设你有一本10万字的字典，每个字有4-5个字符。和一系列行，每行包含100-150个字符。如何查找行中的单词？不幸的是，Ja

我必须用javascript编写一个模块来检测表情符号，并用带有图像链接的div标记来替换它们

（表情符号是以下形式的字符串：）：-）等）

问题是我有几百个，试图写一个正则表达式来捕获所有的不是一个好主意

如果我有一个hashmap，其中的键是emoji字符串，值是十六进制值，有没有办法做到这一点。（所有表情符号都在一个范围内）

谢谢

编辑：所以我说问题的方式可能不清楚。假设你有一本10万字的字典，每个字有4-5个字符。和一系列行，每行包含100-150个字符。如何查找行中的单词？

不幸的是，Javascript字符串是16位无符号整数码点序列，通常表示Unicode字符串的UTF-16编码。因此，BMP之外的Unicode字符（从

U+10000开始的代码点）表示为代理项对，每个代理项对有两个“字符”长。这在正则表达式中是可见的；如果要匹配，例如，U+1F623
（“持之以恒的脸”），则需要匹配\uD83D\uDE23

虽然令人恼火，但这并非完全不切实际。范围仍然很容易匹配。例如，假设您认为表情符号的范围为U+1F300…U+1F64F
，这是中表情符号转录数据中列出的大部分字符，但不是所有字符，则您可以使用正则表达式：
/\uD83C[\uDF00-\uDFFF]|\uD83D[\uDC00-\uDE4F]/

要计算这些代码，您需要了解从非BMP Unicode代码点到两个代理字符的映射。这并不复杂：）首先，从Unicode代码点减去U+10000
（UTF-16的设计者选择避免在已经适合16位的代码点上浪费代码空间）。这就给您留下了一个20位的数字，因为最大的有效Unicode代码点是U+10FFFF
。现在，您需要将20位数字拆分为两个10位块。高阶10位添加到U+D800
以形成第一个代理代码，低阶10位添加到U+DC00
以形成第二个代理代码
使用“坚持不懈的脸”示例：
U+1F623 => 0F623       (subtract 0x10000)
        => 0000 1111 0110 0010 0011  (in binary)
        => 00 0011 1101, 10 0010 0011 (two 10-bit chunks)
        =>  03D,  223  (back to hex)
        => D83D, DE23  (add D800 to first and DC00 to second) 

如果您有bash
和iconv
实用程序，让您的计算机执行这些计算的“简单”方法是：
printf $'\U1F623\U1F3A9' |
iconv -f utf8 -t utf16le | hexdump -e '8/2 "%04x " "\n"'

（我将它分成两行显示，但您可以只键入一行。您可以在传递给printf
的字符串中放入任意数量的代码）
可能您正在避免使用正则表达式，因为到目前为止还没有找到一个可以正常工作的正则表达式。你可以试试这个，也许有用
/(?:[\u2700-\u27bf]|(?:\ud83c[\udde6-\uddff]){2}|[\ud800-\udbff][\udc00-\udfff]|[\u0023-\u0039]\ufe0f?\u20e3|\u3299|\u3297|\u303d|\u3030|\u24c2|\ud83c[\udd70-\udd71]|\ud83c[\udd7e-\udd7f]|\ud83c\udd8e|\ud83c[\udd91-\udd9a]|\ud83c[\udde6-\uddff]|[\ud83c[\ude01-\ude02]|\ud83c\ude1a|\ud83c\ude2f|[\ud83c[\ude32-\ude3a]|[\ud83c[\ude50-\ude51]|\u203c|\u2049|[\u25aa-\u25ab]|\u25b6|\u25c0|[\u25fb-\u25fe]|\u00a9|\u00ae|\u2122|\u2139|\ud83c\udc04|[\u2600-\u26FF]|\u2b05|\u2b06|\u2b07|\u2b1b|\u2b1c|\u2b50|\u2b55|\u231a|\u231b|\u2328|\u23cf|[\u23e9-\u23f3]|[\u23f8-\u23fa]|\ud83c\udccf|\u2934|\u2935|[\u2190-\u21ff])/g

我希望这能帮助你
为什么还不够好？它可以在没有正则表达式的情况下工作。“形式为：）
，：-）
等的字符串”是表情符号，而不是表情符号。表情符号是a中的特殊字符。也许你可以使用loop。JS字符串可能是UTF-16，但是否有任何东西表明正则表达式引擎是基于UTF-16工作的，与实际代码点上的匹配相反？@ChrisJester-Young:ECMAScript标准说字符串是一个无符号16位整数序列。虽然字符串被假定为UTF-16序列，但它们不需要是；也就是说，无效序列不会引发错误。该语法不提供在BMP之外插入unicode代码点的机制，尽管一致性实现可以接受UTF-8编码的程序，将非BMP字符转换为两个16位代理（根据UTF-16）。具体来说，组成代理项对的两个代码是单独的字符，包括用于正则表达式匹配的字符。