Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/regex/16.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 在tweet中查找作为整体簇而不是单个字符的表情符号_Python_Regex_Twitter_Tweepy - Fatal编程技术网

Python 在tweet中查找作为整体簇而不是单个字符的表情符号

Python 在tweet中查找作为整体簇而不是单个字符的表情符号,python,regex,twitter,tweepy,Python,Regex,Twitter,Tweepy,所以我在这里问的第一个问题是关于表情符号的。对不起 我正在python的帮助下制作一个twitter机器人(也尝试过),它将分析给定用户的tweet,并记录一个单词或表情符号的使用次数。我大部分都能做得很好。我的问题从表情开始 我的印象是,在使用\X时,(在regex和pythonpcre中)会找到扩展的grapheme集群。不仅仅是个人。我在另一篇文章中读到\X遵循一组准则来确定是否应该对下一个字符进行集群,但总是至少返回1 我在这篇文章中尝试了第一个和第二个解决方案: 第一个按预期行事。获取

所以我在这里问的第一个问题是关于表情符号的。对不起

我正在python的帮助下制作一个twitter机器人(也尝试过),它将分析给定用户的tweet,并记录一个单词或表情符号的使用次数。我大部分都能做得很好。我的问题从表情开始

我的印象是,在使用\X时,(在regex和pythonpcre中)会找到扩展的grapheme集群。不仅仅是个人。我在另一篇文章中读到\X遵循一组准则来确定是否应该对下一个字符进行集群,但总是至少返回1

我在这篇文章中尝试了第一个和第二个解决方案:

第一个按预期行事。获取单个代码点并将其添加到列表中。非常适合单代码点表情,但我需要捕获具有多个代码点和单代码点表情的表情

第二个解决方案是我遇到的问题。根据post,此函数应以字符串、集群、空格分隔的形式打印表情

def split_count(self, text):
        emoji_list = []
        data = regex.findall(r'\X', text)
        for word in data:
            if any(char in emoji.UNICODE_EMOJI for char in word):
                emoji_list.append(word)
        return emoji_list
当被称为like时:

counter = self.split_count(tweet)
print(' '.join(emoji for emoji in counter))
应导致:

Note that 
\X
matches a single code point, but emojis may contain more than one, you yourself mention it in the question.

You should use an emoji parsing library that you are already using to get the emojis out of the text.

Use
re
, no need for
regex
:

import re
from emoji import UNICODE_EMOJI

e_list = UNICODE_EMOJI.keys()
extract_emojis = re.compile("|".join(map(re.escape, sorted(e_list,key=len,reverse=True))))

#...

def split_count(self, text):
        return extract_emojis.findall(text)
        

请注意,
\X
匹配一个代码点,但emojis可能包含多个代码点,您可以在问题中提到它

您应该使用已经在使用的表情符号解析库来从文本中提取表情符号

使用
re
,不需要
regex

请注意,使用此代码,在包含来自的所有唯一emojis的文件上运行它,由于超时,我无法获得任何结果

因此,要匹配那些最新的表情符号,您需要一个自定义正则表达式:

[代码>此次手机销售的目的地是一家公司的接收信号为r”[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[3]0-0-0-0-0-0-3]可能会]0-0-3]可能会手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手手\ u23FA\u24C2\u25AA\u25AB\u25B6\u25C0\u25FB\u25FC]\uFE0F?|[\u25FD\u25FE]|[\u2600-\u2604\u260E\u2611]\uFE0F|[U29614\u2614\u2614\\U2 614\U2 614\U2 614\\\U2 614\\U2 614\\U2 614\\\u2 614\\\u2 614\4\u2 614\4\U2 614\\U2 614\u2 614\4\u2 614\4\\\\\u2\4\\4\\4\4\4\u2\4\4\4\4\4\4\4\u2\0\4\\4\\\\u音音音乐器[[[[[[[[[[[[[[[4\0 0 0\0 0 0 0\0 0 0 0 0 0\0\0 0 0\0 0 0 0 0\0\0 0 0 0 0 0\0\0 0\0 0 0 0 0 0\0\0\0\0 0 0 0 0 0 0 0 0 0 0 0 0\0\4-\u2697\u2699\u269B\u269C\u26A0]\uFE0F?|\u26A1 |\u26A7\uFE0F?|[\u26AA\u26AB]|[\u26B0\u26B1]\“u26C8\uFE0F???\u2666C8\uFE0F??????124;\\u2866C8\u26C8\uFE0F??????????????????????????124;\\\u26666B D\U26D\U26D D D\U26D D\U26D D D\U26D D\U26D\U26D\U26D\U26D\U26D\U26D\U26D\U26D\U26D\U26D\U26D\U26D\U26B\U26B\U26D\U26B\U26B\U2\U26B\U2\U26B\U2\U2\U2\u66666666u2642]\uFE0F?|[\uFE0F\U0001F3FB-\U0001F3FF](?:\u200D[\u2640\u2642]\uFE0F?)|[\u26FA\u26FD]|\u2702\uFE0F?\u2705 |[\u2708\u2709]\“UFE00基金会是否会对UFE00基金基金会进行UF0基金????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\F525\U0001FA79]|\uFE0F(?:\u200D[\U0001F525\U0001FA79])?|[\u2795-\u2797]|\u27A1\uFE0F|(10)UF0基金会???????????????????????????????????????????????????????\\\\\\\\uuu277\U2777\U277777\U277777\f17\f17\f17\u21010101077777\U2B1B1B B\u2B1B B\U2B\U2B\u2B1B\u2B1B\u2B1B\u2B1B\u2B1B\u2B1B\u2B1B\u2B1B\u2B1B\u2B1B\u2B1B\u2B1B\u2B1B\u2B1B\UBB5\UBB5\UB5\UBB5\UBB5\UBB5\U0001F1F4\U0001F1F6-\U0001F1FA\U0001F1FC\U0001F1FD\U0001F1FF]|\U0000001F10 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 7 7 7 7 7 7 7 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0001f1ff]|\U0001F1EA2007年1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 6 6 6 6 6 6 6 6[[[[[[[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 FA]|\U0001F1EE2007年0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 \ \ \ \\???????????????????????????\0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0\U0001F1F22007年1月[[[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 F6\U0001F1E6 |\U0001F1F7[\U0001F1EA\U0001F1F4\U0001F1F8\U0001F1FA\U0001F1FC]|\U0001F1F8[\U0001F1E6-\U0001F1EA\U0001F1EC-\U0001F1F4\U0001F1F7-\U0001F1F9\U0001F1F4-\U0001F9[\U0001F1E6\U0001F1E8\U0001E9\U0001E9\U0001F1E4-\U0001EF-\U0001ED\U0001EF-\U0001F7\U0001F17\U0001F19\U0001F19][U0000001F10 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1[[[[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0[[[[[[[[[[[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 E0F|[0\U0001F20\0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 F???\[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 7 7 7 7 7 7 7 7 7 7 7???????????????\\???????????????????????????-\U0001F3FF]?|[\U0001F386-\U0001F393]|[\U0001F396\U0001F397\U0001F399-\U0001F39B\U0001F39E\U0001F39F]\uFE0F?|[\U0001F3A0-\U0001F3C1]| \U0001F3C2[\U0001F3FB-\U0001F3FF]?|[\U0001F3C3\U0001F3C4](?:\u200D[\u2640\u2642\u2642]\uFE0F?|[\U0001F3FB-\U0001F3FF](?:\U2604\U264F?)\U264F