Python 3.x Python3中无特定字符串的刮取_Python 3.x

Python 3.x Python3中无特定字符串的刮取

python-3.x

Python 3.x Python3中无特定字符串的刮取,python-3.x,Python 3.x,我只想在Python3中删除表情符号。我在if语句中使用了starttwith方法，但结果得到了一些Unicode，表明emoji的HTML标记似乎与其他标记相同。我不知道为什么一些表情符号被转换成Unicode。你能给我一些建议吗？？或者有任何方法可以从列表中删除此unicode。我更新了编辑器，效果很好 from urllib.request import urlopen import requests from bs4 import BeautifulSoup import re im

我只想在Python3中删除表情符号。我在if语句中使用了starttwith方法，但结果得到了一些Unicode，表明emoji的HTML标记似乎与其他标记相同。我不知道为什么一些表情符号被转换成Unicode。你能给我一些建议吗？？或者有任何方法可以从列表中删除此unicode。

我更新了编辑器，效果很好

from urllib.request import urlopen
import requests
from bs4 import BeautifulSoup
import re
import os

list0 = []

site_url = "https://www.emojiall.com/zh-hant/categories/A"
get_url = requests.get(site_url)
soup = BeautifulSoup(get_url.text, "lxml")

for script in soup(["span"]):
    script.extract()

emojis = soup.select('.emoji_font')
words = soup.select('.emoji_name_truncate')

for emoji0 in emojis:
    emoji1 = emoji0.getText()
    if not repr(emoji1).startswith(r"'\U"):
        list0.append(emoji1)
    else:
        continue
print(list0)

Windows中不存在某些表情符号。因此，根据您的用例，您不应该跳过这些。此外，所有表情符号/Unicode都以\U开头。谢谢您的评论。这个问题是由我的编辑引起的。

from urllib.request import urlopen
import requests
from bs4 import BeautifulSoup
import re
import os

list0 = []

site_url = "https://www.emojiall.com/zh-hant/categories/A"
get_url = requests.get(site_url)
soup = BeautifulSoup(get_url.text, "lxml")

for script in soup(["span"]):
    script.extract()

emojis = soup.select('.emoji_font')
words = soup.select('.emoji_name_truncate')

for emoji0 in emojis:
    emoji1 = emoji0.getText()
    if not repr(emoji1).startswith(r"'\U"):
        list0.append(emoji1)
    else:
        continue
print(list0)