Python 3.x Python3中无特定字符串的刮取
我只想在Python3中删除表情符号。我在if语句中使用了starttwith方法,但结果得到了一些Unicode,表明emoji的HTML标记似乎与其他标记相同。我不知道为什么一些表情符号被转换成Unicode。你能给我一些建议吗??或者有任何方法可以从列表中删除此unicode。Python 3.x Python3中无特定字符串的刮取,python-3.x,Python 3.x,我只想在Python3中删除表情符号。我在if语句中使用了starttwith方法,但结果得到了一些Unicode,表明emoji的HTML标记似乎与其他标记相同。我不知道为什么一些表情符号被转换成Unicode。你能给我一些建议吗??或者有任何方法可以从列表中删除此unicode。 我更新了编辑器,效果很好 from urllib.request import urlopen import requests from bs4 import BeautifulSoup import re im
我更新了编辑器,效果很好
from urllib.request import urlopen
import requests
from bs4 import BeautifulSoup
import re
import os
list0 = []
site_url = "https://www.emojiall.com/zh-hant/categories/A"
get_url = requests.get(site_url)
soup = BeautifulSoup(get_url.text, "lxml")
for script in soup(["span"]):
script.extract()
emojis = soup.select('.emoji_font')
words = soup.select('.emoji_name_truncate')
for emoji0 in emojis:
emoji1 = emoji0.getText()
if not repr(emoji1).startswith(r"'\U"):
list0.append(emoji1)
else:
continue
print(list0)
Windows中不存在某些表情符号。因此,根据您的用例,您不应该跳过这些。此外,所有表情符号/Unicode都以\U开头。谢谢您的评论。这个问题是由我的编辑引起的。
from urllib.request import urlopen
import requests
from bs4 import BeautifulSoup
import re
import os
list0 = []
site_url = "https://www.emojiall.com/zh-hant/categories/A"
get_url = requests.get(site_url)
soup = BeautifulSoup(get_url.text, "lxml")
for script in soup(["span"]):
script.extract()
emojis = soup.select('.emoji_font')
words = soup.select('.emoji_name_truncate')
for emoji0 in emojis:
emoji1 = emoji0.getText()
if not repr(emoji1).startswith(r"'\U"):
list0.append(emoji1)
else:
continue
print(list0)