Python 在Beautiful Soup中提取标记值
我正在用python中的Beauty soup解析一个html文档 我碰到一个这样的标签Python 在Beautiful Soup中提取标记值,python,html,beautifulsoup,Python,Html,Beautifulsoup,我正在用python中的Beauty soup解析一个html文档 我碰到一个这样的标签 div class="_3auQ3N">\u20b9<!-- -->1,990</div> div class=“\u 3auQ3N”>\u20b91990 \u20bp表示货币符号,1990表示价格 我想知道如何将这些值提取到两个不同的字符串(或值)中 提取字符串后,您可以使用正则表达式: import re string = "\u20b9<!-- -->
div class="_3auQ3N">\u20b9<!-- -->1,990</div>
div class=“\u 3auQ3N”>\u20b91990
\u20bp表示货币符号,1990表示价格
我想知道如何将这些值提取到两个不同的字符串(或值)中 提取字符串后,您可以使用正则表达式:
import re
string = "\u20b9<!-- -->1,990"
a = re.findall("(^.*)<!-- -->(.*)", string)
print(a[0][0],a[0][1]) # ₹ 1,990
重新导入
string=“\u20b91990”
a=re.findall((^.*)(.*),字符串)
打印(a[0][0],a[0][1])#₹ 1,990
提取字符串后,您可以使用正则表达式:
import re
string = "\u20b9<!-- -->1,990"
a = re.findall("(^.*)<!-- -->(.*)", string)
print(a[0][0],a[0][1]) # ₹ 1,990
重新导入
string=“\u20b91990”
a=re.findall((^.*)(.*),字符串)
打印(a[0][0],a[0][1])#₹ 1,990
>>soup=BeautifulSoup('\u20b91990','lxml'))
>>>列表(soup.div.strings)
['₹', '1,990']
>>soup=BeautifulSoup('\u20b91990','lxml'))
>>>列表(soup.div.strings)
['₹', '1,990']
到目前为止,您尝试了什么?你有什么代码要显示吗?到目前为止你试过什么?你有什么代码要显示吗?我得到这个。。[u'\\u20b9',u'1990']对于Python2,您可以:对于soup.div.strings中的s:print s.decode('unicode\u escape')
。我明白了。。[u'\\u20b9',u'1990']对于Python 2,您可以:在soup.div.strings中为s:print s.decode('unicode_escape')
。