Python 使用beautiful soup从网站上刮取数据编码url_Python_Html_Python 3.x

Python 使用beautiful soup从网站上刮取数据编码url

python html python-3.x

Python 使用beautiful soup从网站上刮取数据编码url,python,html,python-3.x,Python,Html,Python 3.x,我试着把餐馆的网站刮下来例如，我举了一个例子：在网站上有一个我想要抓取的URL参考：源代码如下所示： <a data-encoded-url="VUxRX2h0dHA6Ly9sZW5pbGllYnRrYWZmZWUuZGUvX3FLOQ==" class="_2wKz--mA _27M8V6YV" target="_blank" href="http://leniliebtkaffee.de/&q

我试着把餐馆的网站刮下来

例如，我举了一个例子：在网站上有一个我想要抓取的URL参考：

源代码如下所示：

    <a data-encoded-url="VUxRX2h0dHA6Ly9sZW5pbGllYnRrYWZmZWUuZGUvX3FLOQ==" class="_2wKz--mA _27M8V6YV" 
    target="_blank" href="http://leniliebtkaffee.de/"><span class="ui_icon laptop _3ZW3afUk"></span><span 
    cass="_2saB_OSe">Website/span><span class="ui_icon external-link-no-box _2OpUzCuO"></span></a>

我明白了

网站

不幸的是，这里没有href链接。如何获取它？

有一个URL base64编码在

数据编码URL

中：

>>> import base64
>>> base64.b64decode(b"NVh0X2h0dHA6Ly9sZW5pbGllYnRrYWZmZWUuZGUvX1dDWg==")
b'5Xt_http://leniliebtkaffee.de/_WCZ'

正如您所看到的，URL似乎填充了无意义的内容或某种标志，因此您需要去掉这些内容

<a class="_2wKz--mA _27M8V6YV" data-encoded-url="NVh0X2h0dHA6Ly9sZW5pbGllYnRrYWZmZWUuZGUvX1dDWg==" target="_blank"><span class="ui_icon laptop _3ZW3afUk"></span><span class="_2saB_OSe">Website</span><span class="ui_icon external-link-no-box _2OpUzCuO"></span></a>

>>> import base64
>>> base64.b64decode(b"NVh0X2h0dHA6Ly9sZW5pbGllYnRrYWZmZWUuZGUvX1dDWg==")
b'5Xt_http://leniliebtkaffee.de/_WCZ'