Regex 正则表达式解析图像

Regex 正则表达式解析图像,regex,Regex,如果我有以下格式的字符串: 数据:图像/x图标;base64,一个新的概念,一个新的概念,一个新的概念,一个新的概念,一个新的概念,一个新的概念,一个新的概念,一个新的概念,一个新的概念,一个新的概念,一个新的概念,一个新的概念,一个新的概念,一个新的概念,一个新的概念,一个新的概念,一个新的概念,一个概念,一个新的概念,一个新的概念,一个新的概念,一个概念,一个新的概念,一个新的概念,一个新的概念,一个新的概念,一个新的概念,一个新的概念,一个新的概念,一个新的概念,新的概念,新的概念,新的概

如果我有以下格式的字符串:

数据:图像/x图标;base64,一个新的概念,一个新的概念,一个新的概念,一个新的概念,一个新的概念,一个新的概念,一个新的概念,一个新的概念,一个新的概念,一个新的概念,一个新的概念,一个新的概念,一个新的概念,一个新的概念,一个新的概念,一个新的概念,一个新的概念,一个概念,一个新的概念,一个新的概念,一个新的概念,一个概念,一个新的概念,一个新的概念,一个新的概念,一个新的概念,一个新的概念,一个新的概念,一个新的概念,一个新的概念,新的概念,新的概念,新的概念,新的概念,新的概念,新的概念,新的概念,新的概念,新的概念,新的概念,新的概念,新的概念,新的概念,新的概念,新的概念,新的概念,新HA++IXCJRJKJGHJIALYZVyNqufP9j/9AH0S0vqrU+YMGAAAABJRU5ERKJGG==

我可以使用什么样的正则表达式来解析数组中的这些元素?(这样我就可以写出正确的图像)

更新:我理解base64编码,但问题实际上是如何解析网页中嵌入的图标。因为我不知道人们是否正在使用例如base62。。。或其他图像字符串或甚至其他格式来嵌入图像。等我在页面中也看到了一些示例,其中标识符是image/x-icon,但字符串实际上包含png

更新只是一些回馈,分享我使用的代码:


虽然我还有一些问题,例如是否只使用base64等。。。但是在实践中时间会证明一切。

你能看到开头的
base64
吗?你不需要正则表达式。您需要将此base64字符串解码为字节流,然后将其另存为图像

我现在已将以下文本保存到文件
icon.txt

iVBORw0KGgoAAAANSUhEUgAAABAAAAAQCAYAAAAf8/9hAAAABmJLR0QAAAAAAAD5Q7t
/AAAA2UlEQVQ4y8WSvQvCMBDFX2rFUvuFSAUFBQfBwUXQVfFfFpzdRV2c7O5UKmihX9E6RZo2pXbyTbmX3C+5uwD
/FskG+76WsvX65n
/3Lm0pdU214HOAbHIWwvzeYPL1p4cT4QCi5DIxEINIdWt+Hs9cXAtg3UOkIJAUpT5ADiho8kbD0NG0LB6Q76xIevwCpW+0bBvj7Y5wgCpI148RBxTmYo7Z1RGPkSk
/kc4jgme0oHoJlmFUOC+8lUEMN0ASvyBpGha++IXCJrJyKJGhjIalyZVyNqufP9j
/9AH0S0vqrU+YMgAAAABJRU5ErkJggg==
并处理:

base64 -d icon.txt > icon.png
它显示一个红色的心形图标,16x16像素

这是在命令行中对其进行解码的方法。大多数编程语言都提供了很好的库,可以在程序中直接对其进行解码


编辑:如果您使用PHP,请查看。

您能看到开头的
base64
吗?你不需要正则表达式。您需要将此base64字符串解码为字节流,然后将其另存为图像

我现在已将以下文本保存到文件
icon.txt

iVBORw0KGgoAAAANSUhEUgAAABAAAAAQCAYAAAAf8/9hAAAABmJLR0QAAAAAAAD5Q7t
/AAAA2UlEQVQ4y8WSvQvCMBDFX2rFUvuFSAUFBQfBwUXQVfFfFpzdRV2c7O5UKmihX9E6RZo2pXbyTbmX3C+5uwD
/FskG+76WsvX65n
/3Lm0pdU214HOAbHIWwvzeYPL1p4cT4QCi5DIxEINIdWt+Hs9cXAtg3UOkIJAUpT5ADiho8kbD0NG0LB6Q76xIevwCpW+0bBvj7Y5wgCpI148RBxTmYo7Z1RGPkSk
/kc4jgme0oHoJlmFUOC+8lUEMN0ASvyBpGha++IXCJrJyKJGhjIalyZVyNqufP9j
/9AH0S0vqrU+YMgAAAABJRU5ErkJggg==
并处理:

base64 -d icon.txt > icon.png
它显示一个红色的心形图标,16x16像素

这是在命令行中对其进行解码的方法。大多数编程语言都提供了很好的库,可以在程序中直接对其进行解码


编辑:如果您使用PHP,请看一看。

在这种情况下,预期的输出是什么?我从网页中获取图标/快捷方式图标的链接。有时是a href url,有时是数据。如果是数据,那么它可能在所有可能的网站上都包含许多不同的内容,因此使用正则表达式可以覆盖尽可能多的情况,例如空格、错误、奇怪的图像格式或未知参数,这应该会使webscraper变得更好。在这种情况下,预期的输出是什么?我从网页中获取图标/快捷方式图标的链接。有时是a href url,有时是数据。如果是数据,那么它可能在所有可能的网站上都包含很多不同的内容,因此使用正则表达式可以覆盖尽可能多的情况,例如空格、错误、奇怪的图像格式或未知参数,这应该会使webscraper更好。它是一个/html/head/link中的修饰图标[@rel='icon'总是使用这种格式?@edelwater-这看起来是一种存储图像的好方法,因为它比保存在单独的PNG文件中所需的Web服务器调用次数少。这不是一种好方法,因为不是所有浏览器都支持它。但由于我正在编写解析器……我想知道是否也使用了其他格式。是否有一个embbeded图标/html/head/link[@rel='icon'始终采用这种格式?@edelwater-这看起来是一种存储图像的好方法,因为与将图像保存在单独的PNG文件中相比,它只需对Web服务器进行一次调用。这不是一种好方法,因为并非所有浏览器都支持它。但由于我正在编写解析器……我想知道是否还使用了其他格式。