用Python存储HTML代码段
我正在使用Beautiful Soup删除页面,我想离线保存一些html片段,并使用它们与每次再次删除页面时进行比较,以检查页面是否有任何更改 除了直接写出一个html文件外,离线保存大量html片段(哪种格式)以供以后比较使用的最佳策略是什么用Python存储HTML代码段,python,html,beautifulsoup,Python,Html,Beautifulsoup,我正在使用Beautiful Soup删除页面,我想离线保存一些html片段,并使用它们与每次再次删除页面时进行比较,以检查页面是否有任何更改 除了直接写出一个html文件外,离线保存大量html片段(哪种格式)以供以后比较使用的最佳策略是什么 谢谢这是一款经典的手机。像md5和sha256这样的算法将任意数量的文本压缩到几个字节。您可以只存储解析的任何文件的哈希值,然后当您获得新文件时,计算该文件的哈希值并比较两个哈希值。如果您不需要HTML文件本身,只需比较代码,然后使用数据库。如果您只想知
谢谢这是一款经典的手机。像
md5
和sha256
这样的算法将任意数量的文本压缩到几个字节。您可以只存储解析的任何文件的哈希值,然后当您获得新文件时,计算该文件的哈希值并比较两个哈希值。如果您不需要HTML文件本身,只需比较代码,然后使用数据库。如果您只想知道是否进行了更改(但不关心更改的细节)然后,您可以对刮取的数据进行散列(例如,作为MD5和)并存储/比较散列。