Python 如何使用Beauty Soup为HTML页面找到唯一的文章id/页面id?
我试图找到与每个HTML页面关联的唯一文章ID/页面ID。但是,问题是对于每个HTML页面,文章id的格式都不同。例如,articleId、articleId、articleId、value、netID等。 对于大多数HTML页面,可以在脚本标记中找到文章id。以下是脚本标记中文本的外观:Python 如何使用Beauty Soup为HTML页面找到唯一的文章id/页面id?,python,html,beautifulsoup,Python,Html,Beautifulsoup,我试图找到与每个HTML页面关联的唯一文章ID/页面ID。但是,问题是对于每个HTML页面,文章id的格式都不同。例如,articleId、articleId、articleId、value、netID等。 对于大多数HTML页面,可以在脚本标记中找到文章id。以下是脚本标记中文本的外观: var lf_config=[{“collectionMeta”:2.EJJJJJJJJJJZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZ
var lf_config=[{“collectionMeta”:2.EJJJJJJJJJJZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZ,
“校验和”:“21871f7fa5de70646402796b1c01be16”,
“站点ID”:“339299”,
“articleId”:1133,“strings”:“,“el”:“livefyre comments”}];var conv=fyre.conv.load({},lf_config);
/* */
如果要按id查找元素或对象
div = soup.find(id="articlebody")
通过id,我不是指属性id。在本例中,文章id对于每个HTML页面都是唯一的。