String 我需要从网站的html代码中提取子字符串的一部分和它的多次出现(如果有的话)

String 我需要从网站的html代码中提取子字符串的一部分和它的多次出现(如果有的话),string,python-3.x,String,Python 3.x,我需要在网站的html代码中查找符号“©”,并在符号前后分别提取100个字符/n个字符 html代码也可能多次出现符号“©”,在这种情况下,我需要对所有出现的符号执行上述步骤 目前,我已经编写了代码来提取符号的单个和第一次出现: finalurl="https://example.com" req=requests.get(finalurl,verify=False,headers=hdrs) html=req.content html=html.decode('utf-8'

我需要在网站的html代码中查找符号“©”,并在符号前后分别提取100个字符/n个字符

html代码也可能多次出现符号“©”,在这种情况下,我需要对所有出现的符号执行上述步骤

目前,我已经编写了代码来提取符号的单个和第一次出现:

finalurl="https://example.com"

req=requests.get(finalurl,verify=False,headers=hdrs)

html=req.content
html=html.decode('utf-8','ignore')


if "&copy" in html:
    pos_c = html.find("©")
    symbol = html[pos_c-100:pos_c+100]
    print(symbol)
因此,如果网站的html代码有“示例&复制示例1,这是一个示例&复制版权示例”

我想得到:

1.对于第一次出现的样本和副本:样本和副本样本1

2.第二次出现&复制:示例&复制版权示例

s='abcccccccccccccccccccccccccccccccc&copybebdddddddddddddddddddddddddddddddd'
d1=s[0:s.index('&copy')]
d2=s[s.index('&copy')+5:]
这是在复制之前和复制之后获取字符串的逻辑。 d1是复制前的字符串,d2是复制后的字符串

现在,只需使用循环将角色计数到100


如果出现多个©,您可以使用列表来捕获每个©的索引,也可以使用上述代码向前移动。

是否有一种方法可以使我不需要使用列表,因为我正在提取网站主页的整个html内容