lxml python脚本,如何删除重复id的计数

lxml python脚本,如何删除重复id的计数,python,xml,xpath,lxml,xml.etree,Python,Xml,Xpath,Lxml,Xml.etree,好吧,我一直在想如何解决这个问题。 这只是一个游戏在线用户的私人柜台 经过一番研究,我终于找到了这段代码,我在搜索中添加了一些代码,用on.png获得了所有图像的数量……它确实有效 from lxml import etree import requests def get_img_cnt(url): response = requests.get(url) parser = etree.HTMLParser() root = etree.fromstring(respons

好吧,我一直在想如何解决这个问题。 这只是一个游戏在线用户的私人柜台

经过一番研究,我终于找到了这段代码,我在搜索中添加了一些代码,用on.png获得了所有图像的数量……它确实有效

from lxml import etree
import requests

def get_img_cnt(url):
   response = requests.get(url)
   parser = etree.HTMLParser()
   root = etree.fromstring(response.content, parser=parser)

   return int(root.xpath('count(//img[@src="pics/on.png"])'))
现在我的沮丧是,如果帮主在线,“on.png”重复了2次。 有人能想出一个绕过它的办法吗?这是HTML的一部分

<tr><td class='tabellatitolo a_dx' style=' padding:10px;' >Master
<td class='tabelladati' style=' padding:10px;' ><img align=absmiddle src='pics/on.png'> 
<a   href='?f=pg&id=55110'>Modernist</a>

<tr><td class='tabellatitolo a_dx' style=' padding:10px;' >Membri<p>(5)
<td class='tabelladati' style=' padding:10px;' >**<img align=absmiddle      src='pics/on.png'> 
<a href='?f=pg&id=55110'>**Modernist**</a>** - <br><img align=absmiddle src='pics/off.png'> 
<a href='?f=pg&id=232720'>Human Slayer</a> - <i>Ti stimo!</i><br>
<img align=absmiddle src='pics/off.png'> <a href='?f=pg&id=68194'>Juggernaut</a><br>
<img align=absmiddle src='pics/off.png'> <a href='?f=pg&id=67121'>XeDiOr ThE KoOl</a><br>
<img align=absmiddle src='pics/on.png'> <a href='?f=pg&id=142638'>Lisbet Irmgard</a><br>
Master
Membri(5)
** 
**-
-蒂斯蒂莫



我可能在考虑使用上下文位置,或者利用“Membri”(成员)


谢谢,任何提示都会被告知:)

我将给出一个更残酷但可能更简单的答案:

import re
import requests

def get_img_cnt(url):
    response = requests.get(url)

    # just take the bit after the 'Membri' section
    member_content = response.content.split('>Membri<')[1]

    # count the number of times you see the image
    return len(re.findall('pics/on.png', member_content))
重新导入
导入请求
def get_img_cnt(url):
response=requests.get(url)
#只需在“Membri”部分后面的一点

member_content=response.content.split('>Membri是的,我会考虑使用“Membri”作为起点,然后从那里开始。看起来您提供的html不完整,因此很难说如何准确地使用您的结构。有趣的是,尽管似乎找不到列表成员_content=response.content.split('>Membri我看到英文版的页面是有原因的。我想你可以使用
resp.text.split('>Memb')[1]
,无论是英文版还是意大利文版都应该可以。虽然它会导致这个错误,但我理解这个概念,所以我需要做的是在找到“成员”之前吐出XML,我会找到一种方法的!谢谢
回溯(最后一次调用):文件“2test.py”,第15行,打印“Gang:”,get_img_cnt(url)文件“2test.py”,第8行,get_img_cnt member_content=response.content.split('>Memb')[1]索引器:列表索引超出范围