lxml python脚本，如何删除重复id的计数_Python_Xml_Xpath_Lxml_Xml.etree

lxml python脚本，如何删除重复id的计数

python xml xpath

lxml python脚本，如何删除重复id的计数,python,xml,xpath,lxml,xml.etree,Python,Xml,Xpath,Lxml,Xml.etree,好吧，我一直在想如何解决这个问题。这只是一个游戏在线用户的私人柜台经过一番研究，我终于找到了这段代码，我在搜索中添加了一些代码，用on.png获得了所有图像的数量……它确实有效 from lxml import etree import requests def get_img_cnt(url): response = requests.get(url) parser = etree.HTMLParser() root = etree.fromstring(respons

好吧，我一直在想如何解决这个问题。这只是一个游戏在线用户的私人柜台

经过一番研究，我终于找到了这段代码，我在搜索中添加了一些代码，用on.png获得了所有图像的数量……它确实有效

from lxml import etree
import requests

def get_img_cnt(url):
   response = requests.get(url)
   parser = etree.HTMLParser()
   root = etree.fromstring(response.content, parser=parser)

   return int(root.xpath('count(//img[@src="pics/on.png"])'))

现在我的沮丧是，如果帮主在线，“on.png”重复了2次。有人能想出一个绕过它的办法吗？这是HTML的一部分

<tr><td class='tabellatitolo a_dx' style=' padding:10px;' >Master
<td class='tabelladati' style=' padding:10px;' ><img align=absmiddle src='pics/on.png'> 
<a   href='?f=pg&id=55110'>Modernist</a>

<tr><td class='tabellatitolo a_dx' style=' padding:10px;' >Membri<p>(5)
<td class='tabelladati' style=' padding:10px;' >**<img align=absmiddle      src='pics/on.png'> 
<a href='?f=pg&id=55110'>**Modernist**</a>** - <br><img align=absmiddle src='pics/off.png'> 
<a href='?f=pg&id=232720'>Human Slayer</a> - <i>Ti stimo!</i><br>
<img align=absmiddle src='pics/off.png'> <a href='?f=pg&id=68194'>Juggernaut</a><br>
<img align=absmiddle src='pics/off.png'> <a href='?f=pg&id=67121'>XeDiOr ThE KoOl</a><br>
<img align=absmiddle src='pics/on.png'> <a href='?f=pg&id=142638'>Lisbet Irmgard</a><br>

Master
Membri（5）
** 
**-

-蒂斯蒂莫

我可能在考虑使用上下文位置，或者利用“Membri”（成员）

谢谢，任何提示都会被告知：）

我将给出一个更残酷但可能更简单的答案：

import re
import requests

def get_img_cnt(url):
    response = requests.get(url)

    # just take the bit after the 'Membri' section
    member_content = response.content.split('>Membri<')[1]

    # count the number of times you see the image
    return len(re.findall('pics/on.png', member_content))

重新导入
导入请求
def get_img_cnt（url）：
response=requests.get（url）
#只需在“Membri”部分后面的一点
member_content=response.content.split（'>Membri是的，我会考虑使用“Membri”作为起点，然后从那里开始。看起来您提供的html不完整，因此很难说如何准确地使用您的结构。有趣的是，尽管似乎找不到列表成员_content=response.content.split（'>Membri我看到英文版的页面是有原因的。我想你可以使用resp.text.split（'>Memb'）[1]
，无论是英文版还是意大利文版都应该可以。虽然它会导致这个错误，但我理解这个概念，所以我需要做的是在找到“成员”之前吐出XML，我会找到一种方法的！谢谢回溯（最后一次调用）：文件“2test.py”，第15行，打印“Gang:”，get_img_cnt（url）文件“2test.py”，第8行，get_img_cnt member_content=response.content.split（'>Memb'）[1]索引器：列表索引超出范围