lxml python脚本,如何删除重复id的计数
好吧,我一直在想如何解决这个问题。 这只是一个游戏在线用户的私人柜台 经过一番研究,我终于找到了这段代码,我在搜索中添加了一些代码,用on.png获得了所有图像的数量……它确实有效lxml python脚本,如何删除重复id的计数,python,xml,xpath,lxml,xml.etree,Python,Xml,Xpath,Lxml,Xml.etree,好吧,我一直在想如何解决这个问题。 这只是一个游戏在线用户的私人柜台 经过一番研究,我终于找到了这段代码,我在搜索中添加了一些代码,用on.png获得了所有图像的数量……它确实有效 from lxml import etree import requests def get_img_cnt(url): response = requests.get(url) parser = etree.HTMLParser() root = etree.fromstring(respons
from lxml import etree
import requests
def get_img_cnt(url):
response = requests.get(url)
parser = etree.HTMLParser()
root = etree.fromstring(response.content, parser=parser)
return int(root.xpath('count(//img[@src="pics/on.png"])'))
现在我的沮丧是,如果帮主在线,“on.png”重复了2次。
有人能想出一个绕过它的办法吗?这是HTML的一部分
<tr><td class='tabellatitolo a_dx' style=' padding:10px;' >Master
<td class='tabelladati' style=' padding:10px;' ><img align=absmiddle src='pics/on.png'>
<a href='?f=pg&id=55110'>Modernist</a>
<tr><td class='tabellatitolo a_dx' style=' padding:10px;' >Membri<p>(5)
<td class='tabelladati' style=' padding:10px;' >**<img align=absmiddle src='pics/on.png'>
<a href='?f=pg&id=55110'>**Modernist**</a>** - <br><img align=absmiddle src='pics/off.png'>
<a href='?f=pg&id=232720'>Human Slayer</a> - <i>Ti stimo!</i><br>
<img align=absmiddle src='pics/off.png'> <a href='?f=pg&id=68194'>Juggernaut</a><br>
<img align=absmiddle src='pics/off.png'> <a href='?f=pg&id=67121'>XeDiOr ThE KoOl</a><br>
<img align=absmiddle src='pics/on.png'> <a href='?f=pg&id=142638'>Lisbet Irmgard</a><br>
Master
Membri(5)
**
**-
-蒂斯蒂莫
我可能在考虑使用上下文位置,或者利用“Membri”(成员)
谢谢,任何提示都会被告知:)我将给出一个更残酷但可能更简单的答案:
import re
import requests
def get_img_cnt(url):
response = requests.get(url)
# just take the bit after the 'Membri' section
member_content = response.content.split('>Membri<')[1]
# count the number of times you see the image
return len(re.findall('pics/on.png', member_content))
重新导入
导入请求
def get_img_cnt(url):
response=requests.get(url)
#只需在“Membri”部分后面的一点
member_content=response.content.split('>Membri是的,我会考虑使用“Membri”作为起点,然后从那里开始。看起来您提供的html不完整,因此很难说如何准确地使用您的结构。有趣的是,尽管似乎找不到列表成员_content=response.content.split('>Membri我看到英文版的页面是有原因的。我想你可以使用resp.text.split('>Memb')[1]
,无论是英文版还是意大利文版都应该可以。虽然它会导致这个错误,但我理解这个概念,所以我需要做的是在找到“成员”之前吐出XML,我会找到一种方法的!谢谢回溯(最后一次调用):文件“2test.py”,第15行,打印“Gang:”,get_img_cnt(url)文件“2test.py”,第8行,get_img_cnt member_content=response.content.split('>Memb')[1]索引器:列表索引超出范围