Python Web垃圾列表操作

Python Web垃圾列表操作,python,web-scraping,Python,Web Scraping,嘿,我是Python新手,我正在编写一个从网页中提取数据的程序。使用此搜索行: carTypeWeb = soup.find_all("span", {"class":"h3"}) 我得到以下输出: > [<span class="h3">BMW 420d Gran Coupe M-Sportpaket DIEBSTAHLSCHADEN > !!</span>, <span class="h3 u-block">25.950 \u20ac&l

嘿,我是Python新手,我正在编写一个从网页中提取数据的程序。使用此搜索行:

carTypeWeb = soup.find_all("span", {"class":"h3"}) 
我得到以下输出:

> [<span class="h3">BMW 420d Gran Coupe M-Sportpaket DIEBSTAHLSCHADEN
> !!</span>,  <span class="h3 u-block">25.950 \u20ac</span>,  <span
> class="h3">BMW 420d Coupe Sport Line,Xenon,Navi,M-Tech,19 Zoll</span>,
> <span class="h3 u-block">26.795 \u20ac</span>,.....]
[BMW 420d Gran Coupe M-Sportpaket DIEBSTAHLSCHADEN
>!!,25.950\u20ac,class=“h3”>宝马420d双门跑车运动系列,氙气,Navi,M-Tech,19 Zoll,
>26.795\u20ac,…]
我现在正在努力解决a)删除列表中的每一个项目(在第1行和第3行上面复制的示例中)和b)仅在列表中的数值(例如价格25950和26795)上方有2行和4行


非常感谢您事先的帮助;非常感谢

如果您只需要每隔一行,为什么不将代码更改为:

carTypeWeb = soup.find_all("span", {"class":"h3 u-block"})

你可以这样做:

# To read only alternate items of list starting from item 2

for i in range(1, len(carTypeWeb), 2):
    price = (carTypeWeb[i].text).split(' ')[0].replace('.','')
在上述代码中,
.text
提取
span
标记之间的内容,然后
.split[0]
,在空格处拆分内容,第0部分给出:
\u25.950

在此之后,将字符串中的
替换为不带空格,将为您提供:
\u25950


然后您可以执行,
eval(price)
将字符串转换为整数。我希望这能有所帮助。

周围的html的其余部分是什么样子的?非常感谢。有你的帮助,我能解决我的问题!非常感谢你。有你的帮助,我能解决我的问题!如果你能用上面的答案解决你的问题,那么请把它标记为答案。或者,如果您使用了其中的一部分,那么您还可以使用特定的解决方案创建一个答案。