Python Web垃圾列表操作_Python_Web Scraping

Python Web垃圾列表操作

python web-scraping

Python Web垃圾列表操作,python,web-scraping,Python,Web Scraping,嘿，我是Python新手，我正在编写一个从网页中提取数据的程序。使用此搜索行： carTypeWeb = soup.find_all("span", {"class":"h3"}) 我得到以下输出： > [<span class="h3">BMW 420d Gran Coupe M-Sportpaket DIEBSTAHLSCHADEN > !!</span>, <span class="h3 u-block">25.950 \u20ac&l

嘿，我是Python新手，我正在编写一个从网页中提取数据的程序。使用此搜索行：

carTypeWeb = soup.find_all("span", {"class":"h3"})

我得到以下输出：

> [<span class="h3">BMW 420d Gran Coupe M-Sportpaket DIEBSTAHLSCHADEN
> !!</span>,  <span class="h3 u-block">25.950 \u20ac</span>,  <span
> class="h3">BMW 420d Coupe Sport Line,Xenon,Navi,M-Tech,19 Zoll</span>,
> <span class="h3 u-block">26.795 \u20ac</span>,.....]

[BMW 420d Gran Coupe M-Sportpaket DIEBSTAHLSCHADEN
>！！，25.950\u20ac，class=“h3”>宝马420d双门跑车运动系列，氙气，Navi，M-Tech，19 Zoll，
>26.795\u20ac，…]

我现在正在努力解决a）删除列表中的每一个项目（在第1行和第3行上面复制的示例中）和b）仅在列表中的数值（例如价格25950和26795）上方有2行和4行

非常感谢您事先的帮助；非常感谢

如果您只需要每隔一行，为什么不将代码更改为：

carTypeWeb = soup.find_all("span", {"class":"h3 u-block"})

你可以这样做：

# To read only alternate items of list starting from item 2

for i in range(1, len(carTypeWeb), 2):
    price = (carTypeWeb[i].text).split(' ')[0].replace('.','')

在上述代码中，

.text

提取

span

标记之间的内容，然后

.split[0]

，在空格处拆分内容，第0部分给出：

\u25.950

在此之后，将字符串中的

替换为不带空格，将为您提供：

\u25950

然后您可以执行，

eval（price）

将字符串转换为整数。我希望这能有所帮助。

周围的html的其余部分是什么样子的？非常感谢。有你的帮助，我能解决我的问题！非常感谢你。有你的帮助，我能解决我的问题！如果你能用上面的答案解决你的问题，那么请把它标记为答案。或者，如果您使用了其中的一部分，那么您还可以使用特定的解决方案创建一个答案。