Python 剥离Html标记Findall+；靓汤_Python_Html_Beautifulsoup_Screen Scraping

Python 剥离Html标记Findall+；靓汤

python html

Python 剥离Html标记Findall+；靓汤,python,html,beautifulsoup,screen-scraping,Python,Html,Beautifulsoup,Screen Scraping,我已经搜索了大概两个小时，我相信我的大脑可能已经被炸了。今天是我和BeautifulSoup的第一天（所以请温柔一点）。我正在抓取的网站源代码的格式如下： <a href="/listing/view" class="price">$100</a> 如何仅针对特定标记之间具有匹配类的内容 prices = soup.find_all(class_="price") for a in prices: passed.append(int(a.text.strip().

我已经搜索了大概两个小时，我相信我的大脑可能已经被炸了。今天是我和BeautifulSoup的第一天（所以请温柔一点）。我正在抓取的网站源代码的格式如下：

<a href="/listing/view" class="price">$100</a>

如何仅针对特定标记之间具有匹配类的内容

prices = soup.find_all(class_="price")

for a in prices:
  passed.append(int(a.text.strip().replace('$','')) # will append to the list

这应该会有帮助。

即使这样，我仍然得到以下结果：['\n\t\t\t\t\t\t\t$465\n\t\t\t\t\t\t'，'\n\t\t\t\t$515\n\t\t\t\t\t\t\t\t'，我想要的是整数值

strip（）

将去掉空格并

替换（）

用于

\n

表示换行，

\t

表示选项卡。

strip（）

删除所有空白。如果您执行

打印（“\tHI”）

和

打印（\nHI”）

，您将清楚：）

prices = soup.find_all(class_="price")

for a in prices:
  passed.append(int(a.text.strip().replace('$','')) # will append to the list