Python 剥离Html标记Findall+;靓汤
我已经搜索了大概两个小时,我相信我的大脑可能已经被炸了。今天是我和BeautifulSoup的第一天(所以请温柔一点)。我正在抓取的网站源代码的格式如下:Python 剥离Html标记Findall+;靓汤,python,html,beautifulsoup,screen-scraping,Python,Html,Beautifulsoup,Screen Scraping,我已经搜索了大概两个小时,我相信我的大脑可能已经被炸了。今天是我和BeautifulSoup的第一天(所以请温柔一点)。我正在抓取的网站源代码的格式如下: <a href="/listing/view" class="price">$100</a> 如何仅针对特定标记之间具有匹配类的内容 prices = soup.find_all(class_="price") for a in prices: passed.append(int(a.text.strip().
<a href="/listing/view" class="price">$100</a>
如何仅针对特定标记之间具有匹配类的内容
prices = soup.find_all(class_="price")
for a in prices:
passed.append(int(a.text.strip().replace('$','')) # will append to the list
这应该会有帮助。即使这样,我仍然得到以下结果:['\n\t\t\t\t\t\t\t$465\n\t\t\t\t\t\t','\n\t\t\t\t$515\n\t\t\t\t\t\t\t\t',我想要的是整数值
strip()
将去掉空格并替换()
用于$
\n
表示换行,\t
表示选项卡。strip()
删除所有空白。如果您执行打印(“\tHI”)
和打印(\nHI”)
,您将清楚:)
prices = soup.find_all(class_="price")
for a in prices:
passed.append(int(a.text.strip().replace('$','')) # will append to the list