用Python2.6抓取子字符串时
嘿,有人能帮我做以下事情吗 我正试图抓取一个包含以下信息的网站。。我只需要拉一下用Python2.6抓取子字符串时,python,list,beautifulsoup,mechanize,substring,Python,List,Beautifulsoup,Mechanize,Substring,嘿,有人能帮我做以下事情吗 我正试图抓取一个包含以下信息的网站。。我只需要拉一下标签后面的数字 [<li><strong>ISBN-13:</strong> 9780375853401</li>, <li><strong>Pub. Date: </strong> 05/11/2010</li>] [<li><strong>UPC:</strong> 49035500
标签后面的数字
[<li><strong>ISBN-13:</strong> 9780375853401</li>, <li><strong>Pub. Date: </strong> 05/11/2010</li>]
[<li><strong>UPC:</strong> 490355000372</li>, <li><strong>Catalog No:</strong> 15024/25</li>, <li><strong>Label:</strong> CAMERATA</li>]
我想
upc\u code
就是您给我们展示的列表,而local\u链接与您的问题无关,对吗?既然你没有在代码中进一步提到它
因此,我不确定upc\u text
在你的循环体中会是什么,因为upc
是ul
标签--upc.contents
将是li
标签的列表(大概),我不知道upc.contents.contents
是如何工作的——你看到了该代码的结果是什么?我本以为会有例外
无论如何,我编写循环的方式应该是:
for upc in upc_code:
listitems = upc.findAll('li')
for anitem in listitems:
print anitem.contents[1]
因为您似乎想要每个列表项的第二个子项(第一个子项是strong
标记,第二个子项是您想要的可导航字符串)
如果它不是您想要的每个列表项的第二个子项,请澄清;例如,您可以识别强项并获取其下一个兄弟项,如果这更适合您的话——只需将嵌套循环的主体放入
print anitem.find('strong').nextSibling
你是对的,我在发布时没有改变这一点。upc.contents.contents不起作用。干杯!
print anitem.find('strong').nextSibling