用Python2.6抓取子字符串时

用Python2.6抓取子字符串时,python,list,beautifulsoup,mechanize,substring,Python,List,Beautifulsoup,Mechanize,Substring,嘿,有人能帮我做以下事情吗 我正试图抓取一个包含以下信息的网站。。我只需要拉一下标签后面的数字 [<li><strong>ISBN-13:</strong> 9780375853401</li>, <li><strong>Pub. Date: </strong> 05/11/2010</li>] [<li><strong>UPC:</strong> 49035500

嘿,有人能帮我做以下事情吗

我正试图抓取一个包含以下信息的网站。。我只需要拉一下
标签后面的数字

[<li><strong>ISBN-13:</strong> 9780375853401</li>, <li><strong>Pub. Date: </strong> 05/11/2010</li>]
[<li><strong>UPC:</strong> 490355000372</li>, <li><strong>Catalog No:</strong> 15024/25</li>, <li><strong>Label:</strong> CAMERATA</li>]

我想
upc\u code
就是您给我们展示的列表,而
local\u链接与您的问题无关,对吗?既然你没有在代码中进一步提到它

因此,我不确定
upc\u text
在你的循环体中会是什么,因为
upc
ul
标签--
upc.contents
将是
li
标签的列表(大概),我不知道
upc.contents.contents
是如何工作的——你看到了该代码的结果是什么?我本以为会有例外

无论如何,我编写循环的方式应该是:

for upc in upc_code:
    listitems = upc.findAll('li')
    for anitem in listitems:
        print anitem.contents[1]
因为您似乎想要每个列表项的第二个子项(第一个子项是
strong
标记,第二个子项是您想要的可导航字符串)

如果它不是您想要的每个列表项的第二个子项,请澄清;例如,您可以识别强项并获取其下一个兄弟项,如果这更适合您的话——只需将嵌套循环的主体放入

print anitem.find('strong').nextSibling

你是对的,我在发布时没有改变这一点。upc.contents.contents不起作用。干杯!
print anitem.find('strong').nextSibling