Python Beautifulsoup web刮板问题

Python Beautifulsoup web刮板问题,python,beautifulsoup,mechanize,web-scraping,Python,Beautifulsoup,Mechanize,Web Scraping,我正在使用BeautifulSoup和mechanise从网页中查找一些内容。问题是,有时我正在寻找的字符串找不到。我不知道有什么问题 它在许多网页上运行了好几个月,但突然停止了工作。然后我必须重新启动我的程序,并希望得到正确的结果 问题在于data.find(text=re.compile('string to find'))。网页总是在下载,但有时找不到字符串。我认为问题可能出在加载页面的HTML格式错误?有什么想法吗 这里是我正在使用的代码的一小部分,仅供您参考 from Beautifu

我正在使用BeautifulSoup和mechanise从网页中查找一些内容。问题是,有时我正在寻找的字符串找不到。我不知道有什么问题

它在许多网页上运行了好几个月,但突然停止了工作。然后我必须重新启动我的程序,并希望得到正确的结果

问题在于
data.find(text=re.compile('string to find'))
。网页总是在下载,但有时找不到字符串。我认为问题可能出在加载页面的
HTML
格式错误?有什么想法吗

这里是我正在使用的代码的一小部分,仅供您参考

from BeautifulSoup import BeautifulSoup as soup
from mechanize import Browser
import sys, re

def get_page(url):
    mech = Browser()
    page = mech.open(url)
    return page.read()

def test():
    data = soup(get_page('some url'))

    div_pages = data.find(text=re.compile('string to find'))

    try: pager = div_pages.strip().split(' ')
    except:
        print div_pages
        sys.exit()

    print 'ok'

if __name__ == '__main__':
    test()

我帮助某人解决了一个类似的问题,结果是字符串的编码。此链接(来自他们的文档)可能会帮助您—在找不到所需数据时尝试记录页面。您正在加载的页面可能有问题,而不是脚本。@Shawn Chin:okej,所以我找到了答案。这个特殊的网站目前正在测试新的设计。我不知道确切的公式,但在我看来,20页的浏览量中有一个是不同的设计,所以我的刮刀不能工作:)所以规则一:确定你在刮什么!谢谢你的帮助,这不是个案子。请看我在上面对肖恩·琴的评论,关于解决问题没有问题——我只是想把它包括在内,以防万一它会有帮助——快乐的刮擦