Python Beautifulsoup web刮板问题_Python_Beautifulsoup_Mechanize_Web Scraping

Python Beautifulsoup web刮板问题

python web-scraping

Python Beautifulsoup web刮板问题,python,beautifulsoup,mechanize,web-scraping,Python,Beautifulsoup,Mechanize,Web Scraping,我正在使用BeautifulSoup和mechanise从网页中查找一些内容。问题是，有时我正在寻找的字符串找不到。我不知道有什么问题它在许多网页上运行了好几个月，但突然停止了工作。然后我必须重新启动我的程序，并希望得到正确的结果问题在于data.find（text=re.compile（'string to find'））。网页总是在下载，但有时找不到字符串。我认为问题可能出在加载页面的HTML格式错误？有什么想法吗这里是我正在使用的代码的一小部分，仅供您参考 from Beautifu

我正在使用BeautifulSoup和mechanise从网页中查找一些内容。问题是，有时我正在寻找的字符串找不到。我不知道有什么问题

它在许多网页上运行了好几个月，但突然停止了工作。然后我必须重新启动我的程序，并希望得到正确的结果

问题在于

data.find（text=re.compile（'string to find'））

。网页总是在下载，但有时找不到字符串。我认为问题可能出在加载页面的

HTML

格式错误？有什么想法吗

这里是我正在使用的代码的一小部分，仅供您参考

from BeautifulSoup import BeautifulSoup as soup
from mechanize import Browser
import sys, re

def get_page(url):
    mech = Browser()
    page = mech.open(url)
    return page.read()

def test():
    data = soup(get_page('some url'))

    div_pages = data.find(text=re.compile('string to find'))

    try: pager = div_pages.strip().split(' ')
    except:
        print div_pages
        sys.exit()

    print 'ok'

if __name__ == '__main__':
    test()

我帮助某人解决了一个类似的问题，结果是字符串的编码。此链接（来自他们的文档）可能会帮助您—在找不到所需数据时尝试记录页面。您正在加载的页面可能有问题，而不是脚本。@Shawn Chin:okej，所以我找到了答案。这个特殊的网站目前正在测试新的设计。我不知道确切的公式，但在我看来，20页的浏览量中有一个是不同的设计，所以我的刮刀不能工作：）所以规则一：确定你在刮什么！谢谢你的帮助，这不是个案子。请看我在上面对肖恩·琴的评论，关于解决问题没有问题——我只是想把它包括在内，以防万一它会有帮助——快乐的刮擦