Python Beautifulsoup web刮板问题
我正在使用BeautifulSoup和mechanise从网页中查找一些内容。问题是,有时我正在寻找的字符串找不到。我不知道有什么问题 它在许多网页上运行了好几个月,但突然停止了工作。然后我必须重新启动我的程序,并希望得到正确的结果 问题在于Python Beautifulsoup web刮板问题,python,beautifulsoup,mechanize,web-scraping,Python,Beautifulsoup,Mechanize,Web Scraping,我正在使用BeautifulSoup和mechanise从网页中查找一些内容。问题是,有时我正在寻找的字符串找不到。我不知道有什么问题 它在许多网页上运行了好几个月,但突然停止了工作。然后我必须重新启动我的程序,并希望得到正确的结果 问题在于data.find(text=re.compile('string to find'))。网页总是在下载,但有时找不到字符串。我认为问题可能出在加载页面的HTML格式错误?有什么想法吗 这里是我正在使用的代码的一小部分,仅供您参考 from Beautifu
data.find(text=re.compile('string to find'))
。网页总是在下载,但有时找不到字符串。我认为问题可能出在加载页面的HTML
格式错误?有什么想法吗
这里是我正在使用的代码的一小部分,仅供您参考
from BeautifulSoup import BeautifulSoup as soup
from mechanize import Browser
import sys, re
def get_page(url):
mech = Browser()
page = mech.open(url)
return page.read()
def test():
data = soup(get_page('some url'))
div_pages = data.find(text=re.compile('string to find'))
try: pager = div_pages.strip().split(' ')
except:
print div_pages
sys.exit()
print 'ok'
if __name__ == '__main__':
test()
我帮助某人解决了一个类似的问题,结果是字符串的编码。此链接(来自他们的文档)可能会帮助您—在找不到所需数据时尝试记录页面。您正在加载的页面可能有问题,而不是脚本。@Shawn Chin:okej,所以我找到了答案。这个特殊的网站目前正在测试新的设计。我不知道确切的公式,但在我看来,20页的浏览量中有一个是不同的设计,所以我的刮刀不能工作:)所以规则一:确定你在刮什么!谢谢你的帮助,这不是个案子。请看我在上面对肖恩·琴的评论,关于解决问题没有问题——我只是想把它包括在内,以防万一它会有帮助——快乐的刮擦