Web scraping 使用urllib2抓取谷歌搜索结果时收集了哪些信息
在这里搜刮菜鸟。 我正在尝试使用urllib2和beautifulsoup来抓取谷歌搜索结果,如下所示Web scraping 使用urllib2抓取谷歌搜索结果时收集了哪些信息,web-scraping,urllib2,google-search,Web Scraping,Urllib2,Google Search,在这里搜刮菜鸟。 我正在尝试使用urllib2和beautifulsoup来抓取谷歌搜索结果,如下所示 domain_to_filter = 'www.google.com' opener = urllib2.build_opener() opener.addheaders = [('User-agent', 'Mozilla/5.0')] for start in range(start_page, (start_page + pages)): url = "http://www.go
domain_to_filter = 'www.google.com'
opener = urllib2.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/5.0')]
for start in range(start_page, (start_page + pages)):
url = "http://www.google.com/search?q=%s&start=%s" % (query, str(start * 10))
page = opener.open(url)
soup = BeautifulSoup(page,'html.parser')
我的问题是:
如果我这样做,谷歌会得到我这边的哪些信息
我知道他们会得到我的IP地址。
他们还能得到什么信息?如果我在代理(firefox或chrome)上登录谷歌,他们能获得我的谷歌ID吗?或者更糟糕的是,如果我使用Windows作为操作系统并登录到Window10,他们能否获得Microsoft帐户ID?否,浏览器中发生的事情与您在python中发出的任何请求无关,您认为这些信息将存储在请求中的何处?否,浏览器中发生的事情与您在python中发出的任何请求无关,您认为此信息将存储在请求中的什么位置?