Python 抓取谷歌Ngram数据_Python_Screen Scraping_N Gram

Python 抓取谷歌Ngram数据

python

Python 抓取谷歌Ngram数据,python,screen-scraping,n-gram,Python,Screen Scraping,N Gram,我需要把所有的英文5gram（2012版）都刮下来，并存储在我大学的HPC服务器上。我试着使用多种不同版本的谷歌下载器，但对我来说不起作用。它随机下载一个数据文件，而不是我要找的所有5gram。相反，我使用以下代码： import requests import urllib.request import time from bs4 import BeautifulSoup url = 'http://storage.googleapis.com/books/ngrams/books/data

我需要把所有的英文5gram（2012版）都刮下来，并存储在我大学的HPC服务器上。我试着使用多种不同版本的谷歌下载器，但对我来说不起作用。它随机下载一个数据文件，而不是我要找的所有5gram。相反，我使用以下代码：

import requests
import urllib.request
import time
from bs4 import BeautifulSoup

url = 'http://storage.googleapis.com/books/ngrams/books/datasetsv2.html'
response = requests.get(url)

soup = BeautifulSoup(response.text, 'html.parser')

soup.findAll('a')

one_a_tag = soup.findAll('a')[2217]
link = one_a_tag['href']

line_count = 1 #variable to track what line you are on
for one_a_tag in soup.findAll('a'):  #'a' tags are for links
    if line_count >= 2217 and line_count <= 2939: #text files starts at line X and ends at line Y
        download_url = link
        urllib.request.urlretrieve(download_url, "https:\portal.aci.ics.psu.edu\pun\sys\files\fs\storage\home\user\NLP\Data\" + link[link.find('googlebooks-eng-all-5gram-20120701-'):]) 
        time.sleep(1) 
    line_count +=1

导入请求
导入urllib.request
导入时间
从bs4导入BeautifulSoup
url='1〕http://storage.googleapis.com/books/ngrams/books/datasetsv2.html'
response=requests.get（url）
soup=BeautifulSoup（response.text'html.parser'）
汤。芬德尔（'a'）
one_a_标记=soup.findAll（'a'）[2217]
链接=一个标签['href']
line_count=1#变量，用于跟踪您所在的线路
对于soup.findAll（'a'）：#'a'标记用于链接
如果行计数>=2217且行计数