Python 为什么有些页面没有爬行？_Python_Python 3.x_Web Scraping_Web Crawler

Python 为什么有些页面没有爬行？

python python-3.x web-scraping web-crawler

Python 为什么有些页面没有爬行？,python,python-3.x,web-scraping,web-crawler,Python,Python 3.x,Web Scraping,Web Crawler,我正在亚马逊网站上搜索评论我觉得有些东西让我毛骨悚然有时，您无法抓取页面。怎么了我必须保持长时间的睡眠吗你不会因为评论中的照片而爬行吗？很抱歉，我排除了某些部分和爬网。我不知道这个短语。如果你不介意，你能教我吗还有别的原因吗 import re, requests, csv from bs4 import BeautifulSoup from time import sleep ##CMD : chcp 65001 def reviews_info(div): revi

我正在亚马逊网站上搜索评论

我觉得有些东西让我毛骨悚然

有时，您无法抓取页面。怎么了

我必须保持长时间的睡眠吗

你不会因为评论中的照片而爬行吗？很抱歉，我排除了某些部分和爬网。我不知道这个短语。如果你不介意，你能教我吗

还有别的原因吗

import re, requests, csv
from bs4 import BeautifulSoup
from time import sleep

##CMD : chcp 65001


def reviews_info(div):
    review_text = div.find("div", "a-row review-data").span.text 
    review_author = div.find("a", "a-size-base a-link-normal author").text
    review_stars = div.find("div", "a-row").a.text
    on_review_date = div.find('span', 'a-size-base a-color-secondary review-date').text
    review_date = [x.strip() for x in re.sub("on ", "", on_review_date).split(",")]
    return {
        "review_text" : review_text,
        "review_author" : review_author,
        "review_stars" : review_stars,
        "review_date": review_date
    }

base_url = "https://www.amazon.com/GRACE-KARIN-BoatNeck-Sleeveless-Vintage/product-reviews/B016XUCYZO/ref=cm_cr_dp_d_show_all_top?ie=UTF8&showViewpoints=1&sortBy=helpful&pageNumber="

reviews = []
NUM_PAGES = 472

for page_num in range(1, NUM_PAGES + 1):
    print("souping page", page_num, ",", len(reviews), " data")
    url = base_url + str(page_num)
    soup = BeautifulSoup(requests.get(url).text, 'lxml') 

    for div in soup('div', 'a-section review'):
    reviews.append(reviews_info(div))
    sleep(30)
    ###################################################
    #  Save dict data
keys = reviews[0].keys()
with open('amazon_GRACE KARIN BoatNeck Sleeveless Vintage Tea Dress with Belt_review.csv', 'w', encoding="utf-8") as f:
    dict_writer = csv.DictWriter(f, delimiter=',', lineterminator='\n', fieldnames=keys)
    dict_writer.writeheader()
    dict_writer.writerows(reviews)

你试过在

评论中解决缩进问题吗？append

行？@nutmag64我不明白你的意思。在这行

对于汤中的div（'div'，'a-section review'）：reviews.append（reviews_info（div））sleep（30）

评论。append需要进一步缩进