Python中带有BeautifulSoup的Web缺货通知程序

Python中带有BeautifulSoup的Web缺货通知程序,python,parsing,web,web-scraping,beautifulsoup,Python,Parsing,Web,Web Scraping,Beautifulsoup,我正试图建立一个通知,将向我发送电子邮件时,一个缺货的项目是在股票回来。到目前为止,我已经缩小了如何检索商品名称和价格的范围。但是,当我尝试使用“Find in store”旁边的蓝色按钮“Out stock”作为标记时,出于某种原因,它检索“Add-in cart”,该按钮仅在项目有库存时出现。因此,我尝试使用标题上方的“缺货”文本将oos_状态设置为True。如果网页上的i7配置在撰写本文时已经缺货,但仍然显示为False,这意味着它在库存中,那么它应该显示为True。如有改进,将不胜感激。

我正试图建立一个通知,将向我发送电子邮件时,一个缺货的项目是在股票回来。到目前为止,我已经缩小了如何检索商品名称和价格的范围。但是,当我尝试使用“Find in store”旁边的蓝色按钮“Out stock”作为标记时,出于某种原因,它检索“Add-in cart”,该按钮仅在项目有库存时出现。因此,我尝试使用标题上方的“缺货”文本将oos_状态设置为True。如果网页上的i7配置在撰写本文时已经缺货,但仍然显示为False,这意味着它在库存中,那么它应该显示为True。如有改进,将不胜感激。代码如下:

from urllib.request import Request, urlopen
from bs4 import BeautifulSoup as soup 

url = 'https://www.microsoft.com/en-ca/p/huawei-matebook-x-pro- 
laptop/8n4k86d4j006/4X0P?activetab=pivot%3aoverviewtab'

req = Request(url, headers={'User-Agent': 'Mozilla/5.0'})
uClient = urlopen(req)
page_html = uClient.read()
uClient.close()

# html parsing
page_soup = soup(page_html, 'html.parser')

# grabs OOS container
# container_oos = page_soup.findAll("div", {"class": "cli_badge context-buy- 
box-badge"})
container_oos = page_soup.findAll('div', {"class": "cli_badge context-buy- 
box-badge"})

# grabs price container
container_price_disclaimer = page_soup.findAll("div", {'class': "price- 
disclaimer"})

# grabs name container
container_name = page_soup.findAll("div", {"class": "m-product-detail-hero- 
product-placement oneui-override"})

# finds text of name, price and out of stock status
name = container_name[0].findAll('h1', {'id': 'page-title'})[0].text.strip()
price = container_price_disclaimer[0].findAll('span')[0].text.strip()
oos_status = False

# Using 'OUT OF STOCK' text above title to decide whether out of stock
if container_oos[0].find('span', {'id': 'out-of-stock-badge'}) == None:
    oos_status = False
elif container_oos[0].find('span', {'id': 'out-of-stock-badge'}) 
[0].text.strip() == 'OUT OF STOCK':
    oos_status = True

如果你监控网络流量(F11->Chrome中的网络工具),你会发现这些信息实际上并不在页面的“内部”,而是通过一个内部
目录
端点的POST请求加载的:

上图分别显示了POST请求和响应。因此,由于此数据不是从对笔记本电脑页面的实际GET请求生成的,因此您有两个选项:

  • 模拟POST请求。这几乎是不道德的,因为微软的系统是以这种方式设置的,以尽量减少不必要的流量。另一方面(这可能会让我获得一些反对票),我不认为这样的事情会对微软的服务器造成太大的影响。模拟POST请求需要您了解发送到服务器的内容以及如何构造该请求。如果您滚动浏览并使用noggin,所有这些信息都可以在我发布的POST请求中找到

  • 使用
    selenium
    (Python模块,而不是软件)。这将使用浏览器,因此它将生成您在浏览器中看到的内容,尽管您必须给它一秒钟的时间,以允许站点发出POST请求。之后,您可以像以前一样使用BeautifulSoup来获取相关信息。如果您不知道如何复制POST请求,那么这种方法在所需的时间方面会非常容易


  • 祝你好运

    如果你监控网络流量(F11->Chrome中的网络工具),你会发现这些信息实际上并不在页面的“内部”,而是通过对内部
    清单
    端点的POST请求加载的:

    上图分别显示了POST请求和响应。因此,由于此数据不是从对笔记本电脑页面的实际GET请求生成的,因此您有两个选项:

  • 模拟POST请求。这几乎是不道德的,因为微软的系统是以这种方式设置的,以尽量减少不必要的流量。另一方面(这可能会让我获得一些反对票),我不认为这样的事情会对微软的服务器造成太大的影响。模拟POST请求需要您了解发送到服务器的内容以及如何构造该请求。如果您滚动浏览并使用noggin,所有这些信息都可以在我发布的POST请求中找到

  • 使用
    selenium
    (Python模块,而不是软件)。这将使用浏览器,因此它将生成您在浏览器中看到的内容,尽管您必须给它一秒钟的时间,以允许站点发出POST请求。之后,您可以像以前一样使用BeautifulSoup来获取相关信息。如果您不知道如何复制POST请求,那么这种方法在所需的时间方面会非常容易


  • 祝你好运

    页面通过AJAX调用从外部站点加载数据。如果您查看Firefox/Chrome网络检查器,您将看到呼叫的去向

    此示例将获取有关页面上找到的所有SKU的信息:

    from bs4 import BeautifulSoup
    import requests
    import json
    from pprint import pprint
    
    url = 'https://www.microsoft.com/en-ca/p/huawei-matebook-x-pro-laptop/8n4k86d4j006/4X0P?activetab=pivot:overviewtab'
    
    headers = {'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:61.0) Gecko/20100101 Firefox/61.0'}
    soup = BeautifulSoup(requests.get(url, headers=headers).text, 'lxml')
    url = soup.select_one('[data-availability-url]')['data-availability-url']
    
    data = []
    for data_availability_id, data_inventory_sku_id, data_sku in zip(soup.select('div.context-configuration-buttons [data-availability-id]'), \
                                                                     soup.select('div.context-configuration-buttons [data-inventory-sku-id]'), \
                                                                     soup.select('div#TechSpec [data-sku]')):
        data.append({
            'availabilityId': data_availability_id['data-availability-id'],
            'distributorId': 9000000013,
            'inventorySkuId': data_inventory_sku_id['data-inventory-sku-id'],
            'preorder': False,
            'productId': soup.select_one('[data-product-id]')['data-product-id'],
            'skuId':data_sku['data-sku'],
        })
    
    r = requests.post(url, headers={'Content-Type': 'application/json'}, data=json.dumps(data))
    pprint(json.loads(r.text))
    
    这将打印:

    {'availabilities': [{'Allocations': {},
                         'availabilityId': '8W2321TK7D0Q',
                         'availableLots': {'0001-01-01T00:00:00.0000000Z': {'9000000013': {'deliverByDates': {'0001': '2018-08-09T12:00:00.0000000Z',
                                                                                                              '0004': '2018-08-16T12:00:00.0000000Z'},
                                                                                           'deliveryType': 'Ship',
                                                                                           'hasArbitraryLimitPolicy': 'False',
                                                                                           'inStock': 'False',
                                                                                           'isUnknownDate': 'False',
                                                                                           'onlineOrderAvailable': 'True',
                                                                                           'render': 'True',
                                                                                           'showDateOverride': 'False'}}},
                         'catalogSkuId': 'HB3R',
                         'distributorSkuId': 'QF9-01635',
                         'futureLots': {'2018-08-07T04:00:00.0000000Z': {'9000000013': {'deliverByDates': {'0001': '2018-08-12T12:00:00.0000000Z',
                                                                                                           '0004': '2018-08-19T12:00:00.0000000Z'},
                                                                                        'deliveryType': 'Ship',
                                                                                        'doNotFulfillBeforeDate': 'True',
                                                                                        'hasManuallyConfiguredDeliveryDate': 'False',
                                                                                        'inStock': 'True',
                                                                                        'isProductLaunchFutureLot': 'True',
                                                                                        'isUnknownDate': 'False',
                                                                                        'onlineOrderAvailable': 'True',
                                                                                        'render': 'True',
                                                                                        'showDateOverride': 'False',
                                                                                        'warehouseAllocation': {}}}},
                         'inventoryControlSkuId': 'QF9-01635',
                         'lastWarehouseUpdateTime': '2018-08-04T06:46:49.0000000Z',
                         'productId': '8N4K86D4J006'},
                        {'Allocations': {},
                         'availabilityId': '8WDNCCR153LS',
                         'availableLots': {'0001-01-01T00:00:00.0000000Z': {'9000000013': {'deliverByDates': {'0001': '2018-08-09T12:00:00.0000000Z',
                                                                                                              '0004': '2018-08-16T12:00:00.0000000Z'},
                                                                                           'deliveryType': 'Ship',
                                                                                           'hasArbitraryLimitPolicy': 'False',
                                                                                           'inStock': 'False',
                                                                                           'isUnknownDate': 'False',
                                                                                           'onlineOrderAvailable': 'False',
                                                                                           'render': 'True',
                                                                                           'showDateOverride': 'False'}}},
                         'catalogSkuId': '4X0P',
                         'distributorSkuId': 'QF9-01638',
                         'futureLots': {'2018-08-07T04:00:00.0000000Z': {'9000000013': {'deliverByDates': {'0001': '2018-08-12T12:00:00.0000000Z',
                                                                                                           '0004': '2018-08-19T12:00:00.0000000Z'},
                                                                                        'deliveryType': 'Ship',
                                                                                        'doNotFulfillBeforeDate': 'True',
                                                                                        'hasManuallyConfiguredDeliveryDate': 'False',
                                                                                        'inStock': 'False',
                                                                                        'isProductLaunchFutureLot': 'True',
                                                                                        'isUnknownDate': 'False',
                                                                                        'onlineOrderAvailable': 'False',
                                                                                        'render': 'True',
                                                                                        'showDateOverride': 'False',
                                                                                        'warehouseAllocation': {}}},
                                        '2018-09-04T04:00:00.0000000Z': {'9000000013': {'deliverByDates': {'0001': '2018-09-09T12:00:00.0000000Z',
                                                                                                           '0004': '2018-09-16T12:00:00.0000000Z'},
                                                                                        'deliveryType': 'Ship',
                                                                                        'doNotFulfillBeforeDate': 'True',
                                                                                        'hasManuallyConfiguredDeliveryDate': 'False',
                                                                                        'inStock': 'False',
                                                                                        'isProductLaunchFutureLot': 'False',
                                                                                        'isUnknownDate': 'False',
                                                                                        'onlineOrderAvailable': 'False',
                                                                                        'render': 'True',
                                                                                        'showDateOverride': 'False',
                                                                                        'warehouseAllocation': {}}}},
                         'inventoryControlSkuId': 'QF9-01638',
                         'lastWarehouseUpdateTime': '2018-08-04T06:46:49.0000000Z',
                         'productId': '8N4K86D4J006'}],
     'inStock': 'False'}
    

    如您所见,有些SKU(配置)有库存,有些没有。这取决于您搜索的配置,该页面上有多个url。

    该页面通过AJAX调用从外部站点加载数据。如果您查看Firefox/Chrome网络检查器,您将看到呼叫的去向

    此示例将获取有关页面上找到的所有SKU的信息:

    from bs4 import BeautifulSoup
    import requests
    import json
    from pprint import pprint
    
    url = 'https://www.microsoft.com/en-ca/p/huawei-matebook-x-pro-laptop/8n4k86d4j006/4X0P?activetab=pivot:overviewtab'
    
    headers = {'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:61.0) Gecko/20100101 Firefox/61.0'}
    soup = BeautifulSoup(requests.get(url, headers=headers).text, 'lxml')
    url = soup.select_one('[data-availability-url]')['data-availability-url']
    
    data = []
    for data_availability_id, data_inventory_sku_id, data_sku in zip(soup.select('div.context-configuration-buttons [data-availability-id]'), \
                                                                     soup.select('div.context-configuration-buttons [data-inventory-sku-id]'), \
                                                                     soup.select('div#TechSpec [data-sku]')):
        data.append({
            'availabilityId': data_availability_id['data-availability-id'],
            'distributorId': 9000000013,
            'inventorySkuId': data_inventory_sku_id['data-inventory-sku-id'],
            'preorder': False,
            'productId': soup.select_one('[data-product-id]')['data-product-id'],
            'skuId':data_sku['data-sku'],
        })
    
    r = requests.post(url, headers={'Content-Type': 'application/json'}, data=json.dumps(data))
    pprint(json.loads(r.text))
    
    这将打印:

    {'availabilities': [{'Allocations': {},
                         'availabilityId': '8W2321TK7D0Q',
                         'availableLots': {'0001-01-01T00:00:00.0000000Z': {'9000000013': {'deliverByDates': {'0001': '2018-08-09T12:00:00.0000000Z',
                                                                                                              '0004': '2018-08-16T12:00:00.0000000Z'},
                                                                                           'deliveryType': 'Ship',
                                                                                           'hasArbitraryLimitPolicy': 'False',
                                                                                           'inStock': 'False',
                                                                                           'isUnknownDate': 'False',
                                                                                           'onlineOrderAvailable': 'True',
                                                                                           'render': 'True',
                                                                                           'showDateOverride': 'False'}}},
                         'catalogSkuId': 'HB3R',
                         'distributorSkuId': 'QF9-01635',
                         'futureLots': {'2018-08-07T04:00:00.0000000Z': {'9000000013': {'deliverByDates': {'0001': '2018-08-12T12:00:00.0000000Z',
                                                                                                           '0004': '2018-08-19T12:00:00.0000000Z'},
                                                                                        'deliveryType': 'Ship',
                                                                                        'doNotFulfillBeforeDate': 'True',
                                                                                        'hasManuallyConfiguredDeliveryDate': 'False',
                                                                                        'inStock': 'True',
                                                                                        'isProductLaunchFutureLot': 'True',
                                                                                        'isUnknownDate': 'False',
                                                                                        'onlineOrderAvailable': 'True',
                                                                                        'render': 'True',
                                                                                        'showDateOverride': 'False',
                                                                                        'warehouseAllocation': {}}}},
                         'inventoryControlSkuId': 'QF9-01635',
                         'lastWarehouseUpdateTime': '2018-08-04T06:46:49.0000000Z',
                         'productId': '8N4K86D4J006'},
                        {'Allocations': {},
                         'availabilityId': '8WDNCCR153LS',
                         'availableLots': {'0001-01-01T00:00:00.0000000Z': {'9000000013': {'deliverByDates': {'0001': '2018-08-09T12:00:00.0000000Z',
                                                                                                              '0004': '2018-08-16T12:00:00.0000000Z'},
                                                                                           'deliveryType': 'Ship',
                                                                                           'hasArbitraryLimitPolicy': 'False',
                                                                                           'inStock': 'False',
                                                                                           'isUnknownDate': 'False',
                                                                                           'onlineOrderAvailable': 'False',
                                                                                           'render': 'True',
                                                                                           'showDateOverride': 'False'}}},
                         'catalogSkuId': '4X0P',
                         'distributorSkuId': 'QF9-01638',
                         'futureLots': {'2018-08-07T04:00:00.0000000Z': {'9000000013': {'deliverByDates': {'0001': '2018-08-12T12:00:00.0000000Z',
                                                                                                           '0004': '2018-08-19T12:00:00.0000000Z'},
                                                                                        'deliveryType': 'Ship',
                                                                                        'doNotFulfillBeforeDate': 'True',
                                                                                        'hasManuallyConfiguredDeliveryDate': 'False',
                                                                                        'inStock': 'False',
                                                                                        'isProductLaunchFutureLot': 'True',
                                                                                        'isUnknownDate': 'False',
                                                                                        'onlineOrderAvailable': 'False',
                                                                                        'render': 'True',
                                                                                        'showDateOverride': 'False',
                                                                                        'warehouseAllocation': {}}},
                                        '2018-09-04T04:00:00.0000000Z': {'9000000013': {'deliverByDates': {'0001': '2018-09-09T12:00:00.0000000Z',
                                                                                                           '0004': '2018-09-16T12:00:00.0000000Z'},
                                                                                        'deliveryType': 'Ship',
                                                                                        'doNotFulfillBeforeDate': 'True',
                                                                                        'hasManuallyConfiguredDeliveryDate': 'False',
                                                                                        'inStock': 'False',
                                                                                        'isProductLaunchFutureLot': 'False',
                                                                                        'isUnknownDate': 'False',
                                                                                        'onlineOrderAvailable': 'False',
                                                                                        'render': 'True',
                                                                                        'showDateOverride': 'False',
                                                                                        'warehouseAllocation': {}}}},
                         'inventoryControlSkuId': 'QF9-01638',
                         'lastWarehouseUpdateTime': '2018-08-04T06:46:49.0000000Z',
                         'productId': '8N4K86D4J006'}],
     'inStock': 'False'}
    

    如您所见,有些SKU(配置)有库存,有些没有。这取决于您要搜索的配置,该页面上有多个url。

    非常感谢Insights非常感谢Insights非常感谢Insights非常感谢。为什么您将“预排序”设置为“始终为False”?为什么它打印的数据比for循环中的数据多得多?您是否从网页的html或外部资源清册网页(因为我似乎无法加载资源清册网页)中解析此信息?@Yottamambamba我刚刚查看了Firefox network inspector,发现网页总是将此参数设置为
    False
    。这是他们API的一部分,它的URL位于带有参数
    数据可用性URL
    的标记中。我不知道这个API的细节,所有的都是我在Firefox上看到的。谢谢你的回复。我正在尝试检索我需要的信息,即与之相关联的“catalogSkuId”:“4X0P”和“inStock”:“False”,但我被您代码的最后两行搞糊涂了。你对我如何做这件事有什么建议吗?@yottamamba我代码中的最后两行将向他们的API发送POST请求,并将参数存储为JSON负载。
    json.loads(r.text)
    将解码对python字典的响应。您可以执行
    my_dict=json.load(r.text)
    ,然后像任何Python词汇一样访问
    my_dict
    ,例如
    print(my_dict['availabilities'))
    非常感谢。为什么您将“预排序”设置为“始终为False”?为什么它打印的数据比从for获得的要多得多