Python 如何在抓取在线商店时处理动态URL？_Python_Url_Dynamic

Python 如何在抓取在线商店时处理动态URL？

python url dynamic

Python 如何在抓取在线商店时处理动态URL？,python,url,dynamic,Python,Url,Dynamic,我正在网上商店里搜寻价格比较。大多数商店都大量使用动态URL。这导致我的爬虫在每个在线商店上花费了很多时间。尽管他们中的大多数只有5-6k个独特的产品，但他们的唯一URL>=300k。你知道怎么解决这个问题吗提前谢谢如果解析某些产品页面，通常这些URL具有某种产品id 找到从URL提取产品id的模式，并使用它筛选已访问的URL。我尝试的是-查找在线商店的所有产品。我知道如何识别产品页面。问题是，在我访问所有URL之前，我如何知道我已经识别了所有产品，因为它们可能包含指向产品的链接。另外，我没

我正在网上商店里搜寻价格比较。大多数商店都大量使用动态URL。这导致我的爬虫在每个在线商店上花费了很多时间。尽管他们中的大多数只有5-6k个独特的产品，但他们的唯一URL>=300k。你知道怎么解决这个问题吗

提前谢谢

如果解析某些产品页面，通常这些URL具有某种产品id

找到从URL提取产品id的模式，并使用它筛选已访问的URL。

我尝试的是-查找在线商店的所有产品。我知道如何识别产品页面。问题是，在我访问所有URL之前，我如何知道我已经识别了所有产品，因为它们可能包含指向产品的链接。另外，我没有访问已经爬网的URL，我与亚马逊也有类似的问题。很多时候，类别url有一个额外的参数，称为“query”（或类似的），它总是不同的。我没有尝试在分类页面上处理它。但您可以尝试手动清理这些URL并将其存储在某个位置，然后编写自己的复制中间件来使用存储的URL。或者你可以保持原样（就像我做的那样），只使用产品id：仅当产品id（从url提取的）没有像提取的那样存储在数据库（或内存）中时，才请求产品id页。谢谢，这正是我面临的问题。我得想点别的主意。谢谢分享你的经验！