Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/url/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/xpath/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何在抓取在线商店时处理动态URL?_Python_Url_Dynamic - Fatal编程技术网

Python 如何在抓取在线商店时处理动态URL?

Python 如何在抓取在线商店时处理动态URL?,python,url,dynamic,Python,Url,Dynamic,我正在网上商店里搜寻价格比较。大多数商店都大量使用动态URL。这导致我的爬虫在每个在线商店上花费了很多时间。尽管他们中的大多数只有5-6k个独特的产品,但他们的唯一URL>=300k。你知道怎么解决这个问题吗 提前谢谢 如果解析某些产品页面,通常这些URL具有某种产品id 找到从URL提取产品id的模式,并使用它筛选已访问的URL。我尝试的是-查找在线商店的所有产品。我知道如何识别产品页面。问题是,在我访问所有URL之前,我如何知道我已经识别了所有产品,因为它们可能包含指向产品的链接。另外,我没

我正在网上商店里搜寻价格比较。大多数商店都大量使用动态URL。这导致我的爬虫在每个在线商店上花费了很多时间。尽管他们中的大多数只有5-6k个独特的产品,但他们的唯一URL>=300k。你知道怎么解决这个问题吗


提前谢谢

如果解析某些产品页面,通常这些URL具有某种产品id


找到从URL提取产品id的模式,并使用它筛选已访问的URL。

我尝试的是-查找在线商店的所有产品。我知道如何识别产品页面。问题是,在我访问所有URL之前,我如何知道我已经识别了所有产品,因为它们可能包含指向产品的链接。另外,我没有访问已经爬网的URL,我与亚马逊也有类似的问题。很多时候,类别url有一个额外的参数,称为“query”(或类似的),它总是不同的。我没有尝试在分类页面上处理它。但您可以尝试手动清理这些URL并将其存储在某个位置,然后编写自己的复制中间件来使用存储的URL。或者你可以保持原样(就像我做的那样),只使用产品id:仅当产品id(从url提取的)没有像提取的那样存储在数据库(或内存)中时,才请求产品id页。谢谢,这正是我面临的问题。我得想点别的主意。谢谢分享你的经验!