Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/ssis/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
使用Python对网站进行爬网_Python_Selenium_Web Crawler - Fatal编程技术网

使用Python对网站进行爬网

使用Python对网站进行爬网,python,selenium,web-crawler,Python,Selenium,Web Crawler,对于我的第一个爬网程序,我计划执行以下操作: 使用Selenium打开以下URL: 收集所有相关链接 在生成的页面上,枚举存在的所有http链接,并将它们存储在csv中 返回步骤2,但单击下一步 我如何开始?(我使用的是Python 2.6.6)。看看这个库,在页面上查找链接非常容易,而且已经有了StackOverflow的示例。看看这个库,在页面上查找链接非常容易,而且已经有了StackOverflow的示例。IMO更易于使用,并且有一个Python API。寻找一个有详细解释的示例。IMO更

对于我的第一个爬网程序,我计划执行以下操作:

  • 使用Selenium打开以下URL:
  • 收集所有相关链接
  • 在生成的页面上,枚举存在的所有http链接,并将它们存储在csv中
  • 返回步骤2,但单击下一步

  • 我如何开始?(我使用的是Python 2.6.6)。

    看看这个库,在页面上查找链接非常容易,而且已经有了StackOverflow的示例。

    看看这个库,在页面上查找链接非常容易,而且已经有了StackOverflow的示例。

    IMO更易于使用,并且有一个Python API。寻找一个有详细解释的示例。

    IMO更易于使用,并且有一个pythonic API。寻找一个有详细解释的例子。

    如果你的目标只是获取数据,你是否考虑过联系Cars.com上的人?如果你的最终目标是获取数据,而不仅仅是开发爬行程序,他们可能会给你一个提要或API访问权限。

    如果你的目标只是获取数据,你是否考虑过联系Cars.com上的人?如果您的最终目标是获取数据,而不仅仅是开发爬网程序,那么他们可能会为您提供提要或API访问权限。

    Selenium在该网站上的使用太多了。网站没有任何动态(ajax)内容。如果这是您的第一项任务,请尝试文档中的示例Selenium对该站点的使用过于苛刻。网站没有任何动态(ajax)内容。如果这是您的第一项任务,请尝试文档中的示例谢谢大家。您的建议真的帮助了我。我使用了这个漂亮的类库,并浏览了下面的链接查看Python的re库(用于正则表达式),你可以用它来匹配符合你标准的URL。谢谢大家。你的建议真的帮助了我。我使用了这个BeautifulSoup库,并在下面的链接中进行了爬网。看看Python的re库(对于正则表达式),你可以用它来匹配符合你标准的URL。