Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/search/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何使用Python搜索internet?_Python_Search - Fatal编程技术网

如何使用Python搜索internet?

如何使用Python搜索internet?,python,search,Python,Search,我想写一个程序,搜索一个相当大的网站,并提取某些东西。我上过几门在线Python课程,但都没有提到如何使用Python访问互联网。我不知道从哪里开始。听起来你想要一个网络爬虫/刮板。你想做什么?图像?链接?只是一个网络爬虫/刮板的工作 从这里开始,应该有很多关于Stackoverflow的文章,可以帮助您实现连接到internet(获得web响应)等细节 请参阅文章。互联网上的内容远不止网站,但我假设您只想抓取一些html页面并从中提取数据。你有很多选择来解决这个问题。只是一些出发点: 标准库

我想写一个程序,搜索一个相当大的网站,并提取某些东西。我上过几门在线Python课程,但都没有提到如何使用Python访问互联网。我不知道从哪里开始。听起来你想要一个网络爬虫/刮板。你想做什么?图像?链接?只是一个网络爬虫/刮板的工作

从这里开始,应该有很多关于Stackoverflow的文章,可以帮助您实现连接到internet(获得web响应)等细节


请参阅文章。

互联网上的内容远不止网站,但我假设您只想抓取一些html页面并从中提取数据。你有很多选择来解决这个问题。只是一些出发点:

  • 标准库中的urllib2
  • (更简单、更友好)
  • (非常好的爬行框架)
  • (从html中提取数据的库)

您必须首先了解标准python库

一旦您熟悉了这个库背后的基本思想,您就可以尝试使用更容易与web交互的库,尤其是API。我建议将其与并行使用,以便从命令行测试快速而肮脏的查询

如果你进一步构建一个图书馆或一个引擎来爬网,你将需要某种异步编程,我建议从


最后,如果你想创建一个爬虫/机器人,你可以看看。不过,在深入研究这个库之前,您应该先从基本库开始,因为它可能会变得非常复杂

,您需要阅读有关HTTP、HTML以及可能的JS/PHP/etc的内容,可能在列表中,深入了解DOMs,然后了解文本解析/处理。看看urllib/urllib2/httplib/requests/etc,以及类似于BeautifulSoup甚至Selenium的东西,这取决于您需要的复杂性和交互性。您看过吗?顺便说一句,谷歌“Python互联网”的第一个结果。。。