如何使用Python搜索internet？_Python_Search

如何使用Python搜索internet？

python search

如何使用Python搜索internet？,python,search,Python,Search,我想写一个程序，搜索一个相当大的网站，并提取某些东西。我上过几门在线Python课程，但都没有提到如何使用Python访问互联网。我不知道从哪里开始。听起来你想要一个网络爬虫/刮板。你想做什么？图像？链接？只是一个网络爬虫/刮板的工作从这里开始，应该有很多关于Stackoverflow的文章，可以帮助您实现连接到internet（获得web响应）等细节请参阅文章。互联网上的内容远不止网站，但我假设您只想抓取一些html页面并从中提取数据。你有很多选择来解决这个问题。只是一些出发点：标准库

我想写一个程序，搜索一个相当大的网站，并提取某些东西。我上过几门在线Python课程，但都没有提到如何使用Python访问互联网。我不知道从哪里开始。听起来你想要一个网络爬虫/刮板。你想做什么？图像？链接？只是一个网络爬虫/刮板的工作

从这里开始，应该有很多关于Stackoverflow的文章，可以帮助您实现连接到internet（获得web响应）等细节

请参阅文章。

互联网上的内容远不止网站，但我假设您只想抓取一些html页面并从中提取数据。你有很多选择来解决这个问题。只是一些出发点：

标准库中的urllib2
（更简单、更友好）
（非常好的爬行框架）
（从html中提取数据的库）

您必须首先了解标准python库

一旦您熟悉了这个库背后的基本思想，您就可以尝试使用更容易与web交互的库，尤其是API。我建议将其与并行使用，以便从命令行测试快速而肮脏的查询

如果你进一步构建一个图书馆或一个引擎来爬网，你将需要某种异步编程，我建议从

最后，如果你想创建一个爬虫/机器人，你可以看看。不过，在深入研究这个库之前，您应该先从基本库开始，因为它可能会变得非常复杂

，您需要阅读有关HTTP、HTML以及可能的JS/PHP/etc的内容，可能在列表中，深入了解DOMs，然后了解文本解析/处理。看看urllib/urllib2/httplib/requests/etc，以及类似于BeautifulSoup甚至Selenium的东西，这取决于您需要的复杂性和交互性。您看过吗？顺便说一句，谷歌“Python互联网”的第一个结果。。。