python中的网络爬虫。我应该从哪里开始，接下来应该做什么需要帮助_Python_Web Crawler

python中的网络爬虫。我应该从哪里开始，接下来应该做什么需要帮助

python web-crawler

python中的网络爬虫。我应该从哪里开始，接下来应该做什么需要帮助,python,web-crawler,Python,Web Crawler,我有python的中级知识。如果我必须用python编写一个web爬虫程序，我应该遵循哪些步骤，从哪里开始。有什么特别的图坦卡蒙吗？任何建议都会大有帮助。。谢谢为什么不去寻找那些已经满足你需要的东西呢？如果您需要自己构建一个，那么仍然值得查看现有代码并对其进行解构，以了解其工作原理。您肯定需要一个html解析库。为此，您可以使用BeautifulSoup。您可以在官方页面中找到许多获取URL和处理返回html的示例和教程：另一个您可能需要的好库是解析提要。现在您已经有了URL的Beautiful

我有python的中级知识。如果我必须用python编写一个web爬虫程序，我应该遵循哪些步骤，从哪里开始。有什么特别的图坦卡蒙吗？任何建议都会大有帮助。。谢谢

为什么不去寻找那些已经满足你需要的东西呢？如果您需要自己构建一个，那么仍然值得查看现有代码并对其进行解构，以了解其工作原理。

您肯定需要一个html解析库。为此，您可以使用BeautifulSoup。您可以在官方页面中找到许多获取URL和处理返回html的示例和教程：

另一个您可能需要的好库是解析提要。现在您已经有了URL的BeautifulSoup，您可以对提要使用Feedparser

我强烈建议您看看。该库可以与BeautifulSoup或任何您喜欢的HTML解析器一起使用。我个人将它与lxml.html一起使用

开箱即用，您可以免费获得几样东西：

由于Twisted，并发请求
```
CrawlSpider
```
对象递归地在整个站点中查找链接
数据提取和处理的高度分离，充分利用了并行处理能力

如果您仍然想从头开始编写一个，那么您需要使用该模块。它包括模拟浏览器和自动获取URL所需的一切。我将是多余的，并说beautifulsou用于解析您获取的任何html。否则，我会选择Scrapy…

这取决于你的需要。如果你需要基本的网络垃圾，那么mechanize+BeautifulSoup就可以了

如果需要呈现javascript，那么我会选择Selenium，或者。两者都很棒。

IBMDeveloperWorks有一篇关于这方面的文章。您可能希望使用其他人建议的库，但这将使您对流程有一个总体了解。

import re，urllib
import re, urllib

textfile = file('depth_1.txt','wt')
print "Enter the URL you wish to crawl.."
print 'Usage  - "http://dynamichackerboys.blogspot.in" <-- With the double quotes'
myurl = input("@> ")
for i in re.findall('''href=["'](.[^"']+)["']''', urllib.urlopen(myurl).read(), re.I):
        print i 
        for ee in re.findall('''href=["'](.[^"']+)["']''', urllib.urlopen(i).read(), re.I):
                print ee
                textfile.write(ee+'\n')
textfile.close()

textfile=file（'depth_1.txt'，'wt'）
打印“输入要爬网的URL…”
印刷品的用途—http://dynamichackerboys.blogspot.in“只是我还是一个学习者，只有掌握了基本知识和正确的方法，我才能理解某些事情。谢谢你的帮助，我现在正在看代码：）谢谢：）首先，我想知道我应该导入哪些库/模块？和这个一起？我的目标是编写一个简单的爬虫程序（如果没有多线程的话），BeautifulSoup非常容易使用。从BeautifulSoup导入BeautifulSoup；soup=BeautifulSoup（“…”）。欢迎使用Stackoverflow（SO）。下次，只需使用新信息编辑现有答案：）