python中的网络爬虫。我应该从哪里开始,接下来应该做什么需要帮助

python中的网络爬虫。我应该从哪里开始,接下来应该做什么需要帮助,python,web-crawler,Python,Web Crawler,我有python的中级知识。如果我必须用python编写一个web爬虫程序,我应该遵循哪些步骤,从哪里开始。有什么特别的图坦卡蒙吗?任何建议都会大有帮助。。谢谢为什么不去寻找那些已经满足你需要的东西呢?如果您需要自己构建一个,那么仍然值得查看现有代码并对其进行解构,以了解其工作原理。您肯定需要一个html解析库。为此,您可以使用BeautifulSoup。您可以在官方页面中找到许多获取URL和处理返回html的示例和教程:另一个您可能需要的好库是解析提要。现在您已经有了URL的Beautiful

我有python的中级知识。如果我必须用python编写一个web爬虫程序,我应该遵循哪些步骤,从哪里开始。有什么特别的图坦卡蒙吗?任何建议都会大有帮助。。谢谢

为什么不去寻找那些已经满足你需要的东西呢?如果您需要自己构建一个,那么仍然值得查看现有代码并对其进行解构,以了解其工作原理。

您肯定需要一个html解析库。为此,您可以使用BeautifulSoup。您可以在官方页面中找到许多获取URL和处理返回html的示例和教程:

另一个您可能需要的好库是解析提要。现在您已经有了URL的BeautifulSoup,您可以对提要使用Feedparser

我强烈建议您看看。该库可以与BeautifulSoup或任何您喜欢的HTML解析器一起使用。我个人将它与lxml.html一起使用

开箱即用,您可以免费获得几样东西:

  • 由于Twisted,并发请求
  • CrawlSpider
    对象递归地在整个站点中查找链接
  • 数据提取和处理的高度分离,充分利用了并行处理能力

如果您仍然想从头开始编写一个,那么您需要使用该模块。它包括模拟浏览器和自动获取URL所需的一切。我将是多余的,并说beautifulsou用于解析您获取的任何html。否则,我会选择Scrapy…

这取决于你的需要。如果你需要基本的网络垃圾,那么mechanize+BeautifulSoup就可以了


如果需要呈现javascript,那么我会选择Selenium,或者。两者都很棒。

IBMDeveloperWorks有一篇关于这方面的文章。您可能希望使用其他人建议的库,但这将使您对流程有一个总体了解。

import re,urllib
import re, urllib

textfile = file('depth_1.txt','wt')
print "Enter the URL you wish to crawl.."
print 'Usage  - "http://dynamichackerboys.blogspot.in" <-- With the double quotes'
myurl = input("@> ")
for i in re.findall('''href=["'](.[^"']+)["']''', urllib.urlopen(myurl).read(), re.I):
        print i 
        for ee in re.findall('''href=["'](.[^"']+)["']''', urllib.urlopen(i).read(), re.I):
                print ee
                textfile.write(ee+'\n')
textfile.close()
textfile=file('depth_1.txt','wt') 打印“输入要爬网的URL…”
印刷品的用途—http://dynamichackerboys.blogspot.in“只是我还是一个学习者,只有掌握了基本知识和正确的方法,我才能理解某些事情。谢谢你的帮助,我现在正在看代码:)谢谢:)首先,我想知道我应该导入哪些库/模块?和这个一起?我的目标是编写一个简单的爬虫程序(如果没有多线程的话),BeautifulSoup非常容易使用。从BeautifulSoup导入BeautifulSoup;soup=BeautifulSoup(“…”)。欢迎使用Stackoverflow(SO)。下次,只需使用新信息编辑现有答案:)