Web crawler 抓取和数据挖掘网站的最佳开源库或应用程序

Web crawler 抓取和数据挖掘网站的最佳开源库或应用程序,web-crawler,data-mining,extraction,text-extraction,Web Crawler,Data Mining,Extraction,Text Extraction,我想知道什么是用于抓取和分析网站的最佳eopen源库。一个例子是crawler property agencies,我想从多个站点获取信息,并将它们聚合到我自己的站点中。为此,我需要对站点进行爬网并提取属性广告。我使用优秀的python软件包进行了大量的抓取,并且 我还建议看看和,尽管我目前没有使用它们(仍计划试用scrapy) Perl语言也有很好的抓取功能。PHP/cURL是一个非常强大的组合,特别是如果你想在网页中直接使用结果…与Morozov先生一样,我也做了相当多的抓取工作,主要是工作

我想知道什么是用于抓取和分析网站的最佳eopen源库。一个例子是crawler property agencies,我想从多个站点获取信息,并将它们聚合到我自己的站点中。为此,我需要对站点进行爬网并提取属性广告。

我使用优秀的python软件包进行了大量的抓取,并且

我还建议看看和,尽管我目前没有使用它们(仍计划试用scrapy)


Perl语言也有很好的抓取功能。

PHP/cURL是一个非常强大的组合,特别是如果你想在网页中直接使用结果…

与Morozov先生一样,我也做了相当多的抓取工作,主要是工作网站。如果有帮助的话,我从来没有使用过机械化。Beautifulsoup与urllib2的结合始终是足够的

我使用了lxml,这很好。然而,如果你需要的话,我相信几个月前我尝试谷歌应用程序时,它可能还不可用


我要感谢莫罗佐夫先生提到“刮皮”。除了Scrapy,你还应该看看Perl是多么神奇,你可以使用UserAgent::somethingorother在几行代码中编写一个爬虫程序。如何分析html/javascript,则是另一个问题。