Web crawler 抓取和数据挖掘网站的最佳开源库或应用程序_Web Crawler_Data Mining_Extraction_Text Extraction

Web crawler 抓取和数据挖掘网站的最佳开源库或应用程序

web-crawler

Web crawler 抓取和数据挖掘网站的最佳开源库或应用程序,web-crawler,data-mining,extraction,text-extraction,Web Crawler,Data Mining,Extraction,Text Extraction,我想知道什么是用于抓取和分析网站的最佳eopen源库。一个例子是crawler property agencies，我想从多个站点获取信息，并将它们聚合到我自己的站点中。为此，我需要对站点进行爬网并提取属性广告。我使用优秀的python软件包进行了大量的抓取，并且我还建议看看和，尽管我目前没有使用它们（仍计划试用scrapy） Perl语言也有很好的抓取功能。PHP/cURL是一个非常强大的组合，特别是如果你想在网页中直接使用结果…与Morozov先生一样，我也做了相当多的抓取工作，主要是工作

我想知道什么是用于抓取和分析网站的最佳eopen源库。一个例子是crawler property agencies，我想从多个站点获取信息，并将它们聚合到我自己的站点中。为此，我需要对站点进行爬网并提取属性广告。

我使用优秀的python软件包进行了大量的抓取，并且

我还建议看看和，尽管我目前没有使用它们（仍计划试用scrapy）

Perl语言也有很好的抓取功能。

PHP/cURL是一个非常强大的组合，特别是如果你想在网页中直接使用结果…

与Morozov先生一样，我也做了相当多的抓取工作，主要是工作网站。如果有帮助的话，我从来没有使用过机械化。Beautifulsoup与urllib2的结合始终是足够的

我使用了lxml，这很好。然而，如果你需要的话，我相信几个月前我尝试谷歌应用程序时，它可能还不可用

我要感谢莫罗佐夫先生提到“刮皮”。除了Scrapy，你还应该看看Perl是多么神奇，你可以使用UserAgent:：somethingorother在几行代码中编写一个爬虫程序。如何分析html/javascript，则是另一个问题。