Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/docker/9.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Web scraping 将大量异构数据刮入结构化数据集中_Web Scraping_Scrapy_Web Crawler_Screen Scraping_Scraper - Fatal编程技术网

Web scraping 将大量异构数据刮入结构化数据集中

Web scraping 将大量异构数据刮入结构化数据集中,web-scraping,scrapy,web-crawler,screen-scraping,scraper,Web Scraping,Scrapy,Web Crawler,Screen Scraping,Scraper,我一直在评估网络抓取的科学性。我使用的框架是Python/Scrapy。我相信可能还有更多。我的问题更多的是关于基础。假设我不得不删减新闻内容。所以,我抓取一个页面,然后编写选择器来提取内容、图像、作者、发布日期、子描述、评论等。编写这段代码没什么大不了的 问题是如何优化它,使其可扩展到大量数据源。例如,可能有数千个新闻站点,每个站点都有自己的html/页面结构,因此不可避免地我需要为每个站点编写一个抓取逻辑。虽然有可能,但这需要一个大团队的资源长时间工作,以创建和更新这些爬虫/刮取器 有没有一

我一直在评估网络抓取的科学性。我使用的框架是Python/Scrapy。我相信可能还有更多。我的问题更多的是关于基础。假设我不得不删减新闻内容。所以,我抓取一个页面,然后编写选择器来提取内容、图像、作者、发布日期、子描述、评论等。编写这段代码没什么大不了的

问题是如何优化它,使其可扩展到大量数据源。例如,可能有数千个新闻站点,每个站点都有自己的html/页面结构,因此不可避免地我需要为每个站点编写一个抓取逻辑。虽然有可能,但这需要一个大团队的资源长时间工作,以创建和更新这些爬虫/刮取器

有没有一个简单的方法可以做到这一点?我是否可以简化为每个数据源(网站)创建不同刮板的过程


像recordedfuture这样的网站是如何做到的?他们是否也有一个24小时不停工作的大团队,声称要从250000多个不同的来源提取数据?

我不确定RecordedFuture是如何工作的,但在我看来,他们抓取的很多网站都是他们自己的客户,他们担心安全威胁

我无法编写足够通用的代码来同时解析许多网站的数据。但是,如果您知道最终的URL或具有对每个站点进行爬网的足够通用的标准(例如,您将下载每个图像),则完全可以编写足够通用的代码从许多站点下载网页

我总是下载HTML,然后稍后再对其进行解析,这样我就可以重复解析,而不必依赖于网站的生存。请让我知道这是否有帮助,并让我知道关于您的用例的更多细节,以便我能更好地帮助您