Web scraping 将大量异构数据刮入结构化数据集中_Web Scraping_Scrapy_Web Crawler_Screen Scraping_Scraper

Web scraping 将大量异构数据刮入结构化数据集中

web-scraping scrapy web-crawler

Web scraping 将大量异构数据刮入结构化数据集中,web-scraping,scrapy,web-crawler,screen-scraping,scraper,Web Scraping,Scrapy,Web Crawler,Screen Scraping,Scraper,我一直在评估网络抓取的科学性。我使用的框架是Python/Scrapy。我相信可能还有更多。我的问题更多的是关于基础。假设我不得不删减新闻内容。所以，我抓取一个页面，然后编写选择器来提取内容、图像、作者、发布日期、子描述、评论等。编写这段代码没什么大不了的问题是如何优化它，使其可扩展到大量数据源。例如，可能有数千个新闻站点，每个站点都有自己的html/页面结构，因此不可避免地我需要为每个站点编写一个抓取逻辑。虽然有可能，但这需要一个大团队的资源长时间工作，以创建和更新这些爬虫/刮取器有没有一

我一直在评估网络抓取的科学性。我使用的框架是Python/Scrapy。我相信可能还有更多。我的问题更多的是关于基础。假设我不得不删减新闻内容。所以，我抓取一个页面，然后编写选择器来提取内容、图像、作者、发布日期、子描述、评论等。编写这段代码没什么大不了的

问题是如何优化它，使其可扩展到大量数据源。例如，可能有数千个新闻站点，每个站点都有自己的html/页面结构，因此不可避免地我需要为每个站点编写一个抓取逻辑。虽然有可能，但这需要一个大团队的资源长时间工作，以创建和更新这些爬虫/刮取器

有没有一个简单的方法可以做到这一点？我是否可以简化为每个数据源（网站）创建不同刮板的过程

像recordedfuture这样的网站是如何做到的？他们是否也有一个24小时不停工作的大团队，声称要从250000多个不同的来源提取数据？

我不确定RecordedFuture是如何工作的，但在我看来，他们抓取的很多网站都是他们自己的客户，他们担心安全威胁

我无法编写足够通用的代码来同时解析许多网站的数据。但是，如果您知道最终的URL或具有对每个站点进行爬网的足够通用的标准（例如，您将下载每个图像），则完全可以编写足够通用的代码从许多站点下载网页

我总是下载HTML，然后稍后再对其进行解析，这样我就可以重复解析，而不必依赖于网站的生存。请让我知道这是否有帮助，并让我知道关于您的用例的更多细节，以便我能更好地帮助您