Web scraping 如何在不使用API的情况下抓取社交网站？_Web Scraping_Web Crawler

Web scraping 如何在不使用API的情况下抓取社交网站？

web-scraping web-crawler

Web scraping 如何在不使用API的情况下抓取社交网站？,web-scraping,web-crawler,Web Scraping,Web Crawler,我想从Pinterest、Twitter或Facebook等社交网站收集数据。我知道他们中的一些人（比如Twitter）提供了API，但我不想使用API，因为它可能有很多缺点。我的问题是如何直接抓取这些社交网站我知道如何为一般网站做简单的爬行。但是当我尝试爬网社交网站时，第一个问题是我需要登录。有人知道如何解决这个问题吗谢谢你们类似的客户端库使您能够以编程方式获取和使用cookie，并执行POST请求，因此您（至少原则上）应该能够在程序中模拟浏览此类网站时发生的情况当然，这些网站可能会改

我想从Pinterest、Twitter或Facebook等社交网站收集数据。我知道他们中的一些人（比如Twitter）提供了API，但我不想使用API，因为它可能有很多缺点。我的问题是如何直接抓取这些社交网站

我知道如何为一般网站做简单的爬行。但是当我尝试爬网社交网站时，第一个问题是我需要登录。有人知道如何解决这个问题吗

谢谢你们

类似的客户端库使您能够以编程方式获取和使用cookie，并执行

POST

请求，因此您（至少原则上）应该能够在程序中模拟浏览此类网站时发生的情况

当然，这些网站可能会改变，你必须适应

也许使用（例如，通过一些特殊配置的Squid代理）也可能是相关的。

这与他们几乎所有的服务协议都背道而驰

但是，如果你决心这样做，基本上有两条路可以走

1）您可以创建一个实际的爬虫程序，无论出于何种目的，它都是您创建的web浏览器。然后你管理你的饼干等等。。。这样你就可以登录了。对他们来说，这通常更容易发现，尽管你可以很聪明

2）您可以创建某种自动化软件，模拟用户单击或诸如此类的操作。我已经在这方面取得了一些成功，因为只要挖掘速度不太快，就可以模拟用户