Web scraping 如何在不使用API的情况下抓取社交网站?

Web scraping 如何在不使用API的情况下抓取社交网站?,web-scraping,web-crawler,Web Scraping,Web Crawler,我想从Pinterest、Twitter或Facebook等社交网站收集数据。我知道他们中的一些人(比如Twitter)提供了API,但我不想使用API,因为它可能有很多缺点。我的问题是如何直接抓取这些社交网站 我知道如何为一般网站做简单的爬行。但是当我尝试爬网社交网站时,第一个问题是我需要登录。有人知道如何解决这个问题吗 谢谢你们 类似的客户端库使您能够以编程方式获取和使用cookie,并执行POST请求,因此您(至少原则上)应该能够在程序中模拟浏览此类网站时发生的情况 当然,这些网站可能会改

我想从Pinterest、Twitter或Facebook等社交网站收集数据。我知道他们中的一些人(比如Twitter)提供了API,但我不想使用API,因为它可能有很多缺点。我的问题是如何直接抓取这些社交网站

我知道如何为一般网站做简单的爬行。但是当我尝试爬网社交网站时,第一个问题是我需要登录。有人知道如何解决这个问题吗

谢谢你们

类似的客户端库使您能够以编程方式获取和使用cookie,并执行
POST
请求,因此您(至少原则上)应该能够在程序中模拟浏览此类网站时发生的情况

当然,这些网站可能会改变,你必须适应


也许使用(例如,通过一些特殊配置的Squid代理)也可能是相关的。

这与他们几乎所有的服务协议都背道而驰

但是,如果你决心这样做,基本上有两条路可以走

1) 您可以创建一个实际的爬虫程序,无论出于何种目的,它都是您创建的web浏览器。然后你管理你的饼干等等。。。这样你就可以登录了。对他们来说,这通常更容易发现,尽管你可以很聪明

2) 您可以创建某种自动化软件,模拟用户单击或诸如此类的操作。我已经在这方面取得了一些成功,因为只要挖掘速度不太快,就可以模拟用户