用python爬行社交网络
我想写一个python脚本来抓取一个社交网站。脚本的目的应该是检索社交图友谊关系的一部分 该网站不提供任何API 问题是:如何用python抓取一个假装登录会话来访问联系人页面的网站,例如? 嗯,我有我的login\密码,我会用它来登录和检索,但我不知道如何使用它通过python登录来建立访问页面的会话。对python模块或方法有什么建议吗 谢谢,用python爬行社交网络,python,session,networking,social,web-crawler,Python,Session,Networking,Social,Web Crawler,我想写一个python脚本来抓取一个社交网站。脚本的目的应该是检索社交图友谊关系的一部分 该网站不提供任何API 问题是:如何用python抓取一个假装登录会话来访问联系人页面的网站,例如? 嗯,我有我的login\密码,我会用它来登录和检索,但我不知道如何使用它通过python登录来建立访问页面的会话。对python模块或方法有什么建议吗 谢谢, 雅格布首先,你应该检查社交网络是否提供了API来实现这一点。此外,检查服务条款中是否允许您想做的事情,否则您将面临被阻止/禁止的风险 如果没有API
雅格布首先,你应该检查社交网络是否提供了API来实现这一点。此外,检查服务条款中是否允许您想做的事情,否则您将面临被阻止/禁止的风险 如果没有API,并且允许您以这种方式对系统进行爬网,请查看mechanize或twill等工具,以模拟浏览器/cookie/会话行为,并提供适当的抓取
或者,您可以使用lxml.html、urllib2、cookielib模块等自行实现此功能。首先,您应该检查社交网络是否提供了实现此功能的API。此外,检查服务条款中是否允许您想做的事情,否则您将面临被阻止/禁止的风险 如果没有API,并且允许您以这种方式对系统进行爬网,请查看mechanize或twill等工具,以模拟浏览器/cookie/会话行为,并提供适当的抓取 或者,使用lxml.html、urllib2、cookielib模块等自己实现这个功能。您应该进行调查。从文件中: 在Andy Lester的Perl模块WWW::Mechanize之后,使用Python进行有状态编程web浏览 或者,您也可以使用urllib2和其他内置Python模块来实现自己的功能 作为@Ivo,请首先检查站点是否有API为您执行此操作。例如,Facebook的Graph API可以实现您描述的功能。您应该进行调查。从文件中: 在Andy Lester的Perl模块WWW::Mechanize之后,使用Python进行有状态编程web浏览 或者,您也可以使用urllib2和其他内置Python模块来实现自己的功能 作为@Ivo,请首先检查站点是否有API为您执行此操作。例如,Facebook有Graph API来完成您描述的大部分工作。您也可以使用它,它已经可以处理cookie和web会话 下面是一个如何在官方文档中执行登录的示例: Scrapy是使用来实现的,因此它应该比Mechanize或twill更快。您也可以使用它,它已经可以处理cookie和web会话 下面是一个如何在官方文档中执行登录的示例:
Scrapy是通过使用来实现的,因此它应该比Mechanize或twill更快。Ivo,感谢您的回答。嗯,我忘了指定没有API,所以我必须模拟browser/cookie/session行为。Ivo,谢谢你的回答。我忘了指定没有API,所以我必须模拟浏览器/cookie/会话行为。