Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/322.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
用python爬行社交网络_Python_Session_Networking_Social_Web Crawler - Fatal编程技术网

用python爬行社交网络

用python爬行社交网络,python,session,networking,social,web-crawler,Python,Session,Networking,Social,Web Crawler,我想写一个python脚本来抓取一个社交网站。脚本的目的应该是检索社交图友谊关系的一部分 该网站不提供任何API 问题是:如何用python抓取一个假装登录会话来访问联系人页面的网站,例如? 嗯,我有我的login\密码,我会用它来登录和检索,但我不知道如何使用它通过python登录来建立访问页面的会话。对python模块或方法有什么建议吗 谢谢, 雅格布首先,你应该检查社交网络是否提供了API来实现这一点。此外,检查服务条款中是否允许您想做的事情,否则您将面临被阻止/禁止的风险 如果没有API

我想写一个python脚本来抓取一个社交网站。脚本的目的应该是检索社交图友谊关系的一部分

该网站不提供任何API

问题是:如何用python抓取一个假装登录会话来访问联系人页面的网站,例如? 嗯,我有我的login\密码,我会用它来登录和检索,但我不知道如何使用它通过python登录来建立访问页面的会话。对python模块或方法有什么建议吗

谢谢,
雅格布

首先,你应该检查社交网络是否提供了API来实现这一点。此外,检查服务条款中是否允许您想做的事情,否则您将面临被阻止/禁止的风险

如果没有API,并且允许您以这种方式对系统进行爬网,请查看mechanize或twill等工具,以模拟浏览器/cookie/会话行为,并提供适当的抓取


或者,您可以使用lxml.html、urllib2、cookielib模块等自行实现此功能。

首先,您应该检查社交网络是否提供了实现此功能的API。此外,检查服务条款中是否允许您想做的事情,否则您将面临被阻止/禁止的风险

如果没有API,并且允许您以这种方式对系统进行爬网,请查看mechanize或twill等工具,以模拟浏览器/cookie/会话行为,并提供适当的抓取

或者,使用lxml.html、urllib2、cookielib模块等自己实现这个功能。

您应该进行调查。从文件中:

在Andy Lester的Perl模块WWW::Mechanize之后,使用Python进行有状态编程web浏览

或者,您也可以使用urllib2和其他内置Python模块来实现自己的功能

作为@Ivo,请首先检查站点是否有API为您执行此操作。例如,Facebook的Graph API可以实现您描述的功能。

您应该进行调查。从文件中:

在Andy Lester的Perl模块WWW::Mechanize之后,使用Python进行有状态编程web浏览

或者,您也可以使用urllib2和其他内置Python模块来实现自己的功能

作为@Ivo,请首先检查站点是否有API为您执行此操作。例如,Facebook有Graph API来完成您描述的大部分工作。

您也可以使用它,它已经可以处理cookie和web会话

下面是一个如何在官方文档中执行登录的示例:

Scrapy是使用来实现的,因此它应该比Mechanize或twill更快。

您也可以使用它,它已经可以处理cookie和web会话

下面是一个如何在官方文档中执行登录的示例:


Scrapy是通过使用来实现的,因此它应该比Mechanize或twill更快。

Ivo,感谢您的回答。嗯,我忘了指定没有API,所以我必须模拟browser/cookie/session行为。Ivo,谢谢你的回答。我忘了指定没有API,所以我必须模拟浏览器/cookie/会话行为。