获取Facebook个人资料/好友页面的wget
我正在尝试使用“wget”获取facebook用户的个人资料页面,但不断获取名为“browser.php”的非个人资料页面,该页面与特定用户无关。我在浏览器中看到的配置文件页面的URL恰好是以下格式: http://www.facebook.com/user-name 这就是我一直在使用的wget命令的参数: wget 我还对使用wget获取用户的好友列表感兴趣,但即使这样也会得到同样的无益结果(“browser.php”): wget 有人能告诉我我做错了什么吗?换句话说,我是否遗漏了wget命令的一些关键选项,或者wget根本不适合这样的场景 任何帮助都将不胜感激获取Facebook个人资料/好友页面的wget,facebook,wget,user-profile,web-crawler,Facebook,Wget,User Profile,Web Crawler,我正在尝试使用“wget”获取facebook用户的个人资料页面,但不断获取名为“browser.php”的非个人资料页面,该页面与特定用户无关。我在浏览器中看到的配置文件页面的URL恰好是以下格式: http://www.facebook.com/user-name 这就是我一直在使用的wget命令的参数: wget 我还对使用wget获取用户的好友列表感兴趣,但即使这样也会得到同样的无益结果(“browser.php”): wget 有人能告诉我我做错了什么吗?换句话说,我是否遗漏了wge
为了给这个查询添加上下文,我需要弄清楚如何使用wget从Facebook获取这些页面,因为它将帮助我编写一个脚本/程序,从HTML源代码中查找朋友的个人资料URL,然后在这些URL上查找其他一些关键字,等等。我基本上希望这能帮助我进行某种选择性的爬网(当然是在Facebook允许的情况下)我没有联系的人。首先,Facebook可能造成了某些用户代理(例如wget)无法抓取页面的情况。因此,他们将某些用户代理重定向到另一个页面,可能会说“您的浏览器不受支持”他们这样做是为了保护人们不做你正在做的事情。但是,你可以使用wget的
-U
参数告诉wget将自己识别为不同的代理(阅读wget手册页)。例如wget-U Mozillahttp://....
其次,Facebooks隐私设置很少允许您阅读任何/大量信息,除非您以用户身份登录,并且可能仅以您试图获取的个人资料的好友身份登录
第三,你需要使用它来从facebook抓取和提取信息——如果你试图以任何其他方式获取信息,你很可能违反了可接受的使用策略。我不知道你为什么要使用wget。facebook提供了一个优秀的API
wget --user-agent=Firefox http://www.facebook.com/markzuckerberg
将公开可用的内容保存到文件中
你应该考虑使用他们的API。
如果你想保存登录页面,你可以在选择“让我登录”的情况下使用Firefox登录,然后将这些cookie复制到一个文件中,并与cookiejar选项一起使用。你仍然会有相当多的动态脚本加载内容,WGET不会保存这些内容
有很多方法可以剥除这只猫的皮肤。如果你需要提取一个特定的项目,请查看API。如果你只是想归档网页快照,就像它在web浏览器中出现一样,请尝试CutyCapt。它很像wget,只是它像web浏览器一样解析整个文档并存储网页的图像。你可以重用Firef要轻松登录,请参阅:
下面是一些(非常严格的)scrap术语:检查以下开源项目:
- ,它是一个与Facebook API交互的命令行实用程序
- 它可以生成所有Facebook好友的HTML页面
wget
下载Facebook页面,您可以在web浏览器中使用(也可以在Firefox、Opera和其他浏览器中使用)
首先,您需要将其转换为curl
命令,方法是转到“网络”选项卡(必要时刷新页面或勾选“保留日志”),找到您感兴趣的页面(您可以筛选列表),右键单击请求/页面,然后选择。然后将命令粘贴到终端
要将curl
格式转换为wget
,请执行以下转换:
- 删除
--压缩
参数
- 在所有位置将
更改为-H
-标题
wget
参数:
或-k
,以转换文档中的链接,使其适合本地查看-转换链接
或-p
,下载正确显示页面所需的所有文件-页面必备条件