Http 如何卷曲或创建网页?

Http 如何卷曲或创建网页?,http,curl,Http,Curl,我想做一个每晚的cron作业,获取我的stackoverflow页面,并将其与前一天的页面区分开来,这样我就可以看到我的问题、答案、排名等的更改摘要 不幸的是,我无法得到正确的曲奇饼等,使这项工作。有什么想法吗 另外,测试版结束后,我的状态页面是否可以不登录就访问?好主意:) 我想你用过wget的吧 --load-cookies (filename) 可能会有一些帮助,但使用Mechanize(Perl或python)之类的工具来更全面地模拟浏览器以获得一个好的爬行器可能会更容易。您的状态页现

我想做一个每晚的cron作业,获取我的stackoverflow页面,并将其与前一天的页面区分开来,这样我就可以看到我的问题、答案、排名等的更改摘要

不幸的是,我无法得到正确的曲奇饼等,使这项工作。有什么想法吗

另外,测试版结束后,我的状态页面是否可以不登录就访问?

好主意:)

我想你用过wget的吧

--load-cookies (filename)

可能会有一些帮助,但使用Mechanize(Perl或python)之类的工具来更全面地模拟浏览器以获得一个好的爬行器可能会更容易。

您的状态页现在无需登录即可使用(单击并尝试)。当测试版cookie被禁用时,您和状态页面之间将没有任何内容

工作组:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html

我也不知道如何让cookies工作,但我可以在注销时进入浏览器中的状态页面,因此我假设一旦stackoverflow公开,这将起作用


这是一个有趣的想法,但您不也会了解底层html代码的差异吗?你有没有一个策略来避免最终导致html和实际内容的差异

curl -s --cookie soba=. http://stackoverflow.com/users


这就是有效的方法

curl -s --cookie soba=. http://stackoverflow.com/users
curl-s--cookie soba=

对于工作组:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html

如果我有时间,我会制作一个(或更好的?)脚本来很好地抓取数据,但现在我只是将需要的文本行变大。