Curl 爬行itunes.apple.com

Curl 爬行itunes.apple.com,curl,app-store,Curl,App Store,我正在尝试爬网苹果itunes网站。我得到的是二进制格式的输出。 比如说 curl-一款“mozilla/5.0” 返回二进制 谁能告诉我我错过了什么 谢谢您得到的是二进制文件,因为您引用的页面没有返回HTML/XML,而是返回了一个Apple WebObject。从wget: wget http://itunes.apple.com/us/app/the-far-islands-by-john-buchan/id327765949?mt=8 --2010-08-03 12:38:14-- h

我正在尝试爬网苹果itunes网站。我得到的是二进制格式的输出。 比如说

curl-一款“mozilla/5.0”

返回二进制

谁能告诉我我错过了什么


谢谢

您得到的是二进制文件,因为您引用的页面没有返回HTML/XML,而是返回了一个Apple WebObject。从
wget

wget http://itunes.apple.com/us/app/the-far-islands-by-john-buchan/id327765949?mt=8
--2010-08-03 12:38:14--  http://itunes.apple.com/us/app/the-far-islands-by-john-buchan/id327765949?mt=8
Resolving itunes.apple.com... 17.250.237.16
Connecting to itunes.apple.com|17.250.237.16|:80... connected.
HTTP request sent, awaiting response... 200 Apple WebObjects
Length: 22900 (22K) [text/html]
Saving to: `id327765949?mt=8'

100%[======================================>] 22,900      --.-K/s   in 0.05s   

2010-08-03 12:38:14 (440 KB/s) - `id327765949?mt=8' saved [22900/22900]

有关更多信息,请参阅,但如果要对其进行爬网,可能需要使用模拟浏览器的工具,从而可以对其进行解释-可能会起作用。

您所说的“二进制格式”是什么意思?您的wget命令指示它返回文本/html。我只是像OP一样在我的机器上运行curl,得到了HTML: