Http 了解",;“内容类型”;用于爬网输出中的PDF

Http 了解",;“内容类型”;用于爬网输出中的PDF,http,pdf,web-crawler,content-type,heritrix,Http,Pdf,Web Crawler,Content Type,Heritrix,使用heritrix,我对一个包含一些PDF文件的站点进行了爬网。爬网日志显示pdf链接的内容类型为“application/pdf”,而.warc文件(爬网输出)中的响应显示内容类型为“application/http”和“application/pdf”(请参见下面的示例:) WARC/1.0^M WARC类型:响应^M WARC目标URI:`http://example.com/b/c/files/abc.pdf`^M WARC日期:2014-05-29T10:48:03Z^M WARC有

使用heritrix,我对一个包含一些PDF文件的站点进行了爬网。爬网日志显示pdf链接的内容类型为“application/pdf”,而.warc文件(爬网输出)中的响应显示内容类型为“application/http”和“application/pdf”(请参见下面的示例:)

WARC/1.0^M
WARC类型:响应^M
WARC目标URI:`http://example.com/b/c/files/abc.pdf`^M
WARC日期:2014-05-29T10:48:03Z^M
WARC有效载荷摘要:sha1:JMRPMGSNIPHBPSNPD2VJ2NIOGD75UUUK^M
WARC IP地址:86.36.67.50^M
WARC记录ID:^M
**内容类型:应用程序/http;msgtype=响应^M**
内容长度:592173^M
WARC区块摘要:sha256:0A56D251257DBCBD6A54E19A5528A56AEE3E0C9E92A6702F4048E3B69BB3E0920^M
^M
HTTP/1.1 200正常^M
日期:2014年5月29日星期四10:48:04 GMT^M
服务器:Apache/2.4.4(Unix)OpenSSL/0.9.7d PHP/5.3.12 mod_jk/1.2.35^M
最后修改:2013年11月20日星期三08:13:50 GMT^M
ETag:“90805-4eb975c6bcb80”^M
接受范围:字节^M
内容长度:591877^M
连接:关闭^M
**内容类型:application/pdf^M**
然后是PDF文件的内容

我不明白这是怎么发生的。谁能解释一下吗?

WARC文件包含:

首先是WARC头元数据,从开头到第一个空行。此标头描述了以下内容,即完整的http响应,带有标头和内容。因此,内容类型为application/http

然后是
HTTP响应元数据
。此标头是实际的HTTP标头,描述了以下内容,即PDF文档

WARC/1.0^M
WARC-Type: response^M
WARC-Target-URI: `http://example.com/b/c/files/abc.pdf`^M
WARC-Date: 2014-05-29T10:48:03Z^M
WARC-Payload-Digest: sha1:JMRPMGSNIPHBPSBNPD2VJ2NIOGD75UUK^M
WARC-IP-Address: 86.36.67.50^M
WARC-Record-ID: <urn:uuid:00c8b80f-2851-42a1-a449-3cd9e238bfe9>^M
**Content-Type: application/http; msgtype=response^M**
Content-Length: 592173^M
WARC-Block-Digest: sha256:0a56d251257dbcbd6a54e19a528a56aae3e0c9e92a6702f4048e3b69bb3e0920^M
^M
HTTP/1.1 200 OK^M
Date: Thu, 29 May 2014 10:48:04 GMT^M
Server: Apache/2.4.4 (Unix) OpenSSL/0.9.7d PHP/5.3.12 mod_jk/1.2.35^M
Last-Modified: Wed, 20 Nov 2013 08:13:50 GMT^M
ETag: "90805-4eb975c6bcb80"^M
Accept-Ranges: bytes^M
Content-Length: 591877^M
Connection: close^M
**Content-Type: application/pdf^M** 
followed by the content of the PDF file