Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/typo3/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Web crawler 将内容长度存储为字段值(也称为索引文档的元数据)_Web Crawler_Stormcrawler - Fatal编程技术网

Web crawler 将内容长度存储为字段值(也称为索引文档的元数据)

Web crawler 将内容长度存储为字段值(也称为索引文档的元数据),web-crawler,stormcrawler,Web Crawler,Stormcrawler,我们希望将爬虫页面的内容长度作为元数据存储在文档中。我知道我们可以设置http.store.headers=true,但我不信任服务器的http头 所以我们把FetchedBolt改成了write ProtocolResponse#getContent().length 作为元数据的值(除了“字节数”度量) 有没有办法在不更改代码的情况下获取此值? (我们可以在fetch和parse之间添加一个额外的螺栓,希望有一个更简单的解决方案。)这可以在协议级别完成,但在FetcherBolt中可能更简单

我们希望将爬虫页面的内容长度作为元数据存储在文档中。我知道我们可以设置http.store.headers=true,但我不信任服务器的http头

所以我们把FetchedBolt改成了write

ProtocolResponse#getContent().length

作为元数据的值(除了“字节数”度量)

有没有办法在不更改代码的情况下获取此值?
(我们可以在fetch和parse之间添加一个额外的螺栓,希望有一个更简单的解决方案。)

这可以在协议级别完成,但在FetcherBolt中可能更简单。你介意贡献你的代码并开一家公关公司吗?谢谢