Web crawler 将内容长度存储为字段值（也称为索引文档的元数据）_Web Crawler_Stormcrawler

Web crawler 将内容长度存储为字段值（也称为索引文档的元数据）

web-crawler

Web crawler 将内容长度存储为字段值（也称为索引文档的元数据）,web-crawler,stormcrawler,Web Crawler,Stormcrawler,我们希望将爬虫页面的内容长度作为元数据存储在文档中。我知道我们可以设置http.store.headers=true，但我不信任服务器的http头所以我们把FetchedBolt改成了write ProtocolResponse#getContent（）.length 作为元数据的值（除了“字节数”度量）有没有办法在不更改代码的情况下获取此值？（我们可以在fetch和parse之间添加一个额外的螺栓，希望有一个更简单的解决方案。）这可以在协议级别完成，但在FetcherBolt中可能更简单

我们希望将爬虫页面的内容长度作为元数据存储在文档中。我知道我们可以设置http.store.headers=true，但我不信任服务器的http头

所以我们把FetchedBolt改成了write

ProtocolResponse#getContent（）.length

作为元数据的值（除了“字节数”度量）

有没有办法在不更改代码的情况下获取此值？

（我们可以在fetch和parse之间添加一个额外的螺栓，希望有一个更简单的解决方案。）

这可以在协议级别完成，但在FetcherBolt中可能更简单。你介意贡献你的代码并开一家公关公司吗？谢谢