Web crawler 将内容长度存储为字段值(也称为索引文档的元数据)
我们希望将爬虫页面的内容长度作为元数据存储在文档中。我知道我们可以设置http.store.headers=true,但我不信任服务器的http头 所以我们把FetchedBolt改成了write ProtocolResponse#getContent().length 作为元数据的值(除了“字节数”度量) 有没有办法在不更改代码的情况下获取此值?Web crawler 将内容长度存储为字段值(也称为索引文档的元数据),web-crawler,stormcrawler,Web Crawler,Stormcrawler,我们希望将爬虫页面的内容长度作为元数据存储在文档中。我知道我们可以设置http.store.headers=true,但我不信任服务器的http头 所以我们把FetchedBolt改成了write ProtocolResponse#getContent().length 作为元数据的值(除了“字节数”度量) 有没有办法在不更改代码的情况下获取此值? (我们可以在fetch和parse之间添加一个额外的螺栓,希望有一个更简单的解决方案。)这可以在协议级别完成,但在FetcherBolt中可能更简单
(我们可以在fetch和parse之间添加一个额外的螺栓,希望有一个更简单的解决方案。)这可以在协议级别完成,但在FetcherBolt中可能更简单。你介意贡献你的代码并开一家公关公司吗?谢谢