Java 谷歌如何给出页面摘要

Java 谷歌如何给出页面摘要,java,nlp,google-search,stanford-nlp,opennlp,Java,Nlp,Google Search,Stanford Nlp,Opennlp,是查询的快照是什么 谷歌通常会提供文档或网站的摘要,以回应查询。 用户浏览此类摘要,并通常选择与最匹配搜索的摘要相关联的链接 我想知道谷歌如何给出所有网页中最准确的摘要。 我尝试过通过选择任何查询的关键字(snippets),并使用余弦相似度计算片段与网页中每个句子之间的距离,然后选择得分最高的句子,但结果并不令人满意。我想知道有没有更好的算法或其他生成web文档摘要的方法?您可以使用w meta description标记来生成摘要。谷歌也在使用它,除非bot决定他可以生成更准确的描述,而更准

是查询的快照
是什么

谷歌通常会提供文档或网站的摘要,以回应查询。 用户浏览此类摘要,并通常选择与最匹配搜索的摘要相关联的链接

我想知道谷歌如何给出所有网页中最准确的摘要。
我尝试过通过选择任何查询的关键字
(snippets)
,并使用
余弦相似度计算片段与网页中每个句子之间的距离,然后选择得分最高的句子,但结果并不令人满意。我想知道有没有更好的算法或其他生成web文档摘要的方法?

您可以使用w meta description标记来生成摘要。谷歌也在使用它,除非bot决定他可以生成更准确的描述,而更准确的描述意味着更适合你的搜索查询。例如,您发布的图片中的一个摘要直接来自描述

<meta name="description" content="Benzene is a colorless, flammable liquid with a sweet odor. Learn what we know about benzene and cancer risk." />


除非你是在搜索网页以外的其他文档。许多文档浏览器所做的只是给你一个句子(或前后两个单词)一个匹配的关键字。

你不太可能让谷歌的任何人在这里告诉你他们的算法。是什么让谷歌搜索在构建代码片段方面如此高效,它收集了自己页面上的统计数据(搜索结果、youtube、谷歌+)以及包含adwords块的页面。它收集一切:点击链接、滚动,甚至鼠标悬停。@DavidWallace很明显,谷歌不会透露这些算法,但会有一种通用技术或任何NLP分类器来生成摘要,这就是我在这里尝试的。