Java 我还能用什么网页元信息来分类某个主题的网页相关性?

Java 我还能用什么网页元信息来分类某个主题的网页相关性?,java,html,algorithm,information-retrieval,relevance,Java,Html,Algorithm,Information Retrieval,Relevance,我正在做一个算法,尽可能使用所有的元信息,但不包括正文的文本内容,对一些主题(如“电影”)的页面相关性进行分类 我想知道我可以用什么来确定一个页面是否有一些关于主题的信息 目前,我给了标题40%的重要性,域后链接30%,域20%,元关键字10%,但我想我可以用更多的东西来更精确。我将一些单词与一些权重进行匹配,以计算页面的相关性 我还能用什么来计算相关性呢?我只想排除HTML本身中的文本内容,但可以使用HTML结构。我认为您应该考虑主菜单链接,如果是子菜单链接,则考虑链接,以便使其更简单。您还应

我正在做一个算法,尽可能使用所有的元信息,但不包括正文的文本内容,对一些主题(如“电影”)的页面相关性进行分类

我想知道我可以用什么来确定一个页面是否有一些关于主题的信息

目前,我给了标题40%的重要性,域后链接30%,域20%,元关键字10%,但我想我可以用更多的东西来更精确。我将一些单词与一些权重进行匹配,以计算页面的相关性


我还能用什么来计算相关性呢?我只想排除HTML本身中的文本内容,但可以使用HTML结构。

我认为您应该考虑主菜单链接,如果是子菜单链接,则考虑链接,以便使其更简单。您还应该考虑元数据。但我仍然不确定你想要实现什么


据我所知,您正试图为网页建立一些相关性公式。

如今,许多网站使用基于标题的元标记。也许这有帮助?你的问题标题询问了一些关于页面相关性的问题,但问题内容询问了另一个页面主题/类别。如果网页属于某个类别,是否要进行分类?你能看看链接锚文本吗?@Felipe我编辑了标题,我想了解一些主题的相关性。页面与电影、音乐、游戏或IT等的相关性。对于元信息,我指的是页面内容本身以外的所有内容,如此消息。这是因为页面可以在不同的上下文中包含很多内容,比如我的问题、答案、相关问题、逆境等等。关于锚,看起来是个好主意,我会考虑一下。谢谢@回家谢谢你的想法,我会更仔细地看这个,但我认为这是没有太多的页面使用它,对吗?