Seo 在大量内容中自动创建上下文链接的工具或方法?

Seo 在大量内容中自动创建上下文链接的工具或方法?,seo,nlp,Seo,Nlp,这是一个基本场景——我有一个大约100000篇类似报纸的文章的语料库。最低限度,他们都将有一个明确的标题,和一些身体的内容 我想做的是在文章中找到应该链接到其他文章的文本 因此,如果文章Foo有一系列文本,比如“鼓励八年级学生阅读John Paul Sartre的作品”,并且文章栏标题为(和关于)“John Paul Sartre的重要作品”,我想在Foo文本中自动创建从Foo到Bar的HTML链接 您正在寻找的是文本挖掘工具。您可以在找到更多信息和链接。您可能还想查看Lucene及其端口。使用

这是一个基本场景——我有一个大约100000篇类似报纸的文章的语料库。最低限度,他们都将有一个明确的标题,和一些身体的内容

我想做的是在文章中找到应该链接到其他文章的文本


因此,如果文章Foo有一系列文本,比如“鼓励八年级学生阅读John Paul Sartre的作品”,并且文章栏标题为(和关于)“John Paul Sartre的重要作品”,我想在Foo文本中自动创建从Foo到Bar的HTML链接

您正在寻找的是文本挖掘工具。您可以在找到更多信息和链接。您可能还想查看Lucene及其端口。使用这些工具,基本思想是根据所讨论的文章(或标题)找到一组类似的文章。您可以搜索文章的各种属性,包括标题和内容或两者。la Delicious(或Stackoverflow)的标签系统也可能有帮助。与预先创建文章之间的链接不同,您可以在一个界面中呈现相关文章,就像本页右侧的“相关问题”界面一样


如果你想在每篇文章中找到并链接特定的文本,我认为你需要做一些预处理来选择相关的短语。即使如此,我认为由于标点符号/拼写错误或出于同样的原因不包含不相关的链接,也很难不遗漏任何内容。

您正在寻找的是文本挖掘工具。您可以在找到更多信息和链接。您可能还想查看Lucene及其端口。使用这些工具,基本思想是根据所讨论的文章(或标题)找到一组类似的文章。您可以搜索文章的各种属性,包括标题和内容或两者。la Delicious(或Stackoverflow)的标签系统也可能有帮助。与预先创建文章之间的链接不同,您可以在一个界面中呈现相关文章,就像本页右侧的“相关问题”界面一样


如果你想在每篇文章中找到并链接特定的文本,我认为你需要做一些预处理来选择相关的短语。即使如此,我认为也很难不因标点符号/拼写错误而遗漏某些内容,或者出于同样的原因不包含不相关的链接。

在添加链接之前,你应该问自己一些问题。您希望通过这样做为用户带来什么好处?您可能希望提高站点的可导航性。也许最好创建一种更简单的方法,以提交新文章的形式添加到旧文章的链接。也许可以添加“一键搜索所选文本”功能。也许您可以添加一个类似wiki的功能,让用户为所选文本建议链接。您可能希望在文章下方添加相关文章的链接(通过标记系统或文本挖掘生成)

全自动链路加法器的一些潜在问题: 您可能需要实现一个好的词义消歧算法,通过使用regex(或简单的子字符串匹配)放置错误的自动链接来避免混淆甚至激怒用户

由于文章的数量很大,您不希望为每个请求生成额外链接的html,而是缓存它

您需要决定重复的标题或包含其他标题作为子字符串的标题(要么选择最长的标题,要么链接到最近的文章,要么选择来自同一类别的文章)


TLDR版本:找到为用户提供所需功能的替代解决方案。

在添加链接之前,您应该问问自己一些问题。您希望通过这样做为用户带来什么好处?您可能希望提高站点的可导航性。也许最好创建一种更简单的方法,以提交新文章的形式添加到旧文章的链接。也许可以添加“一键搜索所选文本”功能。也许您可以添加一个类似wiki的功能,让用户为所选文本建议链接。您可能希望在文章下方添加相关文章的链接(通过标记系统或文本挖掘生成)

全自动链路加法器的一些潜在问题: 您可能需要实现一个好的词义消歧算法,通过使用regex(或简单的子字符串匹配)放置错误的自动链接来避免混淆甚至激怒用户

由于文章的数量很大,您不希望为每个请求生成额外链接的html,而是缓存它

您需要决定重复的标题或包含其他标题作为子字符串的标题(要么选择最长的标题,要么链接到最近的文章,要么选择来自同一类别的文章)


TLDR版本:找到为用户提供所需功能的替代解决方案。

是的,我了解相关文章。这是我在寻找的特定文本的选择-我觉得这可能是一个相当棘手的问题。是的,我理解相关文章。这是我所寻找的特定文本的选择——我觉得这可能是一个相当棘手的问题。