Artificial intelligence 关键词识别-可能吗?

Artificial intelligence 关键词识别-可能吗?,artificial-intelligence,neural-network,keyword,Artificial Intelligence,Neural Network,Keyword,我有一个系统,让用户可以搜索他想要的任何东西,并从不同的地方抓取内容到一个页面中 我通过一个关键字/标签或几个关键字来限制搜索结果,这样用户就不会得到他从未要求过的垃圾。 我总是坚持主要的市场/标签主题(关键字),不让搜索出错 起初一切都很好,但后来,当我深入开发这个系统时,我开始明白我无法预测或过滤将检索到的内容 系统是自动的,f.e,当你搜索“克里斯蒂亚诺·罗纳尔多”时,我想得到他的照片、视频、推特、新闻和其他东西。 当我用所有这些构建一个页面时,为了增强我的搜索引擎优化,我使用内容中最重复

我有一个系统,让用户可以搜索他想要的任何东西,并从不同的地方抓取内容到一个页面中

我通过一个关键字/标签或几个关键字来限制搜索结果,这样用户就不会得到他从未要求过的垃圾。 我总是坚持主要的市场/标签主题(关键字),不让搜索出错

起初一切都很好,但后来,当我深入开发这个系统时,我开始明白我无法预测或过滤将检索到的内容

系统是自动的,f.e,当你搜索“克里斯蒂亚诺·罗纳尔多”时,我想得到他的照片、视频、推特、新闻和其他东西。 当我用所有这些构建一个页面时,为了增强我的搜索引擎优化,我使用内容中最重复的词来提供更多内容,比如“查看更多”或基于1个用户搜索生成更多页面

我遇到了一个问题,当自动内容爬虫开始带来狗屎内容时。 我搜索“维珍大西洋”,它给我带来了航空公司的信息,这是我想要的,使用部分内容和关键字,我进一步查找这些信息,它给我带来了维珍尼亚,这是相关的,但不是我想要的。 然后它带来东西方,然后是美国,然后它在错误的方向上越走越深

那是一个简短的发言。我真正的问题是。。。是否有任何算法、理论或其他内容可供阅读,是否有可能识别内容/关键字与我手动设置的主主题的主题/方向/意义/相关性

所以,如果我说->只看体育相关内容,它不会给我带来关于罗纳尔多新女友的新闻,而是他的统计数据、职业数据和诸如此类的东西

我不在乎让人手动过滤内容并告诉AI: 接受/拒绝,以便根据要求的主题/模式了解要带什么和不带什么


神经网络,还有其他识别内容的人工智能算法吗?

简短回答:看看隐马尔可夫模型、贝叶斯网络和语义网研究。关于这一主题的研究可以填满整个图书馆

长答案

人工智能的问题通常是这些类型的问题非常非常困难。是的,有很多理论。但实施这些理论是另一回事。我看到一些公司正在建造某种发动机,他们对此感到非常自豪。但他们通常只关注工具,而忘记了他们真正想要解决的问题。这就是我称之为AI黑盒问题的问题。你有一个算法,比如隐马尔可夫模型、神经网络、贝叶斯网络、卡尔曼滤波、支持向量机等等。然后你向它们扔一堆数据,它们就会输出一堆参数化模型。但通常无法追踪内部状态

因此,如果你想解决语义网的问题,你已经选择了其中一个最困难的问题。如何告诉电脑你在找什么?谷歌使用链接结构来检索信息。还有语义网的支持者,他们说内容提供商应该添加一堆元数据。我认为这种方法基本上失败了。总是有新的创业公司试图在这个领域做新的事情。Palantir可能是其中一家数据挖掘公司


因此,我建议从使用玩具问题学习基础知识开始,拿起一本教科书,如Russell/Norvig,去上课,你现在可以在网上完成,然后从那里开始。玩弄棘手的问题没什么错,但很容易让人沮丧。知道你的问题在有限的时间和资源内是可以解决的。(说我自己在一个几乎不可能解决的问题上工作了5年)

这是一个非常广泛的问题,有多种方法可以解决。试着查一下“谷歌语义搜索”,看看它是如何工作的。至少它与什么相关?A.I?数据挖掘?还有别的吗?:)好。。。非常普遍。一个简单的解决方案是,当你搜索C·罗纳尔多时,你添加了一个关键词“sport”,这会使搜索结果更加偏向。问题是也许体育不是一个正确的词,也许在网页上你会看到足球或其他东西。您真正想要做的是对结果进行聚类。也就是说,根据某种巧妙的距离定义(即文档中单词的函数),将相似的文档放在一起。这绝对是人工智能,可以说是数据挖掘,但我想这里的标签没有那么重要。如果你想要一个网页分类器,我的回答可能会有所帮助:嘿,非常感谢你的回答。这正是我想要的答案。我知道这有多难,我已经熟悉了一些A.I的基础知识,是的,我已经参加了一些在线课程,还观看了斯坦福大学和麻省理工学院的离线课程。:)我在这一领域的知识不足不会阻止项目的启动,也不会阻止它现在能做什么,我只会并行地学习这个主题,有一天,谁知道,我可能会成功地了解我接收的内容类型,并决定是保留还是忽略它。谢谢好极了!:)HMMs与此任务有什么关系?在ML社区中,HMM是时态模型。在这种情况下,时间在哪里?