Statistics 盲目地对传入数据中的新趋势进行分类

Statistics 盲目地对传入数据中的新趋势进行分类,statistics,artificial-intelligence,classification,bayesian,Statistics,Artificial Intelligence,Classification,Bayesian,像谷歌新闻这样的新闻机构是如何自动对“奥巴马2011年预算”等新兴主题的文档进行分类和排序的 我已经有一堆文章标记了棒球数据,比如球员姓名和与文章的相关性(谢谢,opencalais),我很想创建一个谷歌新闻风格的界面,在新帖子出现时对其进行排名和显示,尤其是新兴主题。我认为可以使用一些静态类别来训练朴素的贝叶斯分类器,但这实际上不允许跟踪趋势,比如“这名球员刚刚被交易到这支球队,其他球员也参与其中。”毫无疑问,谷歌新闻可能会使用其他技巧(甚至是它们的组合),但这是一个相对便宜的技巧,在计算上,

像谷歌新闻这样的新闻机构是如何自动对“奥巴马2011年预算”等新兴主题的文档进行分类和排序的

我已经有一堆文章标记了棒球数据,比如球员姓名和与文章的相关性(谢谢,opencalais),我很想创建一个谷歌新闻风格的界面,在新帖子出现时对其进行排名和显示,尤其是新兴主题。我认为可以使用一些静态类别来训练朴素的贝叶斯分类器,但这实际上不允许跟踪趋势,比如“这名球员刚刚被交易到这支球队,其他球员也参与其中。”

毫无疑问,谷歌新闻可能会使用其他技巧(甚至是它们的组合),但这是一个相对便宜的技巧,在计算上,从自由文本推断主题将利用NLP的概念,即一个词只有在与其他词连接时才有意义 从多个文档中发现新主题类别的算法可概述如下:

  • POS(词性)标记文本
    我们可能想更多地关注名词,甚至更多地关注命名实体(如奥巴马或新英格兰)
  • 规范化文本
    特别是用词干替换屈折词。甚至可以用相应的命名实体替换某些形容词(例如:Parisian==>Paris,legal==>law)
    此外,删除噪波单词和噪波表达式
  • 从手动维护的“当前/反复出现的热门词汇”(超级碗、选举、丑闻……)列表中识别一些词汇
    这可以在后续步骤中使用,为某些N克提供更多重量
  • 列举在每个文档中找到的所有N-gram(其中N为1表示4或5)
    确保分别计算给定文档中每个N-gram的出现次数和引用给定N-gram的文档数量
  • 最常引用的N-gram(即在大多数文件中引用的N-gram)可能是主题
  • 确定现有主题(从已知主题列表中)
  • [可选]手动查看新主题

还可以修改此通用配方,以利用文档和其中文本的其他属性。例如,文档来源(比如cnn/sports vs.cnn/politics…)可用于选择特定领域的词汇。另一个例子是,该过程或多或少会强调文档标题(或带有特定标记的文本的其他区域)中的单词/表达式。

谷歌新闻背后的主要算法已由谷歌研究人员在学术文献中发表:

  • 谈话:

哎呀,是我的错。它现在不见了。thx.你是说它如何推广到看不见的话题?