Statistics 盲目地对传入数据中的新趋势进行分类_Statistics_Artificial Intelligence_Classification_Bayesian

Statistics 盲目地对传入数据中的新趋势进行分类

statistics artificial-intelligence

Statistics 盲目地对传入数据中的新趋势进行分类,statistics,artificial-intelligence,classification,bayesian,Statistics,Artificial Intelligence,Classification,Bayesian,像谷歌新闻这样的新闻机构是如何自动对“奥巴马2011年预算”等新兴主题的文档进行分类和排序的我已经有一堆文章标记了棒球数据，比如球员姓名和与文章的相关性（谢谢，opencalais），我很想创建一个谷歌新闻风格的界面，在新帖子出现时对其进行排名和显示，尤其是新兴主题。我认为可以使用一些静态类别来训练朴素的贝叶斯分类器，但这实际上不允许跟踪趋势，比如“这名球员刚刚被交易到这支球队，其他球员也参与其中。”毫无疑问，谷歌新闻可能会使用其他技巧（甚至是它们的组合），但这是一个相对便宜的技巧，在计算上，

像谷歌新闻这样的新闻机构是如何自动对“奥巴马2011年预算”等新兴主题的文档进行分类和排序的

我已经有一堆文章标记了棒球数据，比如球员姓名和与文章的相关性（谢谢，opencalais），我很想创建一个谷歌新闻风格的界面，在新帖子出现时对其进行排名和显示，尤其是新兴主题。我认为可以使用一些静态类别来训练朴素的贝叶斯分类器，但这实际上不允许跟踪趋势，比如“这名球员刚刚被交易到这支球队，其他球员也参与其中。”

毫无疑问，谷歌新闻可能会使用其他技巧（甚至是它们的组合），但这是一个相对便宜的技巧，在计算上，从自由文本推断主题将利用NLP的概念，即一个词只有在与其他词连接时才有意义从多个文档中发现新主题类别的算法可概述如下：

POS（词性）标记文本
我们可能想更多地关注名词，甚至更多地关注命名实体（如奥巴马或新英格兰）
规范化文本
特别是用词干替换屈折词。甚至可以用相应的命名实体替换某些形容词（例如：Parisian==>Paris，legal==>law）
此外，删除噪波单词和噪波表达式
从手动维护的“当前/反复出现的热门词汇”（超级碗、选举、丑闻……）列表中识别一些词汇
这可以在后续步骤中使用，为某些N克提供更多重量
列举在每个文档中找到的所有N-gram（其中N为1表示4或5）
确保分别计算给定文档中每个N-gram的出现次数和引用给定N-gram的文档数量
最常引用的N-gram（即在大多数文件中引用的N-gram）可能是主题
确定现有主题（从已知主题列表中）
[可选]手动查看新主题

还可以修改此通用配方，以利用文档和其中文本的其他属性。例如，文档来源（比如cnn/sports vs.cnn/politics…）可用于选择特定领域的词汇。另一个例子是，该过程或多或少会强调文档标题（或带有特定标记的文本的其他区域）中的单词/表达式。

谷歌新闻背后的主要算法已由谷歌研究人员在学术文献中发表：

谈话：

哎呀，是我的错。它现在不见了。thx.你是说它如何推广到看不见的话题？