Tags 内容的自动分类

Tags 内容的自动分类,tags,tagging,semantics,semantic-web,taxonomy,Tags,Tagging,Semantics,Semantic Web,Taxonomy,我正在开发一个脚本,从我所属的特定meetup.com组的消息存档中提取消息- 其想法是动态地将这些添加到wordpress站点,并允许人们搜索消息、自动标记消息等 我的问题是如何最好地自动分类这些消息。我欢迎任何关于如何最好地进行这项工作以及什么是最有效的编程方式的想法和想法 选择1 使用delicious API按主题区域(如财务、技术、业务等)查找标签来源,并按主题查找相关标签:- 如果消息包含这些标记,则消息将被分配到相应的类别 我相信这是可行的,但不确定扫描邮件中这些标签的最有效方

我正在开发一个脚本,从我所属的特定meetup.com组的消息存档中提取消息-

其想法是动态地将这些添加到wordpress站点,并允许人们搜索消息、自动标记消息等

我的问题是如何最好地自动分类这些消息。我欢迎任何关于如何最好地进行这项工作以及什么是最有效的编程方式的想法和想法

选择1

使用delicious API按主题区域(如财务、技术、业务等)查找标签来源,并按主题查找相关标签:-

如果消息包含这些标记,则消息将被分配到相应的类别

我相信这是可行的,但不确定扫描邮件中这些标签的最有效方法

选择2

查找代表我所需类别的网站,如ft.com、economist for finance等、techcrunch for technology等,然后确定人们正在使用哪些标签来标记这些网站,并确定默认情况下这些标签是人们与这些网站及其内容堆栈的关系

选择3

将消息url传递给(路透社加莱项目的一部分)或使用开放加莱API。这是我尝试过的,但没有多大成功,因为内容的可变深度并不总是足以返回有意义的分类法

下面是我通过calais api解析的示例消息:-

原始消息

加莱结果

总结

就这样。我欢迎大家就如何最好地进行选项1和选项2的邮件扫描的方法和技巧提出任何想法和想法

仅供参考,到目前为止,大约有1700条消息,我猜我可能有10个类别,每个类别由20或30个标记定义

如果有人愿意帮助开发Wordpress插件或类来实现这一点,我将非常高兴有你加入。请记住,我不是一个程序员,我只是在边缘修修补补,假装我是一个程序员

提前谢谢

乔纳森 首席执行官

拥挤人群

你可能想去看看,它有用于自动标记内容的工具和插件(包括Wordpress),还可以看看,这是一个词汇表,用于使用RDFa表达内容上的标记,RDFa是目前一些搜索引擎索引的语义web标准