Algorithm 对文本内容进行地理标记或地理标记的方法

Algorithm 对文本内容进行地理标记或地理标记的方法,algorithm,statistics,nlp,named-entity-recognition,Algorithm,Statistics,Nlp,Named Entity Recognition,用城市/地区或原点自动标记文本的好算法有哪些?也就是说,如果一个博客是关于纽约的,我怎么能从程序上讲呢。是否有一些包/文件声称可以肯定地做到这一点 我看过一些基于tfidf的方法,专有名词交叉点,但到目前为止,还没有取得惊人的成功,我很欣赏这些想法 更一般的问题是,给定一些主题列表,为主题分配文本 简单/朴素的方法比完全基于贝叶斯方法更受欢迎,但我持开放态度。您正在寻找一个系统,或简短的NER。有很多方法可以帮助你。特别是LingPipe有着非常重要的作用。似乎是以地名为导向的,但我还没有用过

用城市/地区或原点自动标记文本的好算法有哪些?也就是说,如果一个博客是关于纽约的,我怎么能从程序上讲呢。是否有一些包/文件声称可以肯定地做到这一点

我看过一些基于tfidf的方法,专有名词交叉点,但到目前为止,还没有取得惊人的成功,我很欣赏这些想法

更一般的问题是,给定一些主题列表,为主题分配文本

简单/朴素的方法比完全基于贝叶斯方法更受欢迎,但我持开放态度。

您正在寻找一个系统,或简短的NER。有很多方法可以帮助你。特别是LingPipe有着非常重要的作用。似乎是以地名为导向的,但我还没有用过

这是一篇很好的博客文章,介绍了NER在地名方面的困难

如果您使用Java,我建议您使用LingNer类。OpenNLP也有一些,但前者有更好的文档


如果你正在寻找一些理论背景,那么就构建一个有趣的系统并加以记录。

似乎是一个很好的选择。这和你可能会发现的算法一样幼稚。

谢谢你的建议。这是一个很难的问题,你的答案,我总结为“查找NER”,大概是最好的:)你找到这个问题的简单解决方案了吗。。??因为我也在寻找同样的应用。。我已经实现了自己的Trie数据结构,也可以轻松查找,但问题是收集数据集。。我需要得到字典里所有的数据集。。。请分享你的想法。。