Text 检测主题文本?
我想筛选文本(特别是Twitter消息),看看它们是否与特定主题相关。你去过那条路吗?如果是的话,我很想听听你会用什么方法 就我而言,仅搜索主题关键字就可以在大约7%的时间内获得有用的文本;这些关键词有多种含义,其中一些并不在主题上。对于我来说,自动过滤并不需要完美;如果提取的信息80%都与主题相关,我会很高兴。我也愿意丢失10-30%的主题信息 第一次用手传递信息时,有一些特征使得信息很可能是好的,比如某些英语短语。其他特性很有可能被拒绝,如URL、多个哈希标记和其他短语。其他的则更难评估 我可以手动创建一组正则表达式和相关权重,并手动调整,直到得到我喜欢的输出。这很可能奏效。但我可以列举出其他几种可能的方法,我想知道哪些是堆栈溢出读者比较幸运的方法Text 检测主题文本?,text,twitter,classification,Text,Twitter,Classification,我想筛选文本(特别是Twitter消息),看看它们是否与特定主题相关。你去过那条路吗?如果是的话,我很想听听你会用什么方法 就我而言,仅搜索主题关键字就可以在大约7%的时间内获得有用的文本;这些关键词有多种含义,其中一些并不在主题上。对于我来说,自动过滤并不需要完美;如果提取的信息80%都与主题相关,我会很高兴。我也愿意丢失10-30%的主题信息 第一次用手传递信息时,有一些特征使得信息很可能是好的,比如某些英语短语。其他特性很有可能被拒绝,如URL、多个哈希标记和其他短语。其他的则更难评估 我
谢谢 这本身就是一个完整的领域!我建议在自然语言处理文献中做一些研究 有一些特别的方法可以做到这一点,但这些方法很容易出错:许多误报和漏报。不过这可能是一个好的开始
这是一个很好的项目,但并不简单。谢谢,Ryan。我来看看这些。无论我走哪条路,似乎有大量预先分类的例子会有所帮助。所以我首先要做一个机械土耳其人的工作。关于选项1,这看起来很有希望,你有任何链接或谷歌搜索的短语,将引导我在正确的方向?“文档向量模型”给了我很多关于#2的信息,但我很难找到更多关于#1的信息。再次感谢!对于#1,您可以将“词义消歧”作为一个短语,并将“使用相邻词”作为关键字。可能有比#1更好的方法(词汇链是一种方法),但这是最快想到的方法。请看这里: