Text 检测主题文本？_Text_Twitter_Classification

Text 检测主题文本？

text twitter

Text 检测主题文本？,text,twitter,classification,Text,Twitter,Classification,我想筛选文本（特别是Twitter消息），看看它们是否与特定主题相关。你去过那条路吗？如果是的话，我很想听听你会用什么方法就我而言，仅搜索主题关键字就可以在大约7%的时间内获得有用的文本；这些关键词有多种含义，其中一些并不在主题上。对于我来说，自动过滤并不需要完美；如果提取的信息80%都与主题相关，我会很高兴。我也愿意丢失10-30%的主题信息第一次用手传递信息时，有一些特征使得信息很可能是好的，比如某些英语短语。其他特性很有可能被拒绝，如URL、多个哈希标记和其他短语。其他的则更难评估我

我想筛选文本（特别是Twitter消息），看看它们是否与特定主题相关。你去过那条路吗？如果是的话，我很想听听你会用什么方法

就我而言，仅搜索主题关键字就可以在大约7%的时间内获得有用的文本；这些关键词有多种含义，其中一些并不在主题上。对于我来说，自动过滤并不需要完美；如果提取的信息80%都与主题相关，我会很高兴。我也愿意丢失10-30%的主题信息

第一次用手传递信息时，有一些特征使得信息很可能是好的，比如某些英语短语。其他特性很有可能被拒绝，如URL、多个哈希标记和其他短语。其他的则更难评估

我可以手动创建一组正则表达式和相关权重，并手动调整，直到得到我喜欢的输出。这很可能奏效。但我可以列举出其他几种可能的方法，我想知道哪些是堆栈溢出读者比较幸运的方法

谢谢

这本身就是一个完整的领域！我建议在自然语言处理文献中做一些研究

有一些特别的方法可以做到这一点，但这些方法很容易出错：许多误报和漏报。不过这可能是一个好的开始

如果您使用一个关键字，您可以尝试通过使用相关关键字周围的单词来消除关键字含义的歧义（如果它有多个含义）。但是，要消除歧义，需要经过处理的语料库（一堆文档）能够确定哪些单词最频繁地出现在一起，并且可能意味着相同的事情

您可以测量正在分析的文本与已知相似的文档之间的距离。您需要使用两个文本源的字数，然后比较术语/文档向量。查阅“文档向量模型”以获得更彻底的处理

这是一个很好的项目，但并不简单。

谢谢，Ryan。我来看看这些。无论我走哪条路，似乎有大量预先分类的例子会有所帮助。所以我首先要做一个机械土耳其人的工作。关于选项1，这看起来很有希望，你有任何链接或谷歌搜索的短语，将引导我在正确的方向？“文档向量模型”给了我很多关于#2的信息，但我很难找到更多关于#1的信息。再次感谢！对于#1，您可以将“词义消歧”作为一个短语，并将“使用相邻词”作为关键字。可能有比#1更好的方法（词汇链是一种方法），但这是最快想到的方法。请看这里：