Twitter 带语言的流式API

Twitter 带语言的流式API,twitter,Twitter,我是否可以使用Twitter的Live Straeming API仅检索英语推文? 大约60-70%的非英语tweet使用了“样本”或“过滤”结果 谢谢 Joel我还没有找到一个很好的解决方案,我用以下方法解决了这个问题: 1) 按等于“en”的lang属性筛选 2) 我发现一些非英语语言仍然存在于英语标签的tweet中。所以,我下载了西班牙语、荷兰语和印度尼西亚语的单词列表,并检查了推特中出现的非英语单词的数量。超过1个,我将其视为非英语 3) 我想我也需要过滤葡萄牙语,需要对此进行调查。只过

我是否可以使用Twitter的Live Straeming API仅检索英语推文? 大约60-70%的非英语tweet使用了“样本”或“过滤”结果

谢谢


Joel

我还没有找到一个很好的解决方案,我用以下方法解决了这个问题:

1) 按等于“en”的lang属性筛选

2) 我发现一些非英语语言仍然存在于英语标签的tweet中。所以,我下载了西班牙语、荷兰语和印度尼西亚语的单词列表,并检查了推特中出现的非英语单词的数量。超过1个,我将其视为非英语


3) 我想我也需要过滤葡萄牙语,需要对此进行调查。

只过滤推特流中的英语消息是一个活跃的研究领域。您可以使用现成的语言识别系统在本地处理流,并仅选择英语消息。一个这样的系统是。完全公开,我是langid.py的作者


我知道的另一个系统是。我还没有机会尝试使用它,但它是专门为Twitter消息的语言识别而设计的。

Twitter不久将为此发布一个新的(或更新的)属性!看到他们的博客帖子

新的lang属性指定Tweet所用的语言,由Twitter的机器语言检测算法识别

在撰写本文时,
lang
属性和
language
参数尚未出现,但请检查以查看他们计划何时发布它(目前仅指定“2013”)

更新日期:2013年3月30日: 2013年3月26日,
lang
属性被添加到流式API中。此外,它还于2013年3月6日在RESTAPI上发布。

Twitter刚刚完成了它!! cf日历API:

2013年3月26日,lang属性和语言参数出现在流媒体博客文章流媒体API上


推特API摇滚

对于Twitter流媒体API,语言现在是一个请求参数:


因此,对于英语,您需要将'language=en'添加到请求参数字符串中。

我遇到了同样的问题。您在这方面有什么进展吗?感谢您提供
langid.py
;我在以前的项目中使用过它!然而,我想我最近读到Twitter很快就会在服务器端提供这一功能,这将受到热烈欢迎,因为语言识别任务本身可能非常缓慢。