Algorithm 像fflick这样的服务是如何工作的?他们使用什么算法?
像fflick、mombo等服务可以分析关于电影的推文。他们似乎在处理数十万条推文Algorithm 像fflick这样的服务是如何工作的?他们使用什么算法?,algorithm,twitter,Algorithm,Twitter,像fflick、mombo等服务可以分析关于电影的推文。他们似乎在处理数十万条推文 他们如何将推特与电影相匹配?例如,假设有一部电影叫《未知》。他们如何判断tweet是谈论未知的电影还是未知的其他东西 他们怎么能收集这么多推特呢?流式API 他们是否维护了一个电影名称列表,并对照该列表检查每条推文,以确定推文是否引用了特定的电影 以下只是我的猜测 当然,需要一个电影名称列表。这是必要的第一步,可以将推文缩减到可能涉及电影的子集 电影片名可以从单词本身识别(如“终结者2”),也可以要求作者消除歧义
以下只是我的猜测 当然,需要一个电影名称列表。这是必要的第一步,可以将推文缩减到可能涉及电影的子集 电影片名可以从单词本身识别(如“终结者2”),也可以要求作者消除歧义(如“未知”——或“乱世佳人”,可以指电影或书)。在后一种情况下,将提供各种线索。也许最明显的是:
- 任何跟在“刚看过”或“看过”之后的词都很可能是电影名称。“阅读”之后的内容就更少了
- 如果提到电影中导演或演员的名字,很可能是指电影
- 推特内容严重偏向最新内容,因此,随着电影上映时间的增加,讨论电影的可能性降低
- 如果一条tweet是对另一条tweet的响应,而另一条tweet很可能是指一部特定的电影,那么它可能是关于同一部电影的