Algorithm 像fflick这样的服务是如何工作的?他们使用什么算法?

Algorithm 像fflick这样的服务是如何工作的?他们使用什么算法?,algorithm,twitter,Algorithm,Twitter,像fflick、mombo等服务可以分析关于电影的推文。他们似乎在处理数十万条推文 他们如何将推特与电影相匹配?例如,假设有一部电影叫《未知》。他们如何判断tweet是谈论未知的电影还是未知的其他东西 他们怎么能收集这么多推特呢?流式API 他们是否维护了一个电影名称列表,并对照该列表检查每条推文,以确定推文是否引用了特定的电影 以下只是我的猜测 当然,需要一个电影名称列表。这是必要的第一步,可以将推文缩减到可能涉及电影的子集 电影片名可以从单词本身识别(如“终结者2”),也可以要求作者消除歧义

像fflick、mombo等服务可以分析关于电影的推文。他们似乎在处理数十万条推文

  • 他们如何将推特与电影相匹配?例如,假设有一部电影叫《未知》。他们如何判断tweet是谈论未知的电影还是未知的其他东西

  • 他们怎么能收集这么多推特呢?流式API

  • 他们是否维护了一个电影名称列表,并对照该列表检查每条推文,以确定推文是否引用了特定的电影


  • 以下只是我的猜测

    当然,需要一个电影名称列表。这是必要的第一步,可以将推文缩减到可能涉及电影的子集

    电影片名可以从单词本身识别(如“终结者2”),也可以要求作者消除歧义(如“未知”——或“乱世佳人”,可以指电影或书)。在后一种情况下,将提供各种线索。也许最明显的是:

    • 任何跟在“刚看过”或“看过”之后的词都很可能是电影名称。“阅读”之后的内容就更少了
    • 如果提到电影中导演或演员的名字,很可能是指电影
    • 推特内容严重偏向最新内容,因此,随着电影上映时间的增加,讨论电影的可能性降低
    • 如果一条tweet是对另一条tweet的响应,而另一条tweet很可能是指一部特定的电影,那么它可能是关于同一部电影的
    我期望像上面这样的标准被用来根据一些权重分配分类概率,并且通常的技术已经被应用于调整权重以给出良好的预测。我希望有一种方法:基本上,让一些人对几百条tweet进行分类,然后优化此数据集某个子集上的性能权重,最后测试所选权重对数据集其余部分的分类效果如何(这是为了检查是否发生过拟合)