Algorithm 像fflick这样的服务是如何工作的？他们使用什么算法？_Algorithm_Twitter

Algorithm 像fflick这样的服务是如何工作的？他们使用什么算法？

algorithm twitter

Algorithm 像fflick这样的服务是如何工作的？他们使用什么算法？,algorithm,twitter,Algorithm,Twitter,像fflick、mombo等服务可以分析关于电影的推文。他们似乎在处理数十万条推文他们如何将推特与电影相匹配？例如，假设有一部电影叫《未知》。他们如何判断tweet是谈论未知的电影还是未知的其他东西他们怎么能收集这么多推特呢？流式API 他们是否维护了一个电影名称列表，并对照该列表检查每条推文，以确定推文是否引用了特定的电影以下只是我的猜测当然，需要一个电影名称列表。这是必要的第一步，可以将推文缩减到可能涉及电影的子集电影片名可以从单词本身识别（如“终结者2”），也可以要求作者消除歧义

像fflick、mombo等服务可以分析关于电影的推文。他们似乎在处理数十万条推文

他们如何将推特与电影相匹配？例如，假设有一部电影叫《未知》。他们如何判断tweet是谈论未知的电影还是未知的其他东西

他们怎么能收集这么多推特呢？流式API

他们是否维护了一个电影名称列表，并对照该列表检查每条推文，以确定推文是否引用了特定的电影

以下只是我的猜测

当然，需要一个电影名称列表。这是必要的第一步，可以将推文缩减到可能涉及电影的子集

电影片名可以从单词本身识别（如“终结者2”），也可以要求作者消除歧义（如“未知”——或“乱世佳人”，可以指电影或书）。在后一种情况下，将提供各种线索。也许最明显的是：

任何跟在“刚看过”或“看过”之后的词都很可能是电影名称。“阅读”之后的内容就更少了
如果提到电影中导演或演员的名字，很可能是指电影
推特内容严重偏向最新内容，因此，随着电影上映时间的增加，讨论电影的可能性降低
如果一条tweet是对另一条tweet的响应，而另一条tweet很可能是指一部特定的电影，那么它可能是关于同一部电影的

我期望像上面这样的标准被用来根据一些权重分配分类概率，并且通常的技术已经被应用于调整权重以给出良好的预测。我希望有一种方法：基本上，让一些人对几百条tweet进行分类，然后优化此数据集某个子集上的性能权重，最后测试所选权重对数据集其余部分的分类效果如何（这是为了检查是否发生过拟合）