Amazon web services mechanical turk体系结构,用于流式处理无休止的任务列表

Amazon web services mechanical turk体系结构,用于流式处理无休止的任务列表,amazon-web-services,mechanicalturk,Amazon Web Services,Mechanicalturk,我们应该如何设计一个使用Amazon Mechanical Turk API来处理任务流而不是单个批量任务的解决方案 以下是更多信息: 我们的应用程序每天接收大约1000张照片和视频流。每个图片或视频包含6-8个需要转录的数字(电子设备的序列号),以及转录的“确定级别”(例如“确定”、“不确定”、“无法读取”)。每幅图像的转录时间不超过10秒,每段视频的转录时间不超过20秒,并且需要最少的技能或培训 我们的应用程序将在一天中不断上传这些图像,我们希望在几分钟内将它们变成数字。理想的解决方案是我们

我们应该如何设计一个使用Amazon Mechanical Turk API来处理任务流而不是单个批量任务的解决方案

以下是更多信息:

我们的应用程序每天接收大约1000张照片和视频流。每个图片或视频包含6-8个需要转录的数字(电子设备的序列号),以及转录的“确定级别”(例如“确定”、“不确定”、“无法读取”)。每幅图像的转录时间不超过10秒,每段视频的转录时间不超过20秒,并且需要最少的技能或培训

我们的应用程序将在一天中不断上传这些图像,我们希望在几分钟内将它们变成数字。理想的解决方案是我们每分钟上传一次新任务(高峰期每分钟不到20次),并每分钟下载一次结果

两个问题:

  • 为了确保快速周转时间、准确性和成本效益之间的良好平衡,我们应该一次提交一项任务,还是最好批量提交任务?如果是,在设置批量大小时应该考虑哪些变量?
  • 是否有一些库或托管服务包装了mturkapi,以便更轻松地处理像我们这样的用例,其中HIT生成是流式的和持续的,而不是一次性的
为这些新手问题道歉,我们是新来的机械土耳其人

将任务一次一个地传输到Turk 您可以使用以下操作通过mechanical turk的api单独流式处理任务。每次在应用程序中收到图像时,您都可以调用CreateHIT操作立即将任务发送给Turk

您还可以通过api设置通知,以便在任务完成后立即收到警报

批处理与流式处理 至于批处理与流式处理,最好通过流式处理来实现周转时间和成本的良好平衡。批处理不会太多地降低成本,提高准确性在很大程度上取决于手动或实施自动化流程对员工绩效进行审查、审查和跟踪

图书馆和服务 大多数库都提供api中可用的所有操作,因此您可以通过google或Github搜索编程语言中的库。(我们使用Ruby库)

提供托管解决方案的公司的良好列表可以在Quora问题答案的元平台部分找到:(免责声明:我的公司是其中列出的解决方案之一。)